Methodes Bayesiennes

METHODES
BAYESIENNES
Prof. Abdelouahid Lyhyaoui
ENSAT 2020-2021 Méthodes Bayesiennes

Introduction:Méthode simpliste
• 2 classes:
– saumons: w1
– bars: w2
• Aucune mesure:
– Aucun prétraitement:
– Aucune extraction de
caractéristiques
• Classification:
– Basée sur les probabilités a
priori P(wi)
– Choisir w1 si P(w1) > P(w2)
sinon w2
• Erreur:
– Min[P(w1), P(w2)]
Introduction:Méthode simpliste
• 2 classes
– saumons: w1
– bars: w2
• Extraction de caractéristiques:
– Une mesure x est faite
• Classification:
– Basée sur la vraisemblance ou
densité de probabilité de x pour
chacune des classe
– Choisir w1 si p(x|w1) > p(x|w2) sinon w2

BAYES
• Un classificateur Bayesien tient compte des deux facteurs

précédents pour calculer la Probabilité a posteriori
• La probabilité jointe qu’une observation provienne d’une

classe wi avec comme caractéristique la valeur x est donnée par:
P ( wi , x) = P ( wi ) P ( x | wi ) = P ( x) P ( wi | x)
• D’où le théorème de Bayes:
p( wi ) p( x | wi )
p( wi | x) =
p( x)

• 2 classes
– saumons: w1
– bars: w2 P( w1 ) P( x | w1 )
• Extraction de caractéristiques:
– Une mesure x est faite
• Classification: P( w2 ) P( x | w2 )
– Basée sur les probabilités a
posteriori p(wi|x)
– Calculées à partir des
vraisemblances p(x|wi) et des probabilités a priori P(wi)
– Choisir w1 si P(w1| x) > P(w2 | x) sinon w2 ou
– Choisir w1 si p(x|w1)P(w1) > p(x|w2)P(w2) sinon w2
• Erreur:
– Min[P(w1| x), P(w2 | x)]
Probabilités a posteriori
p( wi ) p( x | wi )
p( wi | x) =
p( x)
P ( x) = P ( w1 ) P( x | w1 ) + P( w2 ) P( x | w2 )

Compliquons un peu les choses: Notion de Risque
• 2 classes – saumons: w1 Classificateur à erreur
– bars: w2 minimale?
• Extraction de caractéristiques: 0 i = j
– Une mesure x est faite λij = 
1 i ≠ j
• Classification:
– Basée sur la minimisation du risque conditionnel d’une classification
– Calculé à partir des probabilités a posteriori
– Plus général
– R(w1| x) = λ11P(w1| x) + λ12P(w2 | x)
– R(w2| x) = λ21P(w1| x) + λ22P(w2 | x)
– Choisir w1 si R(w1| x) < R(w2| x) sinon w2
– λ11 risque de classer un saumon dans la classe saumon (faible)
– λ12 risque de classer un bar dans la classe saumon (élevé)
– λ22 risque de classer un bar dans la classe bar (faible)
– λ21 risque de classer un saumon dans la classe bar (moyen)
Fonctions discriminantes
• Fonctions gi(x) tel que: gi(x) > gj(x) ∀j ≠ i si x ∈ wi
• Par exemple:
•P(wi)
• p(x|wi)
• P(wi| x)
• p(x | wi) P(wi)
• -R(wi| x)
• ln p(x | wi) + ln P(wi)

généralisation à N dimensions
• x devient un vecteur x
plutôt qu’un scalaire
• Mais quelle est la forme

de p(x | wi)?

la distribution normale ou gaussienne (1)
Propriété mathématique et
statistique unique:
– Fourier (G) = G’
– Transformation
µ
2
linéaire (G) = G’ 1  x − 
1 −  
2 σ 
– Simple p( x) = e
• 2 paramètres dans σ 2π
le cas 1D
• N+N(N+1)/2 pour
N dimensions
– Théorème de la limite centrale: Somme d’un grand nombre de

variables indépendantes donne une distribution gaussienne
– Idéale pour modéliser p(x | wi)
la distribution normale ou gaussienne (2)

Fonctions discriminantes gaussiennes
• 2 classes
• On teste:
g(x) = g1(x) – g2(x)
• Si g(x) > 0 alors w1
sinon w2
• g(x)=0  g1(x) = g2(x)
correspond à la frontière de décision

Frontières de décision 1D
• Si les valeurs de la caractéristique x pour chaque classe w1 et w2

suivent une loi normale
 1  x − µi  
2
g i ( x) = ln[P( wi ) p ( x | wi )] = ln  P ( wi )
1
e −   
 σ i 2π 2  σi  

2
 P ( wi )  1  x − µi 
= ln −  

 2 σ
 σ i 2π   i 
• La frontière de décision est: g(x)=g1(x)- g2(x)=0
2 2
 P ( w1 )   P( w2 )  1  x − µ1  1  x − µ 2 
ln  − ln
  σ 2π
−   
 2 σ  + 2 σ  =0

 σ 1 2π   2   1   2 

• Cas Général: 2 solutions
2 2
 P( w1 )   P( w2 )  1  x − µ1  1  x − µ 2 
ln  − ln
  σ 2π
−   
 2 σ  + 2 σ  =0

 σ 1 2π   2   1   2 
• Forme ax2 + bx + c = 0

• Cas σ 1 = σ 2 : 1 solution
0 = C + ( x − µ1 ) − ( x − µ 2 )
2 2
0 = C ' − 2(µ1 − µ 2 )x
x = C '' seuil unique
• Avec en plus P(w1)=P(w2)
(x − µ1 )2 = (x − µ 2 )2
µ1 + µ 2
x=
2
Frontières de décision d-D
• Si nous avons c classes et p
caractéristiques, nous pouvons
représenter les moyennes des • Les variances et covariances des
attributs de chaque classe wi par caractéristiques de chaque classe wi
un vecteur de moyenne sont représentées par une matrice de
covariance
 µ1 
   σ 112 σ 122 σ 12p 
 µ2   2 
   σ 12 σ 22
2
σ2p 
2
µi = 
.
 Σ i =  
 .  
   
 .   2 2 
µ 
 p
σ 1 p σ pp 
• Cette matrice est symétrique

• La variance de chaque attribut est sur la diagonale
• La fonction discriminante a la forme
P ( wi ) −
1
( x − µi )T Σ i−1 ( x − µi )
P( wi ) p ( x | wi ) = e 2
Σ i (2π )
d
En prenant le logarithme et multipliant par 2 nous obtenons
2 ln P ( wi ) − ln Σ i − d ln 2π − ( x − µi ) Σ −1
(x − µi )
T
i

• La frontière entre 2 classes wi et wj est définie par
2 ln P ( wi ) − ln Σ i − ( x − µi ) Σ −1
(x − µi )
T
i
= 2 ln P ( w j ) − ln Σ j − (x − µ j ) Σ −j1 (x − µ j )
T
• Sachant que:
(x − µ ) Σ (x − µ ) = x Σ
j
T −1
j j
T −1
j x − 2 µ Tj Σ −j1 x + µ Tj Σ −j1µ j
• On obtient la forme:
x Ax + b x + c = 0
T T

g ( x) = x Ax + b x + c = 0
T T
−1 −1
A = Σ −Σj i b = −2Σ −j 1µ j + 2Σ i−1µi
P ( wi ) Σj
c = 2 ln − ln + µ Tj Σ −j1µ j − µi Σ i−1µi
P( w j ) Σi
• Quadratique!
• Surfaces de décision sont des hyperquadriques
– hyperplans, paires d’hyperplans,
– hypershères, hyperellipsoïdes,
– hyperparaboloïdes, hyperhyperboloïdes

Probabilité d’erreurs?
• Erreur pour une classe
P (erreur | wi ) = ∫ p( x | w )dx
x∉Ri
i
• Erreur total (2 classes):
P(erreur ) = P( w1 ) ∫ p( x | w )dx + P(w ) ∫ p( x | w )dx

x∈R2
1 2
x∈R1
2

Methodes Bayesiennes

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Methodes Bayesiennes

Transféré par

Droits d'auteur :

Formats disponibles

METHODES

Prof. Abdelouahid Lyhyaoui

ENSAT 2020-2021 Méthodes Bayesiennes

– Choisir w1 si p(x|w1) > p(x|w2) sinon w2

ENSAT 2020-2021 Méthodes Bayesiennes

• Un classificateur Bayesien tient compte des deux facteurs

• La probabilité jointe qu’une observation provienne d’une

ENSAT 2020-2021 Méthodes Bayesiennes

ENSAT 2020-2021 Méthodes Bayesiennes

• p(x | wi) P(wi)

• ln p(x | wi) + ln P(wi)

• Mais quelle est la forme

ENSAT 2020-2021 Méthodes Bayesiennes

– Théorème de la limite centrale: Somme d’un grand nombre de

ENSAT 2020-2021 Méthodes Bayesiennes

• g(x)=0  g1(x) = g2(x)

correspond à la frontière de décision

• Si les valeurs de la caractéristique x pour chaque classe w1 et w2

• La frontière de décision est: g(x)=g1(x)- g2(x)=0

ENSAT 2020-2021 Méthodes Bayesiennes

ENSAT 2020-2021 Méthodes Bayesiennes

• Avec en plus P(w1)=P(w2)

• Cette matrice est symétrique

En prenant le logarithme et multipliant par 2 nous obtenons

ENSAT 2020-2021 Méthodes Bayesiennes

ENSAT 2020-2021 Méthodes Bayesiennes

ENSAT 2020-2021 Méthodes Bayesiennes

• Erreur total (2 classes):

P(erreur ) = P( w1 ) ∫ p( x | w )dx + P(w ) ∫ p( x | w )dx

ENSAT 2020-2021 Méthodes Bayesiennes

Vous aimerez peut-être aussi