Académique Documents
Professionnel Documents
Culture Documents
Plan
▪ Définition
▪ Théorème de bayes
▪ Application du théorème de Bayes pour faire la
classification
▪ Gestion de quelques types d’attributs
Technique de classification probabiliste basée sur le théorème de
Bayes
▪ largement utilisé dans la classification des textes
❑ Objectif: Estimer l'étiquette de classe la plus probable pour un
objet donné
❑ Formulation probabiliste de la tâche de classification:
▪ considérer chaque attribut et étiquette de classe comme des
variables aléatoires
▪ Etant donné un objet avec les attributs (𝑥1, 𝑥2, … , 𝑥𝑛)
le but est de trouver la classe C qui maximise la probabilité
conditionnelle : 𝑃(𝐶| 𝑥1, 𝑥2, … , 𝑥𝑛) = 𝑃(𝐶|𝑋)
Exemple: Devrions-nous jouer au golf?
❑ P(jouer = oui | Ciel = pluvieux, température = froide)
❑ P(jouer = non | Ciel = pluvieux, température = froide)
Probabilité conditionnelle de X
L’enregistrement X
La probabilité à priori
𝑃 𝑋 𝐶 𝑃(𝐶) de la classe C
𝑃 𝐶𝑋 =
La classe C
𝑃(𝑋) La probabilité à priori de X
Probabilité conditionnelle de X
L’enregistrement X
La probabilité à priori
𝑃 𝑋 𝐶 𝑃(𝐶) de la classe C
𝑃 𝐶𝑋 =
La classe C
𝑃(𝑋) La probabilité à priori de X
▪ P (X) est le même pour toutes les classes. Ensoleillé Froide Normale Non Oui
Ainsi, il suffit d'estimer P (C) et P (X | C) Pluvieux Douce Normale Non Uoi
2. Choisissez la valeur de C qui maximise P (C | X). Ensoleillé Douce Normale Oui Oui
Nuageux Douce Elevée Oui Oui
Nuageux Chaude Normale Non Oui
Pluvieux Douce Elevée Oui Non
Données d’entrainement
Ciel Température Humidité Venteux Jouer_Golf
La probabilité a priori P(Cj) pour chaque Ensoleillé Chaude Elevée Non Non
classe Cj est estimée comme suit : Ensoleillé Chaude Elevée Oui Non
1. Compter les enregistrements de la base Nuageux Chaude Elevée Non Oui
de données d’entrainement appartenant Pluvieux Douce Elevée Non Oui
à la classe Cj Pluvieux Froide Normale Non Oui
2. Diviser ce nombre par le nombre total des Pluvieux Froide Normale Oui Non
enregistrements. Nuageux Froide Normale Oui Oui
𝑃 𝑋 𝐶𝑗 = 𝑃 𝑥1 , 𝑥2 , , , , , , 𝑥𝑛 |𝐶𝑗 = ෑ 𝑃 𝑥𝑖 𝐶𝑗 = 𝑃 𝑥1 𝐶𝑗 × 𝑃 𝑥2 𝐶𝑗 ×, , , ,× 𝑃 𝑥𝑛 𝐶𝑗
𝑖=1
𝑃 𝑋 𝐶𝑗 = 𝑃 𝑥1 𝐶𝑗 × 𝑃 𝑥2 𝐶𝑗 ×, , , ,× 𝑃 𝑥𝑛 𝐶𝑗
P(Ciel=pluvieux, Température=froide | jouer=oui) =
P(ciel=pluvieux | jouer=oui) x P(Tmpérature=froide | jouer=oui)
Résultat:
les probabilités 𝑃 (𝑥𝑖 | 𝐶𝑗) pour tous les 𝑥𝑖 et 𝐶𝑗 peuvent être estimées
directement à partir des données d'apprentissage.
Ciel Température Humidité Venteux Jouer_Golf
Pluvieux 3 2 Froide 3 1
Ensoleillé 2/9 3/5 Chaude 2/9 2/5 Elevée 3/9 4/5 Oui 6/9 2/5 9/14 5/14
Nuageux 4/9 0/5 Douce 4/9 2/5 normale 6/9 1/5 Non 3/9 3/5
Pluvieux 3/9 2/5 Froide 3/9 1/5
Ciel Température Humidité Venteux Jouer_Golf
p(Ciel=ensoleillé | oui)
Pluvieux Froide Normale Non Oui
Ciel Température Humidité venteux jouer
oui Non oui Non oui Non Oui Non Oui Non
Pluvieux 3 2 Froide 3 1
Ensoleillé 2/9 3/5 Chaude 2/9 2/5 Elevée 3/9 4/5 Oui 6/9 2/5 9/14 5/14
Nuageux 4/9 0/5 Douce 4/9 2/5 normale 6/9 1/5 Non 3/9 3/5
Pluvieux 3/9 2/5 Froide 3/9 1/5
Pluvieux 3 2 Froide 3 1
Ensoleillé 2/9 3/5 Chaude 2/9 2/5 Elevée 3/9 4/5 Oui 6/9 2/5 9/14 5/14
Nuageux 4/9 0/5 Douce 4/9 2/5 normale 6/9 1/5 Non 3/9 3/5
Pluvieux 3/9 2/5 Froide 3/9 1/5
Pluvieux 3 2 Froide 3 1
Ensoleillé 2/9 3/5 Chaude 2/9 2/5 Elevée 3/9 4/5 Oui 6/9 2/5 9/14 5/14
Nuageux 4/9 0/5 Douce 4/9 2/5 normale 6/9 1/5 Non 3/9 3/5
Pluvieux 3/9 2/5 Froide 3/9 1/5
P(Non | X) =(P(Ciel = ensoleillé | Non ) x P(Temp = Fraiche | Non ) x P(Humidité = Elevée | Non
) x P(venteux = oui | Non) x P(Non))/P(X)
3 1 4 3 5
× × × ×
= 5 5 5 5 14
𝑃(𝑋)
Ciel Temp Humidité Venteux Jouer
Ensoleillé 2/9 3/5 𝜇 = 22.4 𝜇 = 31.2 𝜇 = 79 𝜇 = 86 Oui 6/9 2/5 9/14 5/14
Nuageux 4/9 0/5 𝜎 = 4.27 𝜎 = 6.76 𝜎 = 10.2 𝜎 = 9.7 Non 3/9 3/5
Pluvieux 3/9 2/5
1 (20−22,4)2
−
𝑓 𝑡𝑒𝑚𝑝 = 20|𝑂𝑢𝑖 = 𝑒 2×4,272 = 0,148
2 × 𝜋 × 4,27
Nouveau jour
Ciel Temp Humidité Venteux Jouer
Ensoleillé 20 90 Oui
Probabilités :
✓ P(« Oui ») = 0,42
✓ P(« Non »)= 0,58
Note : certains attributs numériques ne sont pas ne suivent pas la distribution
normale et vous devrez choisir une fonction de densité de probabilité différente ou
utiliser la discrétisation.
Classes:
C1: acheter_PC = ‘Oui’
C2: acheter_PC = ‘Non’
Objet à classer :
X = (age <=30, revenue = moyen,
Etudiant = oui, cote_crédit=
bonne)
Classes:
P(Ci): P(C1 = “oui”) = 9/14 = 0.643
P(C2 = “non”) = 5/14= 0.357
P(X|Ci)*P(Ci) :