Vous êtes sur la page 1sur 95

Intelligence Artificielle

Pr. Hiba Chougrad


Année-universitaire: 2021-2022

06/04/2022 1
06/04/2022 2

Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 3

Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 4

Machine Learning :
Raisonnement probabiliste et Réseaux bayésiens
06/04/2022 5

Contexte
• Jusqu’à présent, nous avons étudié des techniques pour des
environnements déterministes.
• Que faire lorsque l’environnement est non déterministe? (1)Les capteurs
peuvent être
• Quel type d’agent? Un qui doit pouvoir: bruités…
(2)Observabilité
– Gérer l’incertitude lié à l’environnement partielle.
État
probabilité
incertain.
– Gérer la qualité de ses décisions
utilité

Les actions peuvent


avoir des effets
incertains!
06/04/2022 6

Exemple de décision sous incertitude


• Soit l’action At d’aller à l’aéroport t minutes avant le départ de l’avion.
• At me permettra-t-il d’arriver àtemps?
• Caractéristique (de l’environnement) duproblème:
– Observabilité partielle (conditions routières,etc.)
– Senseurs bruités (annonces du trafic, etc.)
– Incertitude dans l’effet des actions (crevaisons, pannes,etc.)
– Immense complexité pour modéliser les actions et letrafic.
06/04/2022 7

Exemple de décision sous incertitude


• Un raisonnement purement logique
– Risque de tirer des conclusions erronées: « A25 me permettra d’arriver à temps », ou
– Risque de tirer des conclusions peu exploitable du point de vue « prise de décision »:
• « A25 me permettra d’arriver à temps, s’il ne pleut pas, s’il n’y apas d’accident, si mes pneus
ne crèvent pas, etc. »
• « A1440 me permettra probablement d’arriver à temps, mais je devrai passer une nuit à
l’aéroport. »
06/04/2022 8

Prise de décision sous incertitude


• Supposons que je crois ceci :

P(A25 me permet d’arriver à temps | …) =0.04


P(A90 me permet d’arriver à temps | …) =0.70
P(A120 me permet d’arriver à temps | …) =0.95
P(A240 me permet d’arriver à temps | …) = 0.999
P(A1440me permet d’arriver àtemps | …) =0.9999
• Quelle action devrai-je choisir?
- Cela dépend de mes préférences: manquer l’avion vs. trop d’attente.

• La théorie de l’utilité est utilisée pour modéliser et inférer sur les préférences.
- Une préférence exprime le degré d’utilité d’une action/situation.

• Théorie de la décision = théorie des probabilités + théorie de l’utilité


06/04/2022 9

Discussion : utilité de l’argent


• Lors d’un quiz, vous gagnez 1 000 000 Dhs!
• On vous propose un dernier jeu facultatif à pile ou face:
• On lance une pièce de monnaie équilibrée :
• Vous ne jouez pas : vous partez avec 1 000 000 Dhs.
• Face: vous tripler votre gain 3 000 000 Dhs.
• Pile : vous repartez les mains vide : 0 Dhs

• Acceptez-vous ce dernier jeu?


• Même décision si gain initial était de 10 Dhs?
06/04/2022 10

Raisonnement probabiliste
06/04/2022 11

Exemple : un courriel est-il un pourriel ?


● On considère le problème de détection des pourriels
• On souhaite raisonner sur la possibilité qu’un courriel reçu soit un pourriel en tenant compte
de l’incertitude associée à un tel diagnostique

Inconnu MotSensible Pourriel Probabilité


vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 12

Variable aléatoire
● Variables aléatoires :
• Inconnu : est-ce que l’adresse de l’expéditeur du courriel n’est pas connu par le destinataire
• MotSensible : le courriel contient-il un mot appartenant à une liste de mots « sensibles »
• Pourriel : est-ce que le courriel est un pourriel
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
« la probabilité que toutes ces
vrai faux vrai 0.012
probabilités
Inconnu=vrai et somment à 1
MotSensible=vrai vrai faux faux 0.064
et sont entre
et faux vrai vrai 0.072
0 et 1
Pourriel=vrai » faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 13

Univers et événement élémentaire


• Événement élémentaire ω : un état possible de l’environnement
 C’est une rangée de la table ci-dessous, un événement au niveau le plus simple
• Univers Ω : l’ensemble des événements élémentaires possibles
 C’est l’ensemble de toutes les rangées

Inconnu MotSensible Pourriel Probabilité


vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 14

Variable aléatoire
● Variable aléatoire: une fonction d’un événement élémentaire ω
- Exemple : Inconnu est vrai si ω est un état où l’expéditeur du courriel reçu n’est pas connu
● On pourrait définir des variables plus complexes, c-à-d des variables impliquant plusieurs
aspects de l’état
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 15

Variable aléatoire
• Souvent, on définit les variables aléatoires individuelles avant l’état 
- on définit alors  comme étant une assignation de toutes ces variables
• Une variable aléatoire joue le rôle d’une fenêtre sur l’état de l’environnement
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 16

Probabilité conjointe
• Probabilités conjointes : probabilité d’une assignation de toutes la variables
P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) = 0.108(10.8%)
P(Inconnu=faux, MotSensible=faux, Pourriel=vrai) = 0.008 (0.8%)

Inconnu MotSensible Pourriel Probabilité


vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 17

Probabilité marginale
• Probabilités marginales : probabilité sur un sous-‐ensemble des variables
• P(Inconnu=vrai, Pourriel=vrai)
= P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) + P(Inconnu=vrai, MotSensible=faux, Pourriel=vrai)
= Σx∈{vrai, faux} P(Inconnu=vrai, MotSensible=x, Pourriel=vrai) = 0.108 + 0.012 = 0.12
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 18

Probabilité marginale
• Probabilités marginales : probabilité sur un sous-ensemble des variables
• P(Pourriel=vrai)
= Σx∈{vrai, faux} Σy∈{vrai, faux} P(Inconnu=y, MotSensible=x, Pourriel=vrai)
= 0.108 + 0.012 + 0.072 + 0.008 = 0.2
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 19

Probabilité d’une disjonction


• Probabilités de disjonction (« ou ») d’événements :
• P(Pourriel=vrai ou Inconnu=faux)
= P(Pourriel=vrai) + P(Inconnu=faux) – P(Pourriel=vrai, Inconnu=faux)
= 1 – P(Pourriel=faux, Inconnu=vrai) = 1 – 0.016 – 0.064 = 0.92
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 20

Probabilité d’une disjonction


• Probabilités de disjonction (« ou ») d’événements :
• formule générale : P(A ou B) = P(A) + P(B) – P(A et B)

Inconnu MotSensible Pourriel Probabilité


vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 21

Probabilité conditionnelle
• Probabilités conditionnelles :
• P(Pourriel=faux | Inconnu=vrai) vrai seulement si
= P(Pourriel=faux, Inconnu=vrai) / P(Inconnu=vrai) P(Inconnu=vrai) ≠ 0
= (0.016 + 0.064) / (0.016 + 0.064 + 0.108 + 0.012) = 0.4
06/04/2022 22

Probabilité conditionnelle
• Probabilités conditionnelles :
• formule générale : P(A|B) = P(A,B) / P(B) ( P(B) ≠ 0 )

Inconnu MotSensible Pourriel Probabilité


vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 23

Autres types de variables aléatoires


• On va se concentrer sur des variables aléatoires Booléennes ou binaires
 le domaine, c-à-d l’ensemble des valeurs possibles de la variable, était toujours
{vrai,faux}

• On pourrait avoir d’autres types de variables, avec des domaines différents :


 Discrètes : le domaine est énumérable
» Météo  {soleil, pluie, nuages, neige}
» lorsqu’on marginalise, on doit sommer sur toutes les valeurs :
P(Température=x) = Σy  {soleil, pluie, nuages, neige} P(Température=x, Météo=y)

 Continues : le domaine est continu (par exemple, l’ensemble des réels)


» exemple : PositionX = 4.2
» le calcul des probabilités marginales nécessite des intégrales
06/04/2022 24

Exemple
• Les étudiants passent deux examens.
• 60% des étudiants ont réussi les deux examens, le 1er était plus facile – 80%
l’ont réussi. Quel est le pourcentage d’étudiants qui ont réussi le 2ème examen
sachant qu’ils ont réussi le 1er?
• A = réussir le 1er examen, B = réussir le 2ème examen
• On cherche P(B|A) – La probabilité de B sachant A
𝐏(𝐀,𝐁) 𝟎.𝟔
P(B|A) = = = 0.75
𝐏(𝐀) 𝟎.𝟖

• 75% des étudiants qui ont réussi le 1er examen ont réussi le 2ème.
06/04/2022 25

Exercice
• 99% de sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = ?
06/04/2022 26

Exercice
• 99% des sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = P(T|M)·P(M) = 0.99·0.1 = 9.9%
06/04/2022 27

Règle de chaînage
• Règle du produit :
• P(Pourriel=faux, Inconnu=vrai)
= P(Pourriel=faux | Inconnu=vrai) P(Inconnu=vrai)
= P(Inconnu=vrai | Pourriel=faux) P(Pourriel=faux)
• En général :
P(Pourriel, Inconnu) = P(Pourriel | Inconnu) P(Inconnu)
= P(Inconnu | Pourriel) P(Pourriel)

• Règle de chaînage (chain rule) pour n variables X1 ... Xn :


• P(X1, …,Xn) = P(X1,...,Xn‐1) P(Xn | X1,...,Xn‐1)
= P(X1,...,Xn‐2) P(Xn-‐1 | X1,...,Xn‐2) P(Xn | X1,...,Xn-1)
=…
= Πi=1..n P(Xi | X1, …,Xi‐1)
06/04/2022 28

Règle de chaînage
• La règle de chaînage est vraie, quelle que soit la distribution de X1 ... Xn
 Plutôt que de spécifier toutes les probabilités jointes P(X1, ... , Xn), on pourrait plutôt spécifier
P(X1), P(X2|X1), P(X3|X1, X2), ..., P(Xn | X1,...,Xn-‐1)

• Exemple: pour P(Pourriel, Inconnu), si on a:


 P(Pourriel=faux) = 0.8, P(Pourriel=vrai) = 0.2
 P(Inconnu=faux| Pourriel=faux) = 0.9 , P(Inconnu=vrai| Pourriel=faux) = 0.1
P(Inconnu=faux| Pourriel=vrai) = 0.4, P(Inconnu=vrai | Pourriel=vrai) = 0.6

• On aurait tous les ingrédients pour calculer les P(Pourriel, Inconnu) :


 P(X1,X2) =P(X1) P(X2|X1)
 P(Pourriel=faux, Inconnu=vrai) = P(Pourriel=faux) P(Inconnu=vrai |Pourriel=faux)
= 0.8 *0.1 = 0.08
 P(Pourriel=vrai, Inconnu=vrai) = P(Pourriel=vrai) P(Inconnu=vrai|Pourriel=vrai)
= 0.2 *0.6 = 0.12
06/04/2022 29

Règle de Bayes
● Et si on veut calculer P(Pourriel=faux | Inconnu=vrai) ?

P(Pourriel=faux | Inconnu=vrai)
= P(Pourriel=faux , Inconnu=vrai) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux ) P(Pourriel=faux) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux) P(Pourriel=faux)
P(Inconnu=vrai, Pourriel=faux) + P(Inconnu=vrai, Pourriel=vrai))
= 0.08 / (0.08 + 0.12) = 0.4

• P(Pourriel=faux | Inconnu=vrai) = 0.4


• Et depuis le slide précèdent : P(Inconnu=vrai| Pourriel=faux) = 0.1
06/04/2022 30

Théorème de Bayes
On a:

• P(A|B) = P(A,B) / P(B)

• P(A,B) = P(B|A)·P(A)

Alors on obtient le théorème de Bayes:

P(A|B) = P(B|A)·P(A) / P(B)


06/04/2022 31

Règle de Bayes
● Règle de Bayes : P(Cause|Effet) = P(Effet|Cause) P(Cause) / P(Effet)
• P(Pourriel | Inconnu) = P(Inconnu|Pourriel) P(Pourriel) / P(Inconnu)

● On appelle P(Pourriel) une probabilité a priori


- C’est notre croyance p/r à ce qu’un nouveau courriel soit un pourriel avant toute observation

● On appelle P(Pourriel| Inconnu) une probabilité a posteriori


- C’est notre croyance mise à jour après avoir observé que l’auteur du courriel est inconnu

● La règle de Bayes lie ces deux probabilités ensemble


06/04/2022 32

Le théorème de Bayes: Exercice


Un test de dépistage de prise d’un médicament chez les sportifs
Même si le test de dépistage est «précis», il peut produire plus de faux
positifs que de vrais positifs.

Le test identifie correctement les utilisateurs du médicament 99% du


temps, et donne un résultat positive pour 1% de non-utilisateurs.
Seulement 0,3% de la population totale utilise réellement ce
médicament.
Quelle est la probabilité qu’une personne soit réellement un
utilisateur du médicament étant donné un test de dépistage positive?
06/04/2022 33

Le théorème de Bayes: Exercice


• Evènement A = utilise le médicament P(A|B)= ?
• Evènement B = testé positivement pour ce médicament.

• On a P(B|A) [probabilité de testé positive si on est utilisateur] et P(A)


• On peut déduire P(B), et donc calculer P(A|B) [probabilité d’utilisation du médicament
sachant qu’on a un test positive]

• On peut déduire P(B) est 1.3% (0.99 * 0.003 + 0.01 * 0.997 – la probabilité de tester positif si
vous utilisez le médicament, plus la probabilité de tester positif si vous ne le faites pas.)
𝐏 𝐀 𝐏(𝐁|𝐀) 𝟎.𝟎𝟎𝟑 ∗𝟎.𝟗𝟗
• P(A|B)= = =22.8%
𝐏(𝐁) 𝟎.𝟎𝟏𝟑

• Ainsi, la probabilité qu'une personne soit un véritable utilisateur du médicament étant donné
qu'elle a été testée positive n'est que de 22,8%!

• Même si P(B|A) est élevée(99%), ça ne veut pas dire que P(A|B) est aussi élevée.
06/04/2022 34

Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)


Pluie Pourriel Probabilité
vrai vrai 0.03 = P(Pluie=V) P(Pourriel=V) = 0.3 * 0.1
P(Pluie = vrai) = 0.3 vrai faux 0.27 = P(Pluie=V) P(Pourriel=F) = 0.3 * 0.9
faux vrai 0.07 = P(Pluie=F) P(Pourriel=V) = 0.7 * 0.1
P(Pourriel = vrai) = 0.1 faux faux 0.63 = P(Pluie=F) P(Pourriel=F) = 0.7 * 0.9
06/04/2022 35

Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)


Pluie Pourriel Probabilité
vrai vrai 0.03 = P(Pluie=V) P(Pourriel=V) = 0.3 * 0.1
P(Pluie = vrai) = 0.3 vrai faux 0.27 = P(Pluie=V) P(Pourriel=F) = 0.3 * 0.9
faux vrai 0.07 = P(Pluie=F) P(Pourriel=V) = 0.7 * 0.1
P(Pourriel = vrai) = 0.1 faux faux 0.63 = P(Pluie=F) P(Pourriel=F) = 0.7 * 0.9
06/04/2022 36

Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)


Pluie Pourriel Probabilité
vrai vrai 0.03 = P(Pluie=V) P(Pourriel=V) = 0.3 * 0.1
P(Pluie = vrai) = 0.3 vrai faux 0.27 = P(Pluie=V) P(Pourriel=F) = 0.3 * 0.9
faux vrai 0.07 = P(Pluie=F) P(Pourriel=V) = 0.7 * 0.1
P(Pourriel = vrai) = 0.1 faux faux 0.63 = P(Pluie=F) P(Pourriel=F) = 0.7 * 0.9
06/04/2022 37

Indépendance
• Deux événements sont indépendants si la connaissance de l’un ne modifie pas la
probabilité de l’autre, c.-à-d., si A et B sont indépendants, alors : P(A|B) = P(A)

• Deux événements A et B sont indépendants si : P(A ,B) = P(A)·P(B)

• L’indépendance entre les variables permet de réduire la taille de la distribution de


probabilités et rendre les inférences plus efficaces
• Dans l’exemple précédent, on n’a qu’à stocker en mémoire
P(Pluie = vrai) = 0.3 et P(Pourriel = vrai) = 0.1, plutôt que la table au complet

• Mais il est rare d’être dans une situation où toutes les variables sont réellement
indépendantes
06/04/2022 38

Indépendance conditionnelle
● Si j’ai une carie, la probabilité que la sonde accroche dans la dent ne dépend pas
du fait que j’aie mal à la dent ou non :
 P(Croche | MalDeDents, Carie=vrai) = P(Croche | Carie=vrai)
● Même chose si je n’ai pas la carie :
 P(Croche | MalDeDents, Carie=faux) = P(Croche | Carie=faux)

● On dit que Croche est conditionnellement indépendante de MalDeDents étant


donnée Carie, puisque :
 P(Croche | MalDeDents, Carie) = P(Croche | Carie)
● Formulations équivalentes : Carie
 P(MalDeDents | Croche , Carie) = P(MalDeDents |Carie)
 P(MalDeDents, Croche | Carie) = P(MalDeDents |Carie) P(Croche|Carie)
MalDeDents Croche
06/04/2022 39

Indépendance conditionnelle
● Réécrivons la distribution conjointe en utilisant la règle de chaînage (chain
rule) :
• P(MalDeDents, Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche | Carie) P(Carie)
= P(MalDeDents | Carie) P(Croche | Carie) P(Carie)
● C-‐à-‐d., 2 + 2 + 1 = 5 paramètres individuels/distincts

● Dans des cas idéals, l’exploitation de l’indépendance conditionnelle réduit la complexité


de représentation de la distribution conjointe de exponentielle (O(2n)) en linéaire
(O(n))
● En raisonnement probabiliste, l’indépendance conditionnelle est le concept de
représentation des connaissances le plus basique et utile
06/04/2022 40

Réseaux bayésiens
06/04/2022 41

Réseaux bayésiens
• On a vu les bases du raisonnement probabiliste et de la théorie des
probabilité
• à partir d’une table des probabilités conjointes, comment calculer toute autre
probabilité

• On a utilisé un exemple simple (Inconnu, MotSensible, Pourriel)


• souvent, on aura besoin de centaines de variables aléatoires
» la table des probabilités ne pourra pas être stockée en mémoire

• Avec les réseaux bayésiens on va voir une façon plus efficace de


construire un modèle de raisonnement probabiliste
06/04/2022 42

Réseaux bayésiens
● Les réseaux bayésiens (RB) sont une fusion entre la théorie des graphes et la théorie
des probabilités

● Un RB permet de représenter les connaissances probabilistes d’une


application donnée :
 Par exemple, les connaissances cliniques d’un médecin sur des liens de causalité
entre maladies et symptômes

● Les RB sont utiles pour modéliser des connaissances d’un système expert ou d’un
système de support à la décision, dans une situation pour laquelle :
 La causalité joue un rôle important (des événements en causent d’autres)
 Mais notre compréhension de la causalité des événements est incomplète (on doit recourir aux
probabilités)
06/04/2022 43

Définition
● Un RB est un graphe :
• orienté Carie
• acyclique
• dont les nœuds sont des variables aléatoires et
• dont les arcs représentent MalDeDents Croche
» des dépendances (par exemple des causalités)
probabilistes entre les variables et
» des distributions de probabilités conditionnelles
(locales) pour chaque variable étant donnés ses
parents
06/04/2022 44

Exemple
Considérons la situation suivante :
 Je suis au travail, et mes voisins Marie et Jean m’ont promis de m’appeler chaque
fois que mon alarme sonne
 Mon voisin Jean m’appelle pour me dire que mon alarme sonne
» parfois il confond l’alarme avec la sonnerie du téléphone
 Par contre ma voisine Marie ne m’appelle pas toujours
» parfois elle met la musique trop fort
 parfois mon alarme se met à sonner lorsqu’il y a de légers séismes
 comment conclure qu’il y a un cambriolage chez moi?

On peut représenter ce problème par un Réseaux bayésien


06/04/2022 45

Exemple

• Variables aléatoires : Cambriolage Séisme


• Cambriolage
• Séisme
• Alarme Alarme
• JeanAppelle
• MarieAppelle
JeanAppelle MarieAppelle
06/04/2022 46

Exemple
• La topologie du RB modélise les
relations de causalité
Cambriolage Séisme
• un cambriolage peut déclencher
l’alarme
• un séisme aussi
• l’alarme peut inciter Jean à appeler
• idem pour Marie Alarme

• Un arc d’un nœud X vers un nœud Y


signifie que la variable X influence la
variable Y JeanAppelle MarieAppelle
• X est appelé le parent de Y
• Parents(Y) est l’ensemble des parents de Y
06/04/2022 47

Probabilités dans un RB P(c) P(s)


.001 .002
• Une table de probabilités conditionnelles
(TPC) donne la probabilité pour chaque Cambriolage Séisme
valeur du nœud étant donnés les
combinaisons des valeurs des parents du C S P(a)
nœud (c’est l’équivalent d’une distribution) V V .95
Alarme V F .94
F V .29
• Si X n’a pas de parents, sa distribution de F F .001
probabilités est dite inconditionnelle ou a
priori
JeanAppelle MarieAppelle
• Si X a des parents, sa distribution de A P(j) A P(m)
probabilités est dite conditionnelle
V .90 V .70
F .05 F .01
06/04/2022 48

RB avec des variables continues PDF(D) PDF(S)


… …
• On a considéré uniquement des RB avec des Distance
variables discrètes : ForceSéisme
Voleur
 les TPC sont spécifiées en énumérant toutes
les entrées C S P(a)
<1 ≥4 .95
• Mais les RB peuvent aussi supporter les Alarme <1 <4 .94
variables continues : ≥1 ≥4 .29
 les probabilités conditionnelles sont
spécifiées par des fonctions de densité de ≥1 <4 .001
probabilités (PDF)
 exemples :
» distance entre voleur et le capteur de JeanAppelle MarieAppelle
mouvement
» force du séisme sur l’échelle de A P(j) A P(m)
Richter
V .90 V .70
F .05 F .01
06/04/2022 49

Autres appellations P(c) P(s)


.001 .002
• Il y a d’autres appellations pour les RB :
 réseaux de croyance (belief Cambriolage Séisme
networks)
 Modèle Graphique Dirigé C S P(a)
V V .95
Alarme V F .94
F V .29
F F .001
• Les RB font partie de la classe plus
générale des modèles graphiques
JeanAppelle MarieAppelle

A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 50

Réseau Bayésien : définitions


● Un RB est une façon compacte de représenter des probabilités conjointes
● Par définition, la probabilité conjointe de X1 et X2 est donnée par la distribution P(X1,X2),
pour une valeur donnée de X1 et X2

● La distribution conditionnelle de X1 sachant X2 est notée P(X1|X2)


 P(X1,X2) = P(X1 | X2) P(X2)

● Soit X = {X1, …, Xn}, l’ensemble des variables d’un RB :


P(X1, …, X n) = ni = 1 P(Xi | Parents(Xi))

● En d’autres mots, la distribution conjointe des variables d’un RB est définie comme étant
le produit des distributions conditionnelles (locales)
06/04/2022 51

Calcul de probabilités conjointes


● En fait, quelque soit l’ensemble de variables X = {X1, …, Xn}, par définition :
P(X1, …, Xn) = P(Xn | Xn-‐1, …, X1) P(Xn-‐1, …,X1)
= P(Xn | Xn-‐1, …, X1) P(Xn-‐1 | Xn-‐2, …, X1) … P(X2|X1) P(X1)
=  n P(X | X , …, X )
i=1 i i-‐1 1

● Pour un RB : P(X 1, …, X n)= in= 1 P(Xi | Parents(Xi))


 ceci est cohérent avec l’assertion précédente pour autant que Parents(Xi) soit
l’ensemble de {Xi-‐1, …, X1}
 Un RB est alors une façon de représenter les
indépendances conditionnelles
06/04/2022 52

Exemple : probabilité conjointe P(c) P(s)


.001 .002
P(X1, … ,Xn) =  ni = 1 P(Xi | Parents(Xi))
Cambriolage Séisme
P(J=V, M=V, A=V, C=F, S=F) C S P(a)
= P(J=V|A=V) P(M=V|A=V) V V .95
P(A=V| C=F, S=F) P(C=F) P(S=F) Alarme V F .94
F V .29
= .90 * .70 * .001 *.999 * . 998 F F .001
≈ .00062
JeanAppelle MarieAppelle

A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 53

Exemple : probabilité marginale P(c) P(s)


P(C=F, A=V) = Σm Σj Σs P(J=j,M=m, A=V,C=F,S=s) .001 .002

Cambriolage Séisme
= Σm Σj Σs P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
C S P(a)
= Σs Σj Σm P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
V V .95
= Σs Σj P(j|A=V) P(A=V|C=F, s) P(C=F) P(s) Σm P(m|A=V) Alarme V F .94
F V .29
= Σs P(A=V|C=F, s) P(C=F) P(s) Σj P(j|A=V) =1 F F .001

=1
JeanAppelle MarieAppelle
= P(A=V|C=F,S=V) P(C=F) P(S=V)
+ P(A=V|C=F,S=F) P(C=F) P(S=F)
A P(j) A P(m)
= .29 * .999 * .002 + .001 * .999 * .998
≈ 0.0016 V .90 V .70
F .05 F .01
06/04/2022 54

Probabilité marginale P(c) P(s)


P(C=F, A=V) = Σm Σj Σs P(J=j,M=m, A=V,C=F,S=s) .001 .002
= Σs P(A=V|C=F, s) P(C=F) P(s) Cambriolage Séisme

● Pour les probabilités marginales, on peut C S P(a)


ignorer les nœuds qui n’ont pas dans leurs V V .95
descendants les noeuds observés Alarme V F .94
 JeanAppelle ou MarieAppelle n’ont pas F V .29
dans leurs descendants Cambriolage et F F .001
Alarme qui sont les noeuds observés ,
alors on peut les ignorer.
 Séisme par contre a Alarme comme noeud JeanAppelle MarieAppelle
descendant observé, on doit donc
marginaliser Séisme explicitement
06/04/2022 55

Probabilités conditionnelles P(c) P(s)


● On peut alors calculer toute .001 .002
probabilité conditionnelle Cambriolage Séisme
 une probabilité conditionnelle est le
ratio des probabilités marginales ou C S P(a)
conjointes V V .95
( P(A|B) = P(A,B)/P(B) ) Alarme V F .94
F V .29
F F .001
● Un avantage d’un RB est qu’il est
facile d’identifier les indépendances JeanAppelle MarieAppelle
conditionnelles
 ceci permet de réduire les calculs à faire A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 56

Probabilités conditionnelles P(c) P(s)


1. Relation entre grand-parent et .001 .002
enfant étant donné parent :
Cambriolage Séisme
sont indépendants si parent
observé
C S P(a)
V V .95
• Exemples : Alarme V F .94
 Cambriolage et MarieAppelle sont F V .29
dépendants a priori F F .001
 mais ils sont indépendants étant
donné Alarme :
P(M|A,C) = P(M|A) JeanAppelle MarieAppelle
 si A est connu, C n’intervient pas
dans le calcul A P(j) A P(m)
 connaître A « bloque » le chemin V .90 V .70
entre M et C F .01
F .05
06/04/2022 57

Indépendance conditionnelle dans un RB P(s)


P(c)
P(M|A,C) = P(M,A,C) / P(A,C) .001 .002

Cambriolage Séisme
= Σs P(M,A,C,S=s)
Σs P(A,C,S=s) C S P(a)
V V .95
= Σs P(M|A) P(A|C,S=s) P(S=s) P(C) V F .94
Alarme
Σs P(A|C,S=s) P(S=s) P(C) F V .29
F F .001
= P(M|A) ΣsP(A|C,S=s) P(S=s) P(C)
Σs P(A|C,S=s) P(S=s) P(C)
JeanAppelle MarieAppelle
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 58

Indépendance conditionnelle dans un RB P(s)


P(c)
2. Relation entre deux enfants étant .001 .002
donné parent : Cambriolage Séisme
sont indépendants si parent observé
C S P(a)
V V .95
● Exemples : Alarme V F .94
JeanAppelle et MarieAppelle sont F V .29
dépendants a priori F F .001
mais ils sont indépendants étant
donné Alarme :
P(M|A,J) = P(M|A) JeanAppelle MarieAppelle
si A est connu, J n’intervient pas
dans le calcul A P(j) A P(m)
connaître A « bloque » le chemin V .90 V .70
entre J et M F .01
F .05
06/04/2022 59

Indépendance conditionnelle dans un RB P(s)


P(c)
P(M|A,J) = P(M,A,J) / P(A,J) .001 .002

Cambriolage Séisme
= Σs Σc P(M,A,J,S=s,C=c)
Σs ΣcP(A,J,S=s,C=c)
C S P(a)
V V .95
= Σs Σc P(J|A) P(M|A) P(A,S=s,C=c) V F .94
Alarme
Σs Σc P(J|A) P(A,S=s,C=c) F V .29
F F .001
= P(M|A) ΣsΣ cP(J|A) P(A,S=s,C=c)
Σs Σc P(J|A) P(A,S=s,C=c)
JeanAppelle MarieAppelle
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 60

Indépendance conditionnelle dans un RB P(s)


P(c)
3. Relation entre deux parents étant .001 .002
donné enfant : Cambriolage Séisme
sont indépendants si enfant
non-observé
C S P(a)
V V .95
● Exemples : Alarme V F .94
Cambriolage et Séisme sont F V .29
indépendants a priori F F .001
mais ils sont dépendants étant donné
Alarme
» P(C|A,S) n’est pas simplifiable, parce JeanAppelle MarieAppelle
que
P(A|C,S) n’est pas simplifiable
A P(j) A P(m)
ne pas connaître A « bloque » le chemin
entre C et S V .90 V .70
F .05 F .01
06/04/2022 61

Indépendance conditionnelle dans un RB P(s)


P(c)
.001 .002
Faites l’exercice pour P(C|A,S) Cambriolage Séisme

C S P(a)
V V .95
Alarme V F .94
F V .29
F F .001

JeanAppelle MarieAppelle

A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 62

Étapes pour bâtir un réseau bayésien


● Comment bâtir un réseau bayésien afin de modéliser un
environnement/problème donné ?

● On a besoin de deux choses :


 la structure du réseau
(quelles indépendances peut-‐on supposer ? )
les tables de probabilités
(quelle est la relation entre les variables de l’environnement ?)
06/04/2022 63

Étapes pour bâtir un réseau bayésien


● Comment bâtir un réseau bayésien afin de modéliser un
environnement/problème donné ?

● On a besoin de deux choses :


 la structure du réseau
(quelles indépendances peut-‐on supposer ? )
les tables de probabilités
(quelle est la relation entre les variables de l’environnement ?)
06/04/2022 64

Spécifier les tables de probabilités d’un RB


● Supposons que le graphe d’un RB ait été spécifié par un expert

● Comment estimer les tables de probabilités P(Xi | Parents(Xi)) ?

● On pourrait demander au même expert de définir à la main ces tables


 travail long et fastidieux
 pas très naturel ou intuitif

● Il serait préférable d’automatiser ce processus


 on collecte des données sur l’environnement que l’on souhaite modéliser
 on dérive des tables de probabilités qui reflètent bien ces données

● C’est ce qu’on appelle faire de l’apprentissage automatique


 le RB va s’adapter à l’environnement et apprendre à l’« imiter »
06/04/2022 65

Spécifier les tables de probabilités d’un RB


● Si on a un ensemble de données où tous les nœuds Xi sont observés, c’est facile :
P(Xi = x| Parents(Xi) = p ) ≈ freq(x,p) / Σx’ freq(x’,p)

● On fait ce calcul pour toutes les valeurs x de Xi et toutes les valeurs p de ses
parents possibles
 pour éviter d’avoir de probabilités à 0, on peut ajouter
aux fréquences freq(x,e) une petite constante positive δ (ex. : δ=1)
06/04/2022 66

Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
 Inconnu (I) : l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire
 MotSensible (ms) : le courriel contient un mot
appartenant à une liste de mots « sensibles »
 Pourriel (p): le courriel est un pourriel Inconnu MotSensible

● Supposons qu’on a collecté un ensemble de 122 courriels où


 70 des 122 courriels étaient des pourriels
P(Pourriel=vrai) = (70 + 1) / (70 + 1 + 52 + 1) ≈ 0.57
06/04/2022 67

Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
 Inconnu (I): l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire p P(I) p P(ms)
 MotSensible (ms) : le courriel contient un mot V 0.92 V 0.72
appartenant à une liste de mots « sensibles »
 Pourriel (p) : le courriel est un pourriel Inconnu MotSensible

● Supposons qu’on a collecté un ensemble de 122 courriels où


 parmi les 70 pourriels, 65 avaient un expéditeur inconnu et 51 contenaient un mot sensible
P(Inconnu=vrai | Pourriel=vrai) = (65 + 1) / (65 + 1 + 5 + 1) ≈ 0.92
P(MotSensible=vrai | Pourriel=vrai) = (51 + 1) / (51 + 1 + 19 + 1) ≈ 0.72
06/04/2022 68

Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
 Inconnu (I): l’adresse de l’expéditeur n’est pas connu p P(I) Pourriel p P(ms)
par le destinataire V 0.92 V 0.72
 MotSensible (ms): le courriel contient un mot F 0.20 F 0.02
appartenant à une liste de mots « sensibles »
 Pourriel (p): le courriel est un pourriel Inconnu MotSensible

● Supposons qu’on a collecté un ensemble de 122 courriels où


parmi les 52 courriels valides, 10 avaient un expéditeur inconnu et 0 contenaient un mot sensible
P(Inconnu=vrai | Pourriel=faux) = (10 + 1) / (10 + 1 + 42 + 1) ≈ 0.20
P(MotSensible=vrai | Pourriel=faux) = (0 + 1) / (0 + 1 + 52 + 1) ≈ 0.02
06/04/2022 69

Le classificateur Naïf Bayésien


06/04/2022 70

Le classificateur Naïf Bayésien


• Approche probabiliste
• Basée sur les probabilités conditionnelles (et la règle de Bayes)
• Connaissances a priori
• Prévision du futur à partir du passé
• Suppose l'indépendance conditionnelle des attributs étant donné la classe.

C’est ce qui fait qu’il est Naïf


06/04/2022 71

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table
de fréquences pour chaque attribut par rapport à la cible.

• Ensuite, on transforme les tables de fréquences à des tables de


vraisemblance .Pour enfin utiliser l'équation bayésienne naïve pour calculer la
probabilité a posteriori de chaque valeur de la classe.

• La valeur de la classe avec la probabilité a posteriori la plus élevée sera donc


le résultat de la prédiction.
06/04/2022 72

Le classificateur Naïf Bayésien: Exemple


• On va construire les tables de fréquence de chaque attribut contre la classe cible
(target).
06/04/2022 73

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque
attribut par rapport à la cible.
06/04/2022 74

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
06/04/2022 75

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
• On peut alors calculer la probabilité à priori de chaque classe
06/04/2022 76

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
• On peut alors calculer la probabilité à priori de chaque classe
• Et la probabilité à priori de chaque attribut
06/04/2022 77

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
• On peut alors calculer la probabilité à priori de chaque classe
• Et la probabilité à priori de chaque prédicteur
• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de chaque valeur de la
classe.

P xc .P(c)
• On a: P cx =
P(x)

• Par exemple pour c= « Play Golf= Yes» et x= « Outlook= Sunny » on a:

𝑷 𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚 𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔 . 𝑷(𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔)


𝑷 𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔 𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚 =
𝑷(𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚)
06/04/2022 78

Le classificateur Naïf Bayésien: Exemple


• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de
chaque valeur de la classe.
06/04/2022 79

Le classificateur Naïf Bayésien: Exemple


• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
• On peut alors calculer la probabilité à priori de chaque classe
• Et la probabilité à priori de chaque prédicteur
• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de chaque valeur de la
classe.
06/04/2022 80

Le classificateur Naïf Bayésien: Exemple


• Les tables de fréquences:
06/04/2022 81

Le classificateur Naïf Bayésien: Exemple


• Le classificateur Naïf Bayésien suppose que l'effet de la valeur d'un attribut 𝐱 sur une classe donnée 𝒄
est indépendant des valeurs des autres attributs. Cette hypothèse est appelée Indépendance
conditionnelle des attributs étant donné la classe.
• En utilisant l’hypothèse que tous les attributs sont indépendants dans leurs effet sur la classe:
𝐏 𝐜 𝐗 = 𝐏 𝒙𝟏 𝐜 × 𝐏 𝒙𝟐 𝐜 × ⋯ × 𝐏 𝒙𝑵 𝐜 × 𝐏(𝐜)

• Devient alors:
06/04/2022 82

Le classificateur Naïf Bayésien: Exemple


• La probabilité à postériori est donc:
06/04/2022 83

Le classificateur Naïf Bayésien: Exemple


• On a une nouvelle instance et on veut faire une prédiction:
06/04/2022 84

Le classificateur Naïf Bayésien: Exemple


• On a une nouvelle instance et on veut faire une prédiction sur PlayGolf?
06/04/2022 85

Le classificateur Naïf Bayésien: Exercice


• Maintenant on a une nouvelle instance et on veut la classer (faire une
prédiction) en utilisant le classificateur Naïf Bayésien.

• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True].


Alors Play Golf = ?
06/04/2022 86

Le classificateur Naïf Bayésien: Solution 1


• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True].
Alors Play Golf = ?
• La vraisemblance de (PlayGolf= Yes) :
P(X| PlayGolf=Yes)=
P(Outlook=Rainy|Yes)*P(Temp=Mild|Yes)*P(Humidity=Normal|Yes)
*P(Windy=True|Yes)*P(Yes) = 2/9 * 4/9 * 6/9 * 3/9 * 9/14 = 0.014109347
• La vraisemblance de (PlayGolf= No) :
P(X| PlayGolf=No)=
P(Outlook=Rainy|No)*P(Temp=Mild|No)*P(Humidity=Normal|No)
*P(Windy=True|No)*P(No)= 3/5 * 2/5 * 1/5 * 3/5 * 5/14 = 0.010285714

• Maintenant on va normaliser les résultats:


P(Yes|Cas) = 0.014109347/(0.014109347+0.010285714) = 0.578368999
P(No|Cas) = 0.010285714/(0.014109347+0.010285714) = 0.421631001
06/04/2022 87

Le classificateur Naïf Bayésien: Solution 2


• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True]. Alors Play Golf = ?

• P(PlayGolf= Yes)= 0.4*0.67*0.86*0.5= 0.11524


• P(PlayGolf= No)= 0.6*0.33*0.14*0.5*=0.01386
06/04/2022 88

Missing Values et le classificateur Naïf Bayésien


06/04/2022 89

Missing Values et le classificateur Naïf Bayésien


• Variable Numérique
• On remplace par la moyenne
• Variable catégorique
• On remplace par le mode

• En raison de l'hypothèse de l'indépendance des attributs dans le modèle


bayésien, nous pouvons ignorer les valeurs manquantes et aucune politique
de remplacement n'est nécessaire.
06/04/2022 90

Missing Values et le classificateur Naïf Bayésien


06/04/2022 91

Les valeurs numériques et le classificateur Naïf Bayésien


06/04/2022 92

Les valeurs numériques et le classificateur Naïf Bayésien


• Les valeurs numériques doivent être transformé en variable catégoriques pour
pouvoir ensuite construire les tables de fréquences en utilisant la
discrétisation par exemple.

• Une autre option utilise la distribution des variables numériques pour avoir une
bonne estimation de la fréquence.

• Par exemple, une pratique courante consiste à supposer que les variables
numériques suivent une distribution normale.
06/04/2022 93

Les valeurs numériques et le classificateur Naïf Bayésien:


La discrétisation
06/04/2022 94

Les valeurs numériques et le classificateur Naïf Bayésien:


La distribution normale
• L’hypothèse courante est : les attributs suivent une distribution de probabilité
normale/gaussienne étant donné la classe.
• La fonction de densité des probabilité pour une distribution normale est définit
par deux paramètres:
𝟏 𝑵
• La moyenne (Mean) 𝝁= 𝒊=𝟏 𝒙𝒊
𝑵

𝟏 𝑵
• L’écart-type (Standard deviation) 𝝈= 𝒊=𝟏 𝒙𝒊 − 𝝁 𝟐
𝑵

• La fonction de densité est:


𝟏 𝒙−𝝁 𝟐

𝒇 𝒙 = 𝒆 𝟐𝝈𝟐
𝟐𝝅𝝈
06/04/2022 95

Les valeurs numériques et le classificateur Naïf Bayésien:


La distribution normale
𝟏 𝑵
La moyenne (Mean): 𝝁= 𝒊=𝟏 𝒙𝒊
𝑵
𝟏 𝑵 𝟐
L’écart-type (Standard deviation): 𝝈= 𝒊=𝟏 𝒙𝒊 − 𝝁
𝑵
𝒙−𝝁 𝟐
𝟏 −
La fonction de densité est: 𝒇 𝒙 = 𝒆 𝟐𝝈𝟐
𝟐𝝅𝝈

Exemple:

Vous aimerez peut-être aussi