Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022

Intelligence Artificielle
Pr. Hiba Chougrad

Année-universitaire: 2021-2022
06/04/2022 1
06/04/2022 2
Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 3
Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 4
Machine Learning :
Raisonnement probabiliste et Réseaux bayésiens
06/04/2022 5
Contexte
• Jusqu’à présent, nous avons étudié des techniques pour des
environnements déterministes.
• Que faire lorsque l’environnement est non déterministe? (1)Les capteurs
peuvent être
• Quel type d’agent? Un qui doit pouvoir: bruités…
(2)Observabilité
– Gérer l’incertitude lié à l’environnement partielle.
État
probabilité
incertain.
– Gérer la qualité de ses décisions
utilité
Les actions peuvent

avoir des effets
incertains!
06/04/2022 6
Exemple de décision sous incertitude

• Soit l’action At d’aller à l’aéroport t minutes avant le départ de l’avion.
• At me permettra-t-il d’arriver àtemps?
• Caractéristique (de l’environnement) duproblème:
– Observabilité partielle (conditions routières,etc.)
– Senseurs bruités (annonces du trafic, etc.)
– Incertitude dans l’effet des actions (crevaisons, pannes,etc.)
– Immense complexité pour modéliser les actions et letrafic.
06/04/2022 7
Exemple de décision sous incertitude

• Un raisonnement purement logique
– Risque de tirer des conclusions erronées: « A25 me permettra d’arriver à temps », ou
– Risque de tirer des conclusions peu exploitable du point de vue « prise de décision »:
• « A25 me permettra d’arriver à temps, s’il ne pleut pas, s’il n’y apas d’accident, si mes pneus
ne crèvent pas, etc. »
• « A1440 me permettra probablement d’arriver à temps, mais je devrai passer une nuit à
l’aéroport. »
06/04/2022 8
Prise de décision sous incertitude

• Supposons que je crois ceci :
P(A25 me permet d’arriver à temps | …) =0.04

P(A240 me permet d’arriver à temps | …) = 0.999
P(A1440me permet d’arriver àtemps | …) =0.9999
• Quelle action devrai-je choisir?
- Cela dépend de mes préférences: manquer l’avion vs. trop d’attente.
• La théorie de l’utilité est utilisée pour modéliser et inférer sur les préférences.
- Une préférence exprime le degré d’utilité d’une action/situation.
• Théorie de la décision = théorie des probabilités + théorie de l’utilité

06/04/2022 9
Discussion : utilité de l’argent

• Lors d’un quiz, vous gagnez 1 000 000 Dhs!
• On vous propose un dernier jeu facultatif à pile ou face:
• On lance une pièce de monnaie équilibrée :
• Vous ne jouez pas : vous partez avec 1 000 000 Dhs.
• Face: vous tripler votre gain 3 000 000 Dhs.
• Pile : vous repartez les mains vide : 0 Dhs
• Acceptez-vous ce dernier jeu?

• Même décision si gain initial était de 10 Dhs?
06/04/2022 10
Raisonnement probabiliste
06/04/2022 11
Exemple : un courriel est-il un pourriel ?

● On considère le problème de détection des pourriels
• On souhaite raisonner sur la possibilité qu’un courriel reçu soit un pourriel en tenant compte
de l’incertitude associée à un tel diagnostique
Inconnu MotSensible Pourriel Probabilité

vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 12
Variable aléatoire
● Variables aléatoires :
• Inconnu : est-ce que l’adresse de l’expéditeur du courriel n’est pas connu par le destinataire
• MotSensible : le courriel contient-il un mot appartenant à une liste de mots « sensibles »
• Pourriel : est-ce que le courriel est un pourriel
« la probabilité que toutes ces
probabilités
Inconnu=vrai et somment à 1
MotSensible=vrai vrai faux faux 0.064
et sont entre
et faux vrai vrai 0.072
0 et 1
Pourriel=vrai » faux vrai faux 0.144
06/04/2022 13
Univers et événement élémentaire

• Événement élémentaire ω : un état possible de l’environnement
 C’est une rangée de la table ci-dessous, un événement au niveau le plus simple
• Univers Ω : l’ensemble des événements élémentaires possibles
 C’est l’ensemble de toutes les rangées

06/04/2022 14
Variable aléatoire
● Variable aléatoire: une fonction d’un événement élémentaire ω
- Exemple : Inconnu est vrai si ω est un état où l’expéditeur du courriel reçu n’est pas connu
● On pourrait définir des variables plus complexes, c-à-d des variables impliquant plusieurs
aspects de l’état
06/04/2022 15
Variable aléatoire
• Souvent, on définit les variables aléatoires individuelles avant l’état 
- on définit alors  comme étant une assignation de toutes ces variables
• Une variable aléatoire joue le rôle d’une fenêtre sur l’état de l’environnement
06/04/2022 16
Probabilité conjointe
• Probabilités conjointes : probabilité d’une assignation de toutes la variables
P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) = 0.108(10.8%)
P(Inconnu=faux, MotSensible=faux, Pourriel=vrai) = 0.008 (0.8%)

06/04/2022 17
Probabilité marginale
• Probabilités marginales : probabilité sur un sous-‐ensemble des variables
• P(Inconnu=vrai, Pourriel=vrai)
= P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) + P(Inconnu=vrai, MotSensible=faux, Pourriel=vrai)
= Σx∈{vrai, faux} P(Inconnu=vrai, MotSensible=x, Pourriel=vrai) = 0.108 + 0.012 = 0.12
06/04/2022 18
Probabilité marginale
• Probabilités marginales : probabilité sur un sous-ensemble des variables
• P(Pourriel=vrai)
= Σx∈{vrai, faux} Σy∈{vrai, faux} P(Inconnu=y, MotSensible=x, Pourriel=vrai)
= 0.108 + 0.012 + 0.072 + 0.008 = 0.2
06/04/2022 19
Probabilité d’une disjonction

• Probabilités de disjonction (« ou ») d’événements :
• P(Pourriel=vrai ou Inconnu=faux)
= P(Pourriel=vrai) + P(Inconnu=faux) – P(Pourriel=vrai, Inconnu=faux)
= 1 – P(Pourriel=faux, Inconnu=vrai) = 1 – 0.016 – 0.064 = 0.92
06/04/2022 20
Probabilité d’une disjonction

• Probabilités de disjonction (« ou ») d’événements :
• formule générale : P(A ou B) = P(A) + P(B) – P(A et B)

06/04/2022 21
Probabilité conditionnelle
• Probabilités conditionnelles :
• P(Pourriel=faux | Inconnu=vrai) vrai seulement si
= P(Pourriel=faux, Inconnu=vrai) / P(Inconnu=vrai) P(Inconnu=vrai) ≠ 0
= (0.016 + 0.064) / (0.016 + 0.064 + 0.108 + 0.012) = 0.4
06/04/2022 22
Probabilité conditionnelle
• Probabilités conditionnelles :
• formule générale : P(A|B) = P(A,B) / P(B) ( P(B) ≠ 0 )

06/04/2022 23
Autres types de variables aléatoires

• On va se concentrer sur des variables aléatoires Booléennes ou binaires
 le domaine, c-à-d l’ensemble des valeurs possibles de la variable, était toujours
{vrai,faux}
• On pourrait avoir d’autres types de variables, avec des domaines différents :

 Discrètes : le domaine est énumérable
» Météo  {soleil, pluie, nuages, neige}
» lorsqu’on marginalise, on doit sommer sur toutes les valeurs :
P(Température=x) = Σy  {soleil, pluie, nuages, neige} P(Température=x, Météo=y)
 Continues : le domaine est continu (par exemple, l’ensemble des réels)

» exemple : PositionX = 4.2
» le calcul des probabilités marginales nécessite des intégrales
06/04/2022 24
Exemple
• Les étudiants passent deux examens.
• 60% des étudiants ont réussi les deux examens, le 1er était plus facile – 80%
l’ont réussi. Quel est le pourcentage d’étudiants qui ont réussi le 2ème examen
sachant qu’ils ont réussi le 1er?
• A = réussir le 1er examen, B = réussir le 2ème examen
• On cherche P(B|A) – La probabilité de B sachant A
𝐏(𝐀,𝐁) 𝟎.𝟔
P(B|A) = = = 0.75
𝐏(𝐀) 𝟎.𝟖
• 75% des étudiants qui ont réussi le 1er examen ont réussi le 2ème.
06/04/2022 25
Exercice
• 99% de sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = ?
06/04/2022 26
Exercice
• 99% des sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = P(T|M)·P(M) = 0.99·0.1 = 9.9%
06/04/2022 27
Règle de chaînage
• Règle du produit :
• P(Pourriel=faux, Inconnu=vrai)
= P(Pourriel=faux | Inconnu=vrai) P(Inconnu=vrai)
= P(Inconnu=vrai | Pourriel=faux) P(Pourriel=faux)
• En général :
P(Pourriel, Inconnu) = P(Pourriel | Inconnu) P(Inconnu)
= P(Inconnu | Pourriel) P(Pourriel)
• Règle de chaînage (chain rule) pour n variables X1 ... Xn :

• P(X1, …,Xn) = P(X1,...,Xn‐1) P(Xn | X1,...,Xn‐1)
= P(X1,...,Xn‐2) P(Xn-‐1 | X1,...,Xn‐2) P(Xn | X1,...,Xn-1)
=…
= Πi=1..n P(Xi | X1, …,Xi‐1)
06/04/2022 28
Règle de chaînage
• La règle de chaînage est vraie, quelle que soit la distribution de X1 ... Xn
 Plutôt que de spécifier toutes les probabilités jointes P(X1, ... , Xn), on pourrait plutôt spécifier
P(X1), P(X2|X1), P(X3|X1, X2), ..., P(Xn | X1,...,Xn-‐1)
• Exemple: pour P(Pourriel, Inconnu), si on a:

 P(Pourriel=faux) = 0.8, P(Pourriel=vrai) = 0.2
 P(Inconnu=faux| Pourriel=faux) = 0.9 , P(Inconnu=vrai| Pourriel=faux) = 0.1
P(Inconnu=faux| Pourriel=vrai) = 0.4, P(Inconnu=vrai | Pourriel=vrai) = 0.6
• On aurait tous les ingrédients pour calculer les P(Pourriel, Inconnu) :

 P(X1,X2) =P(X1) P(X2|X1)
 P(Pourriel=faux, Inconnu=vrai) = P(Pourriel=faux) P(Inconnu=vrai |Pourriel=faux)
= 0.8 *0.1 = 0.08
 P(Pourriel=vrai, Inconnu=vrai) = P(Pourriel=vrai) P(Inconnu=vrai|Pourriel=vrai)
= 0.2 *0.6 = 0.12
06/04/2022 29
Règle de Bayes
● Et si on veut calculer P(Pourriel=faux | Inconnu=vrai) ?
P(Pourriel=faux | Inconnu=vrai)
= P(Pourriel=faux , Inconnu=vrai) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux ) P(Pourriel=faux) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux) P(Pourriel=faux)
P(Inconnu=vrai, Pourriel=faux) + P(Inconnu=vrai, Pourriel=vrai))
= 0.08 / (0.08 + 0.12) = 0.4
• P(Pourriel=faux | Inconnu=vrai) = 0.4

• Et depuis le slide précèdent : P(Inconnu=vrai| Pourriel=faux) = 0.1
06/04/2022 30
Théorème de Bayes
On a:
• P(A|B) = P(A,B) / P(B)
• P(A,B) = P(B|A)·P(A)
Alors on obtient le théorème de Bayes:
P(A|B) = P(B|A)·P(A) / P(B)

06/04/2022 31
Règle de Bayes
● Règle de Bayes : P(Cause|Effet) = P(Effet|Cause) P(Cause) / P(Effet)
• P(Pourriel | Inconnu) = P(Inconnu|Pourriel) P(Pourriel) / P(Inconnu)
● On appelle P(Pourriel) une probabilité a priori

- C’est notre croyance p/r à ce qu’un nouveau courriel soit un pourriel avant toute observation
● On appelle P(Pourriel| Inconnu) une probabilité a posteriori

- C’est notre croyance mise à jour après avoir observé que l’auteur du courriel est inconnu
● La règle de Bayes lie ces deux probabilités ensemble

06/04/2022 32
Le théorème de Bayes: Exercice

Un test de dépistage de prise d’un médicament chez les sportifs
Même si le test de dépistage est «précis», il peut produire plus de faux
positifs que de vrais positifs.
Le test identifie correctement les utilisateurs du médicament 99% du

temps, et donne un résultat positive pour 1% de non-utilisateurs.
Seulement 0,3% de la population totale utilise réellement ce
médicament.
Quelle est la probabilité qu’une personne soit réellement un
utilisateur du médicament étant donné un test de dépistage positive?
06/04/2022 33
Le théorème de Bayes: Exercice

• Evènement A = utilise le médicament P(A|B)= ?
• Evènement B = testé positivement pour ce médicament.
• On a P(B|A) [probabilité de testé positive si on est utilisateur] et P(A)

• On peut déduire P(B), et donc calculer P(A|B) [probabilité d’utilisation du médicament
sachant qu’on a un test positive]
• On peut déduire P(B) est 1.3% (0.99 * 0.003 + 0.01 * 0.997 – la probabilité de tester positif si
vous utilisez le médicament, plus la probabilité de tester positif si vous ne le faites pas.)
𝐏 𝐀 𝐏(𝐁|𝐀) 𝟎.𝟎𝟎𝟑 ∗𝟎.𝟗𝟗
• P(A|B)= = =22.8%
𝐏(𝐁) 𝟎.𝟎𝟏𝟑
• Ainsi, la probabilité qu'une personne soit un véritable utilisateur du médicament étant donné
qu'elle a été testée positive n'est que de 22,8%!
• Même si P(B|A) est élevée(99%), ça ne veut pas dire que P(A|B) est aussi élevée.
06/04/2022 34
Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)
● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)

Pluie Pourriel Probabilité
vrai vrai 0.03 = P(Pluie=V) P(Pourriel=V) = 0.3 * 0.1
P(Pluie = vrai) = 0.3 vrai faux 0.27 = P(Pluie=V) P(Pourriel=F) = 0.3 * 0.9
faux vrai 0.07 = P(Pluie=F) P(Pourriel=V) = 0.7 * 0.1
P(Pourriel = vrai) = 0.1 faux faux 0.63 = P(Pluie=F) P(Pourriel=F) = 0.7 * 0.9
06/04/2022 35
Indépendance
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)

06/04/2022 36
Indépendance
 P(A|B) = P(A) ou
 P(B|A) = P(B) ou
 P(A, B) = P(A) P(B)

06/04/2022 37
Indépendance
• Deux événements sont indépendants si la connaissance de l’un ne modifie pas la
probabilité de l’autre, c.-à-d., si A et B sont indépendants, alors : P(A|B) = P(A)
• Deux événements A et B sont indépendants si : P(A ,B) = P(A)·P(B)
• L’indépendance entre les variables permet de réduire la taille de la distribution de

probabilités et rendre les inférences plus efficaces
• Dans l’exemple précédent, on n’a qu’à stocker en mémoire
P(Pluie = vrai) = 0.3 et P(Pourriel = vrai) = 0.1, plutôt que la table au complet
• Mais il est rare d’être dans une situation où toutes les variables sont réellement
indépendantes
06/04/2022 38
Indépendance conditionnelle
● Si j’ai une carie, la probabilité que la sonde accroche dans la dent ne dépend pas
du fait que j’aie mal à la dent ou non :
 P(Croche | MalDeDents, Carie=vrai) = P(Croche | Carie=vrai)
● Même chose si je n’ai pas la carie :
 P(Croche | MalDeDents, Carie=faux) = P(Croche | Carie=faux)
● On dit que Croche est conditionnellement indépendante de MalDeDents étant

donnée Carie, puisque :
 P(Croche | MalDeDents, Carie) = P(Croche | Carie)
● Formulations équivalentes : Carie
 P(MalDeDents | Croche , Carie) = P(MalDeDents |Carie)
 P(MalDeDents, Croche | Carie) = P(MalDeDents |Carie) P(Croche|Carie)
MalDeDents Croche
06/04/2022 39
Indépendance conditionnelle
● Réécrivons la distribution conjointe en utilisant la règle de chaînage (chain
rule) :
• P(MalDeDents, Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche | Carie) P(Carie)
= P(MalDeDents | Carie) P(Croche | Carie) P(Carie)
● C-‐à-‐d., 2 + 2 + 1 = 5 paramètres individuels/distincts
● Dans des cas idéals, l’exploitation de l’indépendance conditionnelle réduit la complexité

de représentation de la distribution conjointe de exponentielle (O(2n)) en linéaire
(O(n))
● En raisonnement probabiliste, l’indépendance conditionnelle est le concept de
représentation des connaissances le plus basique et utile
06/04/2022 40
Réseaux bayésiens
06/04/2022 41
Réseaux bayésiens
• On a vu les bases du raisonnement probabiliste et de la théorie des
probabilité
• à partir d’une table des probabilités conjointes, comment calculer toute autre
probabilité
• On a utilisé un exemple simple (Inconnu, MotSensible, Pourriel)

• souvent, on aura besoin de centaines de variables aléatoires
» la table des probabilités ne pourra pas être stockée en mémoire
• Avec les réseaux bayésiens on va voir une façon plus efficace de

construire un modèle de raisonnement probabiliste
06/04/2022 42
Réseaux bayésiens
● Les réseaux bayésiens (RB) sont une fusion entre la théorie des graphes et la théorie
des probabilités
● Un RB permet de représenter les connaissances probabilistes d’une

application donnée :
 Par exemple, les connaissances cliniques d’un médecin sur des liens de causalité
entre maladies et symptômes
● Les RB sont utiles pour modéliser des connaissances d’un système expert ou d’un
système de support à la décision, dans une situation pour laquelle :
 La causalité joue un rôle important (des événements en causent d’autres)
 Mais notre compréhension de la causalité des événements est incomplète (on doit recourir aux
probabilités)
06/04/2022 43
Définition
● Un RB est un graphe :
• orienté Carie
• acyclique
• dont les nœuds sont des variables aléatoires et
• dont les arcs représentent MalDeDents Croche
» des dépendances (par exemple des causalités)
probabilistes entre les variables et
» des distributions de probabilités conditionnelles
(locales) pour chaque variable étant donnés ses
parents
06/04/2022 44
Exemple
Considérons la situation suivante :
 Je suis au travail, et mes voisins Marie et Jean m’ont promis de m’appeler chaque
fois que mon alarme sonne
 Mon voisin Jean m’appelle pour me dire que mon alarme sonne
» parfois il confond l’alarme avec la sonnerie du téléphone
 Par contre ma voisine Marie ne m’appelle pas toujours
» parfois elle met la musique trop fort
 parfois mon alarme se met à sonner lorsqu’il y a de légers séismes
 comment conclure qu’il y a un cambriolage chez moi?
On peut représenter ce problème par un Réseaux bayésien

06/04/2022 45
Exemple
• Variables aléatoires : Cambriolage Séisme

• Cambriolage
• Séisme
• Alarme Alarme
• JeanAppelle
• MarieAppelle
JeanAppelle MarieAppelle
06/04/2022 46
Exemple
• La topologie du RB modélise les
relations de causalité
Cambriolage Séisme
• un cambriolage peut déclencher
l’alarme
• un séisme aussi
• l’alarme peut inciter Jean à appeler
• idem pour Marie Alarme
• Un arc d’un nœud X vers un nœud Y

signifie que la variable X influence la
variable Y JeanAppelle MarieAppelle
• X est appelé le parent de Y
• Parents(Y) est l’ensemble des parents de Y
06/04/2022 47
Probabilités dans un RB P(c) P(s)

.001 .002
• Une table de probabilités conditionnelles
(TPC) donne la probabilité pour chaque Cambriolage Séisme
valeur du nœud étant donnés les
combinaisons des valeurs des parents du C S P(a)
nœud (c’est l’équivalent d’une distribution) V V .95
Alarme V F .94
F V .29
• Si X n’a pas de parents, sa distribution de F F .001
probabilités est dite inconditionnelle ou a
priori
• Si X a des parents, sa distribution de A P(j) A P(m)
probabilités est dite conditionnelle
V .90 V .70
F .05 F .01
06/04/2022 48
RB avec des variables continues PDF(D) PDF(S)

… …
• On a considéré uniquement des RB avec des Distance
variables discrètes : ForceSéisme
Voleur
 les TPC sont spécifiées en énumérant toutes
les entrées C S P(a)
<1 ≥4 .95
• Mais les RB peuvent aussi supporter les Alarme <1 <4 .94
variables continues : ≥1 ≥4 .29
 les probabilités conditionnelles sont
spécifiées par des fonctions de densité de ≥1 <4 .001
probabilités (PDF)
 exemples :
» distance entre voleur et le capteur de JeanAppelle MarieAppelle
mouvement
» force du séisme sur l’échelle de A P(j) A P(m)
Richter
V .90 V .70
F .05 F .01
06/04/2022 49
Autres appellations P(c) P(s)

.001 .002
• Il y a d’autres appellations pour les RB :
 réseaux de croyance (belief Cambriolage Séisme
networks)
 Modèle Graphique Dirigé C S P(a)
V V .95
Alarme V F .94
F V .29
F F .001
• Les RB font partie de la classe plus
générale des modèles graphiques
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 50
Réseau Bayésien : définitions

● Un RB est une façon compacte de représenter des probabilités conjointes
● Par définition, la probabilité conjointe de X1 et X2 est donnée par la distribution P(X1,X2),
pour une valeur donnée de X1 et X2
● La distribution conditionnelle de X1 sachant X2 est notée P(X1|X2)

 P(X1,X2) = P(X1 | X2) P(X2)
● Soit X = {X1, …, Xn}, l’ensemble des variables d’un RB :

P(X1, …, X n) = ni = 1 P(Xi | Parents(Xi))
● En d’autres mots, la distribution conjointe des variables d’un RB est définie comme étant
le produit des distributions conditionnelles (locales)
06/04/2022 51
Calcul de probabilités conjointes

● En fait, quelque soit l’ensemble de variables X = {X1, …, Xn}, par définition :
P(X1, …, Xn) = P(Xn | Xn-‐1, …, X1) P(Xn-‐1, …,X1)
= P(Xn | Xn-‐1, …, X1) P(Xn-‐1 | Xn-‐2, …, X1) … P(X2|X1) P(X1)
=  n P(X | X , …, X )
i=1 i i-‐1 1
● Pour un RB : P(X 1, …, X n)= in= 1 P(Xi | Parents(Xi))

 ceci est cohérent avec l’assertion précédente pour autant que Parents(Xi) soit
l’ensemble de {Xi-‐1, …, X1}
 Un RB est alors une façon de représenter les
indépendances conditionnelles
06/04/2022 52
Exemple : probabilité conjointe P(c) P(s)

.001 .002
P(X1, … ,Xn) =  ni = 1 P(Xi | Parents(Xi))
Cambriolage Séisme
P(J=V, M=V, A=V, C=F, S=F) C S P(a)
= P(J=V|A=V) P(M=V|A=V) V V .95
P(A=V| C=F, S=F) P(C=F) P(S=F) Alarme V F .94
F V .29
= .90 * .70 * .001 *.999 * . 998 F F .001
≈ .00062
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 53
Exemple : probabilité marginale P(c) P(s)

P(C=F, A=V) = Σm Σj Σs P(J=j,M=m, A=V,C=F,S=s) .001 .002
Cambriolage Séisme
= Σm Σj Σs P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
C S P(a)
= Σs Σj Σm P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
V V .95
= Σs Σj P(j|A=V) P(A=V|C=F, s) P(C=F) P(s) Σm P(m|A=V) Alarme V F .94
F V .29
= Σs P(A=V|C=F, s) P(C=F) P(s) Σj P(j|A=V) =1 F F .001
=1
= P(A=V|C=F,S=V) P(C=F) P(S=V)
+ P(A=V|C=F,S=F) P(C=F) P(S=F)
A P(j) A P(m)
= .29 * .999 * .002 + .001 * .999 * .998
≈ 0.0016 V .90 V .70
F .05 F .01
06/04/2022 54
Probabilité marginale P(c) P(s)

P(C=F, A=V) = Σm Σj Σs P(J=j,M=m, A=V,C=F,S=s) .001 .002
= Σs P(A=V|C=F, s) P(C=F) P(s) Cambriolage Séisme
● Pour les probabilités marginales, on peut C S P(a)

ignorer les nœuds qui n’ont pas dans leurs V V .95
descendants les noeuds observés Alarme V F .94
 JeanAppelle ou MarieAppelle n’ont pas F V .29
dans leurs descendants Cambriolage et F F .001
Alarme qui sont les noeuds observés ,
alors on peut les ignorer.
 Séisme par contre a Alarme comme noeud JeanAppelle MarieAppelle
descendant observé, on doit donc
marginaliser Séisme explicitement
06/04/2022 55
Probabilités conditionnelles P(c) P(s)

● On peut alors calculer toute .001 .002
probabilité conditionnelle Cambriolage Séisme
 une probabilité conditionnelle est le
ratio des probabilités marginales ou C S P(a)
conjointes V V .95
( P(A|B) = P(A,B)/P(B) ) Alarme V F .94
F V .29
F F .001
● Un avantage d’un RB est qu’il est
facile d’identifier les indépendances JeanAppelle MarieAppelle
conditionnelles
 ceci permet de réduire les calculs à faire A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 56
Probabilités conditionnelles P(c) P(s)

1. Relation entre grand-parent et .001 .002
enfant étant donné parent :
Cambriolage Séisme
sont indépendants si parent
observé
C S P(a)
V V .95
• Exemples : Alarme V F .94
 Cambriolage et MarieAppelle sont F V .29
dépendants a priori F F .001
 mais ils sont indépendants étant
donné Alarme :
P(M|A,C) = P(M|A) JeanAppelle MarieAppelle
 si A est connu, C n’intervient pas
dans le calcul A P(j) A P(m)
 connaître A « bloque » le chemin V .90 V .70
entre M et C F .01
F .05
06/04/2022 57
Indépendance conditionnelle dans un RB P(s)

P(c)
P(M|A,C) = P(M,A,C) / P(A,C) .001 .002
Cambriolage Séisme
= Σs P(M,A,C,S=s)
Σs P(A,C,S=s) C S P(a)
V V .95
= Σs P(M|A) P(A|C,S=s) P(S=s) P(C) V F .94
Alarme
Σs P(A|C,S=s) P(S=s) P(C) F V .29
F F .001
= P(M|A) ΣsP(A|C,S=s) P(S=s) P(C)
Σs P(A|C,S=s) P(S=s) P(C)
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 58

P(c)
2. Relation entre deux enfants étant .001 .002
donné parent : Cambriolage Séisme
sont indépendants si parent observé
C S P(a)
V V .95
● Exemples : Alarme V F .94
JeanAppelle et MarieAppelle sont F V .29
dépendants a priori F F .001
mais ils sont indépendants étant
donné Alarme :
P(M|A,J) = P(M|A) JeanAppelle MarieAppelle
si A est connu, J n’intervient pas
dans le calcul A P(j) A P(m)
connaître A « bloque » le chemin V .90 V .70
entre J et M F .01
F .05
06/04/2022 59

P(c)
P(M|A,J) = P(M,A,J) / P(A,J) .001 .002
Cambriolage Séisme
= Σs Σc P(M,A,J,S=s,C=c)
Σs ΣcP(A,J,S=s,C=c)
C S P(a)
V V .95
= Σs Σc P(J|A) P(M|A) P(A,S=s,C=c) V F .94
Alarme
Σs Σc P(J|A) P(A,S=s,C=c) F V .29
F F .001
= P(M|A) ΣsΣ cP(J|A) P(A,S=s,C=c)
Σs Σc P(J|A) P(A,S=s,C=c)
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 60

P(c)
3. Relation entre deux parents étant .001 .002
donné enfant : Cambriolage Séisme
sont indépendants si enfant
non-observé
C S P(a)
V V .95
● Exemples : Alarme V F .94
Cambriolage et Séisme sont F V .29
indépendants a priori F F .001
mais ils sont dépendants étant donné
Alarme
» P(C|A,S) n’est pas simplifiable, parce JeanAppelle MarieAppelle
que
P(A|C,S) n’est pas simplifiable
A P(j) A P(m)
ne pas connaître A « bloque » le chemin
entre C et S V .90 V .70
F .05 F .01
06/04/2022 61

P(c)
.001 .002
Faites l’exercice pour P(C|A,S) Cambriolage Séisme
C S P(a)
V V .95
Alarme V F .94
F V .29
F F .001
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 62
Étapes pour bâtir un réseau bayésien

● Comment bâtir un réseau bayésien afin de modéliser un
environnement/problème donné ?
● On a besoin de deux choses :

 la structure du réseau
(quelles indépendances peut-‐on supposer ? )
les tables de probabilités
(quelle est la relation entre les variables de l’environnement ?)
06/04/2022 63
Étapes pour bâtir un réseau bayésien

● Comment bâtir un réseau bayésien afin de modéliser un
environnement/problème donné ?
● On a besoin de deux choses :

 la structure du réseau
(quelles indépendances peut-‐on supposer ? )
les tables de probabilités
(quelle est la relation entre les variables de l’environnement ?)
06/04/2022 64
Spécifier les tables de probabilités d’un RB

● Supposons que le graphe d’un RB ait été spécifié par un expert
● Comment estimer les tables de probabilités P(Xi | Parents(Xi)) ?
● On pourrait demander au même expert de définir à la main ces tables

 travail long et fastidieux
 pas très naturel ou intuitif
● Il serait préférable d’automatiser ce processus

 on collecte des données sur l’environnement que l’on souhaite modéliser
 on dérive des tables de probabilités qui reflètent bien ces données
● C’est ce qu’on appelle faire de l’apprentissage automatique

 le RB va s’adapter à l’environnement et apprendre à l’« imiter »
06/04/2022 65
Spécifier les tables de probabilités d’un RB

● Si on a un ensemble de données où tous les nœuds Xi sont observés, c’est facile :
P(Xi = x| Parents(Xi) = p ) ≈ freq(x,p) / Σx’ freq(x’,p)
● On fait ce calcul pour toutes les valeurs x de Xi et toutes les valeurs p de ses
parents possibles
 pour éviter d’avoir de probabilités à 0, on peut ajouter
aux fréquences freq(x,e) une petite constante positive δ (ex. : δ=1)
06/04/2022 66
Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
 Inconnu (I) : l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire
 MotSensible (ms) : le courriel contient un mot
appartenant à une liste de mots « sensibles »
 Pourriel (p): le courriel est un pourriel Inconnu MotSensible
● Supposons qu’on a collecté un ensemble de 122 courriels où

 70 des 122 courriels étaient des pourriels
P(Pourriel=vrai) = (70 + 1) / (70 + 1 + 52 + 1) ≈ 0.57
06/04/2022 67
Exemple
P(p)
 Inconnu (I): l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire p P(I) p P(ms)
 MotSensible (ms) : le courriel contient un mot V 0.92 V 0.72
 Pourriel (p) : le courriel est un pourriel Inconnu MotSensible

 parmi les 70 pourriels, 65 avaient un expéditeur inconnu et 51 contenaient un mot sensible
P(Inconnu=vrai | Pourriel=vrai) = (65 + 1) / (65 + 1 + 5 + 1) ≈ 0.92
P(MotSensible=vrai | Pourriel=vrai) = (51 + 1) / (51 + 1 + 19 + 1) ≈ 0.72
06/04/2022 68
Exemple
P(p)
 Inconnu (I): l’adresse de l’expéditeur n’est pas connu p P(I) Pourriel p P(ms)
par le destinataire V 0.92 V 0.72
 MotSensible (ms): le courriel contient un mot F 0.20 F 0.02
 Pourriel (p): le courriel est un pourriel Inconnu MotSensible

parmi les 52 courriels valides, 10 avaient un expéditeur inconnu et 0 contenaient un mot sensible
P(Inconnu=vrai | Pourriel=faux) = (10 + 1) / (10 + 1 + 42 + 1) ≈ 0.20
P(MotSensible=vrai | Pourriel=faux) = (0 + 1) / (0 + 1 + 52 + 1) ≈ 0.02
06/04/2022 69
Le classificateur Naïf Bayésien

06/04/2022 70
Le classificateur Naïf Bayésien

• Approche probabiliste
• Basée sur les probabilités conditionnelles (et la règle de Bayes)
• Connaissances a priori
• Prévision du futur à partir du passé
• Suppose l'indépendance conditionnelle des attributs étant donné la classe.
C’est ce qui fait qu’il est Naïf

06/04/2022 71
Le classificateur Naïf Bayésien: Exemple

• La probabilité a posteriori peut être calculée d'abord en construisant une table
de fréquences pour chaque attribut par rapport à la cible.
• Ensuite, on transforme les tables de fréquences à des tables de

vraisemblance .Pour enfin utiliser l'équation bayésienne naïve pour calculer la
probabilité a posteriori de chaque valeur de la classe.
• La valeur de la classe avec la probabilité a posteriori la plus élevée sera donc

le résultat de la prédiction.
06/04/2022 72

• On va construire les tables de fréquence de chaque attribut contre la classe cible
(target).
06/04/2022 73

• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque
attribut par rapport à la cible.
06/04/2022 74

• La probabilité a posteriori peut être calculée d'abord en construisant une table de fréquences pour chaque attribut par
rapport à la cible.
• Ensuite, en transformant les tables de fréquences à des tables de vraisemblance .
06/04/2022 75

• On peut alors calculer la probabilité à priori de chaque classe
06/04/2022 76

• Et la probabilité à priori de chaque attribut
06/04/2022 77

• Et la probabilité à priori de chaque prédicteur
• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de chaque valeur de la
classe.
P xc .P(c)
• On a: P cx =
P(x)
• Par exemple pour c= « Play Golf= Yes» et x= « Outlook= Sunny » on a:
𝑷 𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚 𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔 . 𝑷(𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔)

𝑷 𝑷𝒍𝒂𝒚𝑮𝒐𝒍𝒇 = 𝒀𝒆𝒔 𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚 =
𝑷(𝑶𝒖𝒕𝒍𝒐𝒐𝒌 = 𝑺𝒖𝒏𝒏𝒚)
06/04/2022 78

• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de
chaque valeur de la classe.
06/04/2022 79

• Et la probabilité à priori de chaque prédicteur
• Pour enfin utiliser le théorème de bayes pour calculer la probabilité a posteriori de chaque valeur de la
classe.
06/04/2022 80

• Les tables de fréquences:
06/04/2022 81

• Le classificateur Naïf Bayésien suppose que l'effet de la valeur d'un attribut 𝐱 sur une classe donnée 𝒄
est indépendant des valeurs des autres attributs. Cette hypothèse est appelée Indépendance
conditionnelle des attributs étant donné la classe.
• En utilisant l’hypothèse que tous les attributs sont indépendants dans leurs effet sur la classe:
𝐏 𝐜 𝐗 = 𝐏 𝒙𝟏 𝐜 × 𝐏 𝒙𝟐 𝐜 × ⋯ × 𝐏 𝒙𝑵 𝐜 × 𝐏(𝐜)
• Devient alors:
06/04/2022 82

• La probabilité à postériori est donc:
06/04/2022 83

• On a une nouvelle instance et on veut faire une prédiction:
06/04/2022 84

• On a une nouvelle instance et on veut faire une prédiction sur PlayGolf?
06/04/2022 85
Le classificateur Naïf Bayésien: Exercice

• Maintenant on a une nouvelle instance et on veut la classer (faire une
prédiction) en utilisant le classificateur Naïf Bayésien.
• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True].

Alors Play Golf = ?
06/04/2022 86
Le classificateur Naïf Bayésien: Solution 1

• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True].
Alors Play Golf = ?
• La vraisemblance de (PlayGolf= Yes) :
P(X| PlayGolf=Yes)=
P(Outlook=Rainy|Yes)*P(Temp=Mild|Yes)*P(Humidity=Normal|Yes)
*P(Windy=True|Yes)*P(Yes) = 2/9 * 4/9 * 6/9 * 3/9 * 9/14 = 0.014109347
• La vraisemblance de (PlayGolf= No) :
P(X| PlayGolf=No)=
P(Outlook=Rainy|No)*P(Temp=Mild|No)*P(Humidity=Normal|No)
*P(Windy=True|No)*P(No)= 3/5 * 2/5 * 1/5 * 3/5 * 5/14 = 0.010285714
• Maintenant on va normaliser les résultats:

P(Yes|Cas) = 0.014109347/(0.014109347+0.010285714) = 0.578368999
P(No|Cas) = 0.010285714/(0.014109347+0.010285714) = 0.421631001
06/04/2022 87
Le classificateur Naïf Bayésien: Solution 2

• Cas= [ Outlook = Rainy, Temp = Mild, Humidity = Normal, Windy = True]. Alors Play Golf = ?
• P(PlayGolf= Yes)= 0.4*0.67*0.86*0.5= 0.11524

• P(PlayGolf= No)= 0.6*0.33*0.14*0.5*=0.01386
06/04/2022 88
Missing Values et le classificateur Naïf Bayésien

06/04/2022 89

• Variable Numérique
• On remplace par la moyenne
• Variable catégorique
• On remplace par le mode
• En raison de l'hypothèse de l'indépendance des attributs dans le modèle

bayésien, nous pouvons ignorer les valeurs manquantes et aucune politique
de remplacement n'est nécessaire.
06/04/2022 90

06/04/2022 91
Les valeurs numériques et le classificateur Naïf Bayésien

06/04/2022 92
Les valeurs numériques et le classificateur Naïf Bayésien

• Les valeurs numériques doivent être transformé en variable catégoriques pour
pouvoir ensuite construire les tables de fréquences en utilisant la
discrétisation par exemple.
• Une autre option utilise la distribution des variables numériques pour avoir une
bonne estimation de la fréquence.
• Par exemple, une pratique courante consiste à supposer que les variables
numériques suivent une distribution normale.
06/04/2022 93
Les valeurs numériques et le classificateur Naïf Bayésien:

La discrétisation
06/04/2022 94

La distribution normale
• L’hypothèse courante est : les attributs suivent une distribution de probabilité
normale/gaussienne étant donné la classe.
• La fonction de densité des probabilité pour une distribution normale est définit
par deux paramètres:
𝟏 𝑵
• La moyenne (Mean) 𝝁= 𝒊=𝟏 𝒙𝒊
𝑵
𝟏 𝑵
• L’écart-type (Standard deviation) 𝝈= 𝒊=𝟏 𝒙𝒊 − 𝝁 𝟐
𝑵
• La fonction de densité est:

𝟏 𝒙−𝝁 𝟐
−
𝒇 𝒙 = 𝒆 𝟐𝝈𝟐
𝟐𝝅𝝈
06/04/2022 95

La distribution normale
𝟏 𝑵
La moyenne (Mean): 𝝁= 𝒊=𝟏 𝒙𝒊
𝑵
𝟏 𝑵 𝟐
L’écart-type (Standard deviation): 𝝈= 𝒊=𝟏 𝒙𝒊 − 𝝁
𝑵
𝒙−𝝁 𝟐
𝟏 −
La fonction de densité est: 𝒇 𝒙 = 𝒆 𝟐𝝈𝟐
𝟐𝝅𝝈
Exemple:

Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022

Transféré par

Droits d'auteur :

Formats disponibles

Intelligence Artificielle

Pr. Hiba Chougrad

Les actions peuvent

Exemple de décision sous incertitude

Exemple de décision sous incertitude

Prise de décision sous incertitude

P(A25 me permet d’arriver à temps | …) =0.04

• Théorie de la décision = théorie des probabilités + théorie de l’utilité

Discussion : utilité de l’argent

• Acceptez-vous ce dernier jeu?

Exemple : un courriel est-il un pourriel ?

Inconnu MotSensible Pourriel Probabilité

Univers et événement élémentaire

Inconnu MotSensible Pourriel Probabilité

Inconnu MotSensible Pourriel Probabilité

Probabilité d’une disjonction

Probabilité d’une disjonction

Inconnu MotSensible Pourriel Probabilité

Inconnu MotSensible Pourriel Probabilité

Autres types de variables aléatoires

• On pourrait avoir d’autres types de variables, avec des domaines diﬀérents :

 Continues : le domaine est continu (par exemple, l’ensemble des réels)

• Règle de chaînage (chain rule) pour n variables X1 ... Xn :

• Exemple: pour P(Pourriel, Inconnu), si on a:

• On aurait tous les ingrédients pour calculer les P(Pourriel, Inconnu) :

• P(Pourriel=faux | Inconnu=vrai) = 0.4

• P(A|B) = P(A,B) / P(B)

Alors on obtient le théorème de Bayes:

P(A|B) = P(B|A)·P(A) / P(B)

● On appelle P(Pourriel) une probabilité a priori

● On appelle P(Pourriel| Inconnu) une probabilité a posteriori

● La règle de Bayes lie ces deux probabilités ensemble

Le théorème de Bayes: Exercice

Le test identifie correctement les utilisateurs du médicament 99% du

Le théorème de Bayes: Exercice

• On a P(B|A) [probabilité de testé positive si on est utilisateur] et P(A)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)

● Exemple : P(Pluie, Pourriel) = P(Pluie) P(Pourriel)

• Deux événements A et B sont indépendants si : P(A ,B) = P(A)·P(B)

• L’indépendance entre les variables permet de réduire la taille de la distribution de

● On dit que Croche est conditionnellement indépendante de MalDeDents étant

● Dans des cas idéals, l’exploitation de l’indépendance conditionnelle réduit la complexité

• On a utilisé un exemple simple (Inconnu, MotSensible, Pourriel)

• Avec les réseaux bayésiens on va voir une façon plus eﬃcace de

● Un RB permet de représenter les connaissances probabilistes d’une

On peut représenter ce problème par un Réseaux bayésien

• Variables aléatoires : Cambriolage Séisme

• Un arc d’un nœud X vers un nœud Y

Probabilités dans un RB P(c) P(s)

RB avec des variables continues PDF(D) PDF(S)

Autres appellations P(c) P(s)

Réseau Bayésien : définitions

● La distribution conditionnelle de X1 sachant X2 est notée P(X1|X2)

● Soit X = {X1, …, Xn}, l’ensemble des variables d’un RB :

Calcul de probabilités conjointes

● Pour un RB : P(X 1, …, X n)= in= 1 P(Xi | Parents(Xi))

Exemple : probabilité conjointe P(c) P(s)

Exemple : probabilité marginale P(c) P(s)

Probabilité marginale P(c) P(s)

● Pour les probabilités marginales, on peut C S P(a)

Probabilités conditionnelles P(c) P(s)

Probabilités conditionnelles P(c) P(s)

• P(PlayGolf= Yes)= 0.40.670.86*0.5= 0.11524