Académique Documents
Professionnel Documents
Culture Documents
06/04/2022 1
06/04/2022 2
Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 3
Plan
1. Introduction générale et Agents Intelligents
2. Logique du premier ordre
3. Machine Learning : Pré-traitement des données
4. Machine Learning : Supervised vs Unsupervised
5. Machine Learning : Construire un bon modèle
6. Machine Learning : Raisonnement probabiliste et réseaux bayésiens
7. Machine Learning: Algorithmes d’apprentissage automatique
8. Machine Learning: Apprentissage par renforcement, vision par ordinateur,
NLP, Deep Learning
06/04/2022 4
Machine Learning :
Raisonnement probabiliste et Réseaux bayésiens
06/04/2022 5
Contexte
• Jusqu’à présent, nous avons étudié des techniques pour des
environnements déterministes.
• Que faire lorsque l’environnement est non déterministe? (1)Les capteurs
peuvent être
• Quel type d’agent? Un qui doit pouvoir: bruités…
(2)Observabilité
– Gérer l’incertitude lié à l’environnement partielle.
État
probabilité
incertain.
– Gérer la qualité de ses décisions
utilité
• La théorie de l’utilité est utilisée pour modéliser et inférer sur les préférences.
- Une préférence exprime le degré d’utilité d’une action/situation.
Raisonnement probabiliste
06/04/2022 11
Variable aléatoire
● Variables aléatoires :
• Inconnu : est-ce que l’adresse de l’expéditeur du courriel n’est pas connu par le destinataire
• MotSensible : le courriel contient-il un mot appartenant à une liste de mots « sensibles »
• Pourriel : est-ce que le courriel est un pourriel
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
« la probabilité que toutes ces
vrai faux vrai 0.012
probabilités
Inconnu=vrai et somment à 1
MotSensible=vrai vrai faux faux 0.064
et sont entre
et faux vrai vrai 0.072
0 et 1
Pourriel=vrai » faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 13
Variable aléatoire
● Variable aléatoire: une fonction d’un événement élémentaire ω
- Exemple : Inconnu est vrai si ω est un état où l’expéditeur du courriel reçu n’est pas connu
● On pourrait définir des variables plus complexes, c-à-d des variables impliquant plusieurs
aspects de l’état
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 15
Variable aléatoire
• Souvent, on définit les variables aléatoires individuelles avant l’état
- on définit alors comme étant une assignation de toutes ces variables
• Une variable aléatoire joue le rôle d’une fenêtre sur l’état de l’environnement
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 16
Probabilité conjointe
• Probabilités conjointes : probabilité d’une assignation de toutes la variables
P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) = 0.108(10.8%)
P(Inconnu=faux, MotSensible=faux, Pourriel=vrai) = 0.008 (0.8%)
Probabilité marginale
• Probabilités marginales : probabilité sur un sous-‐ensemble des variables
• P(Inconnu=vrai, Pourriel=vrai)
= P(Inconnu=vrai, MotSensible=vrai, Pourriel=vrai) + P(Inconnu=vrai, MotSensible=faux, Pourriel=vrai)
= Σx∈{vrai, faux} P(Inconnu=vrai, MotSensible=x, Pourriel=vrai) = 0.108 + 0.012 = 0.12
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 18
Probabilité marginale
• Probabilités marginales : probabilité sur un sous-ensemble des variables
• P(Pourriel=vrai)
= Σx∈{vrai, faux} Σy∈{vrai, faux} P(Inconnu=y, MotSensible=x, Pourriel=vrai)
= 0.108 + 0.012 + 0.072 + 0.008 = 0.2
Inconnu MotSensible Pourriel Probabilité
vrai vrai vrai 0.108
vrai vrai faux 0.016
vrai faux vrai 0.012
vrai faux faux 0.064
faux vrai vrai 0.072
faux vrai faux 0.144
faux faux vrai 0.008
faux faux faux 0.576
06/04/2022 19
Probabilité conditionnelle
• Probabilités conditionnelles :
• P(Pourriel=faux | Inconnu=vrai) vrai seulement si
= P(Pourriel=faux, Inconnu=vrai) / P(Inconnu=vrai) P(Inconnu=vrai) ≠ 0
= (0.016 + 0.064) / (0.016 + 0.064 + 0.108 + 0.012) = 0.4
06/04/2022 22
Probabilité conditionnelle
• Probabilités conditionnelles :
• formule générale : P(A|B) = P(A,B) / P(B) ( P(B) ≠ 0 )
Exemple
• Les étudiants passent deux examens.
• 60% des étudiants ont réussi les deux examens, le 1er était plus facile – 80%
l’ont réussi. Quel est le pourcentage d’étudiants qui ont réussi le 2ème examen
sachant qu’ils ont réussi le 1er?
• A = réussir le 1er examen, B = réussir le 2ème examen
• On cherche P(B|A) – La probabilité de B sachant A
𝐏(𝐀,𝐁) 𝟎.𝟔
P(B|A) = = = 0.75
𝐏(𝐀) 𝟎.𝟖
• 75% des étudiants qui ont réussi le 1er examen ont réussi le 2ème.
06/04/2022 25
Exercice
• 99% de sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = ?
06/04/2022 26
Exercice
• 99% des sujets atteint d’une maladie M sont positifs à un test de dépistage
• La maladie M touche 10% de la population
• Quelle est la fraction de la population des sujets malades positifs au test de
dépistage ?
• P(M)=0.1 , P(T|M)=0.99
• P(T,M) = P(T|M)·P(M) = 0.99·0.1 = 9.9%
06/04/2022 27
Règle de chaînage
• Règle du produit :
• P(Pourriel=faux, Inconnu=vrai)
= P(Pourriel=faux | Inconnu=vrai) P(Inconnu=vrai)
= P(Inconnu=vrai | Pourriel=faux) P(Pourriel=faux)
• En général :
P(Pourriel, Inconnu) = P(Pourriel | Inconnu) P(Inconnu)
= P(Inconnu | Pourriel) P(Pourriel)
Règle de chaînage
• La règle de chaînage est vraie, quelle que soit la distribution de X1 ... Xn
Plutôt que de spécifier toutes les probabilités jointes P(X1, ... , Xn), on pourrait plutôt spécifier
P(X1), P(X2|X1), P(X3|X1, X2), ..., P(Xn | X1,...,Xn-‐1)
Règle de Bayes
● Et si on veut calculer P(Pourriel=faux | Inconnu=vrai) ?
P(Pourriel=faux | Inconnu=vrai)
= P(Pourriel=faux , Inconnu=vrai) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux ) P(Pourriel=faux) / P(Inconnu=vrai)
= P(Inconnu=vrai|Pourriel=faux) P(Pourriel=faux)
P(Inconnu=vrai, Pourriel=faux) + P(Inconnu=vrai, Pourriel=vrai))
= 0.08 / (0.08 + 0.12) = 0.4
Théorème de Bayes
On a:
• P(A,B) = P(B|A)·P(A)
Règle de Bayes
● Règle de Bayes : P(Cause|Effet) = P(Effet|Cause) P(Cause) / P(Effet)
• P(Pourriel | Inconnu) = P(Inconnu|Pourriel) P(Pourriel) / P(Inconnu)
• On peut déduire P(B) est 1.3% (0.99 * 0.003 + 0.01 * 0.997 – la probabilité de tester positif si
vous utilisez le médicament, plus la probabilité de tester positif si vous ne le faites pas.)
𝐏 𝐀 𝐏(𝐁|𝐀) 𝟎.𝟎𝟎𝟑 ∗𝟎.𝟗𝟗
• P(A|B)= = =22.8%
𝐏(𝐁) 𝟎.𝟎𝟏𝟑
• Ainsi, la probabilité qu'une personne soit un véritable utilisateur du médicament étant donné
qu'elle a été testée positive n'est que de 22,8%!
• Même si P(B|A) est élevée(99%), ça ne veut pas dire que P(A|B) est aussi élevée.
06/04/2022 34
Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
P(A|B) = P(A) ou
P(B|A) = P(B) ou
P(A, B) = P(A) P(B)
Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
P(A|B) = P(A) ou
P(B|A) = P(B) ou
P(A, B) = P(A) P(B)
Indépendance
● Soit les variables A et B, elles sont indépendantes si et seulement si
P(A|B) = P(A) ou
P(B|A) = P(B) ou
P(A, B) = P(A) P(B)
Indépendance
• Deux événements sont indépendants si la connaissance de l’un ne modifie pas la
probabilité de l’autre, c.-à-d., si A et B sont indépendants, alors : P(A|B) = P(A)
• Mais il est rare d’être dans une situation où toutes les variables sont réellement
indépendantes
06/04/2022 38
Indépendance conditionnelle
● Si j’ai une carie, la probabilité que la sonde accroche dans la dent ne dépend pas
du fait que j’aie mal à la dent ou non :
P(Croche | MalDeDents, Carie=vrai) = P(Croche | Carie=vrai)
● Même chose si je n’ai pas la carie :
P(Croche | MalDeDents, Carie=faux) = P(Croche | Carie=faux)
Indépendance conditionnelle
● Réécrivons la distribution conjointe en utilisant la règle de chaînage (chain
rule) :
• P(MalDeDents, Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche, Carie)
= P(MalDeDents | Croche, Carie) P(Croche | Carie) P(Carie)
= P(MalDeDents | Carie) P(Croche | Carie) P(Carie)
● C-‐à-‐d., 2 + 2 + 1 = 5 paramètres individuels/distincts
Réseaux bayésiens
06/04/2022 41
Réseaux bayésiens
• On a vu les bases du raisonnement probabiliste et de la théorie des
probabilité
• à partir d’une table des probabilités conjointes, comment calculer toute autre
probabilité
Réseaux bayésiens
● Les réseaux bayésiens (RB) sont une fusion entre la théorie des graphes et la théorie
des probabilités
● Les RB sont utiles pour modéliser des connaissances d’un système expert ou d’un
système de support à la décision, dans une situation pour laquelle :
La causalité joue un rôle important (des événements en causent d’autres)
Mais notre compréhension de la causalité des événements est incomplète (on doit recourir aux
probabilités)
06/04/2022 43
Définition
● Un RB est un graphe :
• orienté Carie
• acyclique
• dont les nœuds sont des variables aléatoires et
• dont les arcs représentent MalDeDents Croche
» des dépendances (par exemple des causalités)
probabilistes entre les variables et
» des distributions de probabilités conditionnelles
(locales) pour chaque variable étant donnés ses
parents
06/04/2022 44
Exemple
Considérons la situation suivante :
Je suis au travail, et mes voisins Marie et Jean m’ont promis de m’appeler chaque
fois que mon alarme sonne
Mon voisin Jean m’appelle pour me dire que mon alarme sonne
» parfois il confond l’alarme avec la sonnerie du téléphone
Par contre ma voisine Marie ne m’appelle pas toujours
» parfois elle met la musique trop fort
parfois mon alarme se met à sonner lorsqu’il y a de légers séismes
comment conclure qu’il y a un cambriolage chez moi?
Exemple
Exemple
• La topologie du RB modélise les
relations de causalité
Cambriolage Séisme
• un cambriolage peut déclencher
l’alarme
• un séisme aussi
• l’alarme peut inciter Jean à appeler
• idem pour Marie Alarme
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 50
● En d’autres mots, la distribution conjointe des variables d’un RB est définie comme étant
le produit des distributions conditionnelles (locales)
06/04/2022 51
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 53
Cambriolage Séisme
= Σm Σj Σs P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
C S P(a)
= Σs Σj Σm P(j|A=V) P(m|A=V) P(A=V|C=F, s) P(C=F) P(s)
V V .95
= Σs Σj P(j|A=V) P(A=V|C=F, s) P(C=F) P(s) Σm P(m|A=V) Alarme V F .94
F V .29
= Σs P(A=V|C=F, s) P(C=F) P(s) Σj P(j|A=V) =1 F F .001
=1
JeanAppelle MarieAppelle
= P(A=V|C=F,S=V) P(C=F) P(S=V)
+ P(A=V|C=F,S=F) P(C=F) P(S=F)
A P(j) A P(m)
= .29 * .999 * .002 + .001 * .999 * .998
≈ 0.0016 V .90 V .70
F .05 F .01
06/04/2022 54
Cambriolage Séisme
= Σs P(M,A,C,S=s)
Σs P(A,C,S=s) C S P(a)
V V .95
= Σs P(M|A) P(A|C,S=s) P(S=s) P(C) V F .94
Alarme
Σs P(A|C,S=s) P(S=s) P(C) F V .29
F F .001
= P(M|A) ΣsP(A|C,S=s) P(S=s) P(C)
Σs P(A|C,S=s) P(S=s) P(C)
JeanAppelle MarieAppelle
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 58
Cambriolage Séisme
= Σs Σc P(M,A,J,S=s,C=c)
Σs ΣcP(A,J,S=s,C=c)
C S P(a)
V V .95
= Σs Σc P(J|A) P(M|A) P(A,S=s,C=c) V F .94
Alarme
Σs Σc P(J|A) P(A,S=s,C=c) F V .29
F F .001
= P(M|A) ΣsΣ cP(J|A) P(A,S=s,C=c)
Σs Σc P(J|A) P(A,S=s,C=c)
JeanAppelle MarieAppelle
= P(M|A)
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 60
C S P(a)
V V .95
Alarme V F .94
F V .29
F F .001
JeanAppelle MarieAppelle
A P(j) A P(m)
V .90 V .70
F .05 F .01
06/04/2022 62
● On fait ce calcul pour toutes les valeurs x de Xi et toutes les valeurs p de ses
parents possibles
pour éviter d’avoir de probabilités à 0, on peut ajouter
aux fréquences freq(x,e) une petite constante positive δ (ex. : δ=1)
06/04/2022 66
Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
Inconnu (I) : l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire
MotSensible (ms) : le courriel contient un mot
appartenant à une liste de mots « sensibles »
Pourriel (p): le courriel est un pourriel Inconnu MotSensible
Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
Inconnu (I): l’adresse de l’expéditeur n’est pas connu Pourriel
par le destinataire p P(I) p P(ms)
MotSensible (ms) : le courriel contient un mot V 0.92 V 0.72
appartenant à une liste de mots « sensibles »
Pourriel (p) : le courriel est un pourriel Inconnu MotSensible
Exemple
P(p)
● Supposons que l’on souhaite détecter des pourriels à 0.75
l’aide du RB suivant :
Inconnu (I): l’adresse de l’expéditeur n’est pas connu p P(I) Pourriel p P(ms)
par le destinataire V 0.92 V 0.72
MotSensible (ms): le courriel contient un mot F 0.20 F 0.02
appartenant à une liste de mots « sensibles »
Pourriel (p): le courriel est un pourriel Inconnu MotSensible
P xc .P(c)
• On a: P cx =
P(x)
• Devient alors:
06/04/2022 82
• Une autre option utilise la distribution des variables numériques pour avoir une
bonne estimation de la fréquence.
• Par exemple, une pratique courante consiste à supposer que les variables
numériques suivent une distribution normale.
06/04/2022 93
𝟏 𝑵
• L’écart-type (Standard deviation) 𝝈= 𝒊=𝟏 𝒙𝒊 − 𝝁 𝟐
𝑵
Exemple: