Académique Documents
Professionnel Documents
Culture Documents
Hakim Taoufik
Hakim Taoufik
7 juin 2023
Al Hakim TAOUFIK 1 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Sommaire
1 Introduction
2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation
4 Résultats
Al Hakim TAOUFIK 2 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Sommaire
1 Introduction
Problématique
2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation
4 Résultats
Al Hakim TAOUFIK 3 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Introduction
Imgs/background.png
Al Hakim TAOUFIK 4 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Problématique
Al Hakim TAOUFIK 5 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Sommaire
1 Introduction
2 Analyse Théorique
Procédés de décision Markovien (PDM)
Fonctions Valeurs
Imgs/background.png
Les équations de Bellman
Algorithme d’apprentissage
3 Modélisation et Simulation
4 Résultats
Al Hakim TAOUFIK 6 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 7 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 8 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Propriété de Markov
Une loi de probabilité P dans une PDM satisfait la propriété de Markov si :
P(st+1 |st , at , rt , st−1 , at−1 , ..., r1 , s0 , a0 ) = P(st+1 |st , at )
Imgs/background.png
On prend :
Al Hakim TAOUFIK 9 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Imgs/background.png
Figure 2 – L’agent en apprentissage interagissant avec son environnement avec une politique π
Al Hakim TAOUFIK 10 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Fonctions Valeurs
Il faut chercher alors la politique optimale π qui maximise la somme des récompenses
amorties :
Imgs/background.png R∞ = r0 + γr1 + γ 2 r2 + γ 3 r3 ...
avec 0 < γ < 1 facteur d’actualisation.
Al Hakim TAOUFIK 11 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Fonctions Valeurs
Imgs/background.png +∞
X
Rt = γ k rt+k+1
k=0
Al Hakim TAOUFIK 12 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Fonctions Valeurs
Espérance conditionnelle
Soit X une v.a.d. réelle, et Y une v.a.d. Pour tout y appartenant à l’ensemble des
issues de Y , si P(Y = y ) ̸= 0, on peut définir :
Imgs/background.png 1
E(X |Y = y ) = E(X .1{Y =y } )
P(Y = y )
On définit ainsi, presque partout, une variable aléatoire φ(Y ) définie par :
φ(y ) = E(X |Y = y ), appeléePespérance de X conditionnée par Y et notée E(X |Y ),
et on a E(X ) = E(φ(Y )) = y φ(y )P(Y = y ).
Al Hakim TAOUFIK 13 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Fonctions Valeurs
∀(s ′ , a, s) ∈ S × A × S,
Imgs/background.png R(s ′ , a, s) = E(rt+1 |st+1 = s ′ , at = a, st = s)
Al Hakim TAOUFIK 14 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Fonctions Valeurs
Al Hakim TAOUFIK 15 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 16 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 17 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 18 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 19 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Al Hakim TAOUFIK 20 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Algorithme d’apprentissage
Al Hakim TAOUFIK 21 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Algorithme d’apprentissage
Avantages du Q-Learning :
▶ Le Q-learning est un algorithme sans modèle.
Imgs/background.png
▶ Le Q-learning est un algorithme off-policy.
Al Hakim TAOUFIK 22 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Algorithme d’apprentissage
Algorithme 2 : Algorithme Q-Learning
Données : A, S, α : taux d’apprentissage, γ : facteur d’actualisation, ε ∈ R∗+
Résultat : Une Q-table contenant les Q-valeurs définissant la politique π ∗
Initialiser Q(s, a) de manière aléatoire pour tout (s, a) ∈ S × A , i = 1 ;
pour chaque épisode faire
Initialiser s ;
Imgs/background.png
pour chaque étape t de l’épisode faire
Choisir l’action a en utilisant l’algorithme ε-greedy ;
Effectuer l’action a, et recevoir la récompense r , et observer le nouveau état
s′ ;
Qt+1 (s, a) ← Qt (s, a) + α[r + γ maxa′ ∈A Qt (s ′ , a′ ) − Qt (s, a)], s ← s ′
fin
fin
Al Hakim TAOUFIK 23 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Algorithme d’apprentissage
Al Hakim TAOUFIK 24 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Sommaire
1 Introduction
2 Analyse Théorique
3 Modélisation et Simulation
Imgs/background.png
Environnement
Agent
Récompense du système
4 Résultats
Al Hakim TAOUFIK 25 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Environnement
Imgs/background.png
Agent
Imgs/background.png
Al Hakim TAOUFIK 27 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Agent
Imgs/background.png
Al Hakim TAOUFIK 28 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Agent
Al Hakim TAOUFIK 29 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Récompense du système
rt = f (t − 1) − f (t)
avec :
Imgs/background.png n
X
f (t) = awt(veh, t)
veh=1
et :
awt(veh, t), le temps en secondes écoulé avec υ(veh) < 0.1m/s à l’étape t.
Al Hakim TAOUFIK 30 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Sommaire
1 Introduction
2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation
4 Résultats
Convergence du système
Performance du système
Al Hakim TAOUFIK 31 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Convergence du système
Imgs/background.png
Al Hakim TAOUFIK 32 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Performance du système
Imgs/background.png
Al Hakim TAOUFIK 33 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats
Performance du système
Imgs/background.png
Al Hakim TAOUFIK 34 / 34