Vous êtes sur la page 1sur 35

Introduction Analyse Théorique Modélisation et Simulation Résultats

Optimisation des feux rouges


à l’aide de l’intelligence artificielle

Imgs/background.png Al Hakim TAOUFIK

7 juin 2023

Al Hakim TAOUFIK 1 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Sommaire

1 Introduction

2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation

4 Résultats

Al Hakim TAOUFIK 2 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Sommaire

1 Introduction
Problématique

2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation

4 Résultats

Al Hakim TAOUFIK 3 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Introduction

Imgs/background.png

Figure 1 – Congestion du trafic dans une intersection

Al Hakim TAOUFIK 4 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Problématique

Comment automatiser, optimiser et modéliser les feux tricolores à l’aide de l’intelligence


Imgs/background.png artificielle ?

Al Hakim TAOUFIK 5 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Sommaire

1 Introduction

2 Analyse Théorique
Procédés de décision Markovien (PDM)
Fonctions Valeurs
Imgs/background.png
Les équations de Bellman
Algorithme d’apprentissage

3 Modélisation et Simulation

4 Résultats

Al Hakim TAOUFIK 6 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Procédés de décision Markovien (PDM)

On définit un PDM comme un quadruplet (S, A, P, R) où :


▶ S est l’ensemble d’états fini.
▶ A est l’ensemble des actions fini. On note aussi indifféremment la fonction
A : S → P(A).
Imgs/background.png
▶ P est la fonction de transition P : S × A × S → [0, 1].
▶ R est la fonction récompense R : S × A × S → R

Al Hakim TAOUFIK 7 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Procédés de décision Markovien (PDM)

On considère le temps comme suite discrète t ∈ N

On considère alors les suites de variables aléatoires discrètes suivantes :


▶ Suite d’états (st )t∈N à valeurs dans S , suite d’actions (at )t∈N à valeurs dans A
Imgs/background.png
▶ Suite de récompenses (rt )t∈N à valeurs réelles.

On considère aussi la politique stochastique π :


▶ La fonction π : S × A → [0, 1]

Al Hakim TAOUFIK 8 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Procédés de décision Markovien (PDM)

Propriété de Markov
Une loi de probabilité P dans une PDM satisfait la propriété de Markov si :
P(st+1 |st , at , rt , st−1 , at−1 , ..., r1 , s0 , a0 ) = P(st+1 |st , at )
Imgs/background.png
On prend :

∀(s ′ , a, s) ∈ S × A × S, P(s ′ , a, s) = P(st+1 = s ′ |at = a, st = s)

Al Hakim TAOUFIK 9 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Procédés de décision Markovien (PDM)

Imgs/background.png

Figure 2 – L’agent en apprentissage interagissant avec son environnement avec une politique π

Al Hakim TAOUFIK 10 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Fonctions Valeurs

Il faut chercher alors la politique optimale π qui maximise la somme des récompenses
amorties :
Imgs/background.png R∞ = r0 + γr1 + γ 2 r2 + γ 3 r3 ...
avec 0 < γ < 1 facteur d’actualisation.

Al Hakim TAOUFIK 11 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Fonctions Valeurs

On définit la suite de variables aléatoires discrètes réelles (Rt )t∈N , la récompense


cumulée du système :

Imgs/background.png +∞
X
Rt = γ k rt+k+1
k=0

Al Hakim TAOUFIK 12 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Fonctions Valeurs

Espérance conditionnelle
Soit X une v.a.d. réelle, et Y une v.a.d. Pour tout y appartenant à l’ensemble des
issues de Y , si P(Y = y ) ̸= 0, on peut définir :

Imgs/background.png 1
E(X |Y = y ) = E(X .1{Y =y } )
P(Y = y )

On définit ainsi, presque partout, une variable aléatoire φ(Y ) définie par :
φ(y ) = E(X |Y = y ), appeléePespérance de X conditionnée par Y et notée E(X |Y ),
et on a E(X ) = E(φ(Y )) = y φ(y )P(Y = y ).

Al Hakim TAOUFIK 13 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Fonctions Valeurs

On définit alors la fonction récompense R : S × A × S → R par :

∀(s ′ , a, s) ∈ S × A × S,
Imgs/background.png R(s ′ , a, s) = E(rt+1 |st+1 = s ′ , at = a, st = s)

Al Hakim TAOUFIK 14 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Fonctions Valeurs

À chaque instant t ∈ N, on définit les fonctions valeurs suivantes :


▶ La fonction valeur, V π : S → R tel que :
V π (s) = Eπ (Rt |st = s)
Imgs/background.png

▶ La fonction action-valeur, Qπ : S × A → R tel que :


Qπ (s, a) = Eπ (Rt |st = s, at = a)

Al Hakim TAOUFIK 15 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Les équations de Bellman

Les équations de Bellman


Les fonctions valeurs peuvent être définies récursivement par :
X X
∀s ∈ S, V π (s) = π(s, a) P(s ′ , a, s)(R(s ′ , a, s) + γV π (s))
Imgs/background.png
a∈A s ′ ∈S
X
∀s ∈ S, ∀a ∈ A, Qπ (s, a) = P(s ′ , a, s)(R(s ′ , a, s) + γV π (s))
s ′ ∈S

Al Hakim TAOUFIK 16 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Les équations de Bellman

Relation d’ordre sur l’ensemble des politiques stochastiques :



π ′ ≥ π ⇐⇒ ∀s ∈ S, V π (s) ≥ V π (s)
Imgs/background.png On définit aussi la fonction valeur optimale V ∗ :

∀s ∈ S, V ∗ (s) = max V π (s)


π

Al Hakim TAOUFIK 17 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Les équations de Bellman

Le but est de trouver la politique stocastique optimale π ∗ qui correspond à la politique


associée à V ∗ .
Les équations d’optimalité de Bellman

Imgs/background.pngV ∗ (s) = max X P(s ′ , a, s)(R(s ′ , a, s) + γV ∗ (s ′ ))


a∈A
s ′ ∈S
X
Q∗ (s, a) = P(s ′ , a, s)(R(s ′ , a, s) + γ max

Q∗ (s ′ , a′ ))
a ∈A
s ′ ∈S

Al Hakim TAOUFIK 18 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Les équations de Bellman

Algorithme 1 : Itération de la Valeur


Données : A, S, P, R, ε ∈ R∗+
Initialiser V0 (s) de manière aléatoire pour tout s ∈ S, t = 1, ;
tant que ∀s ∈ S, |Vt (s) − Vt−1 (s)| > ε faire
pour s ∈ S faire
Imgs/background.png
pour a ∈ A faire
Qt (s, a) = s ′ ∈S P(s ′ , a, s)(R(s ′ , a, s) + γ maxa′ ∈A Vt−1 (s ′ ))
P
fin
Vt (s) = maxa Qt (s, a)
fin
fin

Al Hakim TAOUFIK 19 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Les équations de Bellman

PROBLÈME : Dans notre modélisation, R et P sont inconnues, puisque la loi de


Imgs/background.png
probabilité P est inconnue.

Al Hakim TAOUFIK 20 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Algorithme d’apprentissage

On utilise l’algorithme du Q-Learning, qui consiste à appliquer la formule :

Q(st , at ) ← Q(st , at ) + α[rt+1 + γ max Q(st+1 , a) − Q(st , at )]


a∈A

Imgs/background.png pour avoir :

∀s ∈ S, ∀a ∈ A, lim Qt (s, a) = Q∗ (s, a)


t→+∞

Al Hakim TAOUFIK 21 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Algorithme d’apprentissage

Avantages du Q-Learning :
▶ Le Q-learning est un algorithme sans modèle.
Imgs/background.png
▶ Le Q-learning est un algorithme off-policy.

Al Hakim TAOUFIK 22 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Algorithme d’apprentissage
Algorithme 2 : Algorithme Q-Learning
Données : A, S, α : taux d’apprentissage, γ : facteur d’actualisation, ε ∈ R∗+
Résultat : Une Q-table contenant les Q-valeurs définissant la politique π ∗
Initialiser Q(s, a) de manière aléatoire pour tout (s, a) ∈ S × A , i = 1 ;
pour chaque épisode faire
Initialiser s ;
Imgs/background.png
pour chaque étape t de l’épisode faire
Choisir l’action a en utilisant l’algorithme ε-greedy ;
Effectuer l’action a, et recevoir la récompense r , et observer le nouveau état
s′ ;
Qt+1 (s, a) ← Qt (s, a) + α[r + γ maxa′ ∈A Qt (s ′ , a′ ) − Qt (s, a)], s ← s ′
fin
fin

Al Hakim TAOUFIK 23 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Algorithme d’apprentissage

Algorithme 3 : Algorithme ε-greedy


Données : Q-table, s ∈ S, ε ∈ R∗+
Résultat : Action choisie a
η ← nombre aléatoire dans [0, 1] ;
si η < ε alors
Imgs/background.png
a ← action aléatoire dans A
sinon
a ← maxa′ ∈A Q(s, a′ )
fin
Retourne l’action a sélectionnée

Al Hakim TAOUFIK 24 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Sommaire

1 Introduction

2 Analyse Théorique

3 Modélisation et Simulation
Imgs/background.png
Environnement
Agent
Récompense du système

4 Résultats

Al Hakim TAOUFIK 25 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Environnement

Imgs/background.png

Figure 3 – Carrefour simple

Chaque ligne d’une chaussée est de longueur 100m


Al Hakim TAOUFIK 26 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Agent

Imgs/background.png

(a) Phase 1 (b) Phase 2

Figure 4 – Les phases de l’agent

Al Hakim TAOUFIK 27 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Agent

Imgs/background.png

(a) Phase 3 (b) Phase 4

Figure 5 – Les phases de l’agent

Al Hakim TAOUFIK 28 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Agent

Les actions possibles de notre agent seraient :


▶ Rester dans la phase actuelle
Imgs/background.png
▶ Changer de phase vers la prochaine

Al Hakim TAOUFIK 29 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Récompense du système

À chaque étape t, on choisit la récompense du système à être maximisée par :

rt = f (t − 1) − f (t)

avec :
Imgs/background.png n
X
f (t) = awt(veh, t)
veh=1
et :
awt(veh, t), le temps en secondes écoulé avec υ(veh) < 0.1m/s à l’étape t.

Al Hakim TAOUFIK 30 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Sommaire

1 Introduction

2 Analyse Théorique

Imgs/background.png
3 Modélisation et Simulation

4 Résultats
Convergence du système
Performance du système

Al Hakim TAOUFIK 31 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Convergence du système

Imgs/background.png

Figure 6 – Récompense du système cumulée par épisode

Al Hakim TAOUFIK 32 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Performance du système

Imgs/background.png

Figure 7 – Temps d’attente cumulé par épisode

Al Hakim TAOUFIK 33 / 34
Introduction Analyse Théorique Modélisation et Simulation Résultats

Performance du système

Imgs/background.png

Figure 8 – Longueur moyenne de la file d’attente par épisode

Al Hakim TAOUFIK 34 / 34

Vous aimerez peut-être aussi