Hakim Taoufik

Introduction Analyse Théorique Modélisation et Simulation Résultats
Optimisation des feux rouges

à l’aide de l’intelligence artificielle
Imgs/background.png Al Hakim TAOUFIK
7 juin 2023
Al Hakim TAOUFIK 1 / 34
Sommaire
1 Introduction
2 Analyse Théorique
Imgs/background.png
3 Modélisation et Simulation
4 Résultats
Sommaire
1 Introduction
Problématique
Imgs/background.png
4 Résultats
Introduction
Imgs/background.png
Figure 1 – Congestion du trafic dans une intersection
Problématique
Comment automatiser, optimiser et modéliser les feux tricolores à l’aide de l’intelligence

Imgs/background.png artificielle ?
Sommaire
1 Introduction
Procédés de décision Markovien (PDM)
Fonctions Valeurs
Imgs/background.png
Les équations de Bellman
Algorithme d’apprentissage
4 Résultats
On définit un PDM comme un quadruplet (S, A, P, R) où :

▶ S est l’ensemble d’états fini.
▶ A est l’ensemble des actions fini. On note aussi indifféremment la fonction
A : S → P(A).
Imgs/background.png
▶ P est la fonction de transition P : S × A × S → [0, 1].
▶ R est la fonction récompense R : S × A × S → R
On considère le temps comme suite discrète t ∈ N
On considère alors les suites de variables aléatoires discrètes suivantes :

▶ Suite d’états (st )t∈N à valeurs dans S , suite d’actions (at )t∈N à valeurs dans A
Imgs/background.png
▶ Suite de récompenses (rt )t∈N à valeurs réelles.
On considère aussi la politique stochastique π :

▶ La fonction π : S × A → [0, 1]
Propriété de Markov
Une loi de probabilité P dans une PDM satisfait la propriété de Markov si :
P(st+1 |st , at , rt , st−1 , at−1 , ..., r1 , s0 , a0 ) = P(st+1 |st , at )
Imgs/background.png
On prend :
∀(s ′ , a, s) ∈ S × A × S, P(s ′ , a, s) = P(st+1 = s ′ |at = a, st = s)
Imgs/background.png
Figure 2 – L’agent en apprentissage interagissant avec son environnement avec une politique π
Fonctions Valeurs
Il faut chercher alors la politique optimale π qui maximise la somme des récompenses
amorties :
Imgs/background.png R∞ = r0 + γr1 + γ 2 r2 + γ 3 r3 ...
avec 0 < γ < 1 facteur d’actualisation.
Fonctions Valeurs
On définit la suite de variables aléatoires discrètes réelles (Rt )t∈N , la récompense

cumulée du système :
Imgs/background.png +∞
X
Rt = γ k rt+k+1
k=0
Fonctions Valeurs
Espérance conditionnelle
Soit X une v.a.d. réelle, et Y une v.a.d. Pour tout y appartenant à l’ensemble des
issues de Y , si P(Y = y ) ̸= 0, on peut définir :
Imgs/background.png 1
E(X |Y = y ) = E(X .1{Y =y } )
P(Y = y )
On définit ainsi, presque partout, une variable aléatoire φ(Y ) définie par :
φ(y ) = E(X |Y = y ), appeléePespérance de X conditionnée par Y et notée E(X |Y ),
et on a E(X ) = E(φ(Y )) = y φ(y )P(Y = y ).
Fonctions Valeurs
On définit alors la fonction récompense R : S × A × S → R par :
∀(s ′ , a, s) ∈ S × A × S,
Imgs/background.png R(s ′ , a, s) = E(rt+1 |st+1 = s ′ , at = a, st = s)
Fonctions Valeurs
À chaque instant t ∈ N, on définit les fonctions valeurs suivantes :

▶ La fonction valeur, V π : S → R tel que :
V π (s) = Eπ (Rt |st = s)
Imgs/background.png
▶ La fonction action-valeur, Qπ : S × A → R tel que :

Qπ (s, a) = Eπ (Rt |st = s, at = a)

Les fonctions valeurs peuvent être définies récursivement par :
X X
∀s ∈ S, V π (s) = π(s, a) P(s ′ , a, s)(R(s ′ , a, s) + γV π (s))
Imgs/background.png
a∈A s ′ ∈S
X
∀s ∈ S, ∀a ∈ A, Qπ (s, a) = P(s ′ , a, s)(R(s ′ , a, s) + γV π (s))
s ′ ∈S
Relation d’ordre sur l’ensemble des politiques stochastiques :

′
π ′ ≥ π ⇐⇒ ∀s ∈ S, V π (s) ≥ V π (s)
Imgs/background.png On définit aussi la fonction valeur optimale V ∗ :
∀s ∈ S, V ∗ (s) = max V π (s)

π
Le but est de trouver la politique stocastique optimale π ∗ qui correspond à la politique

associée à V ∗ .
Les équations d’optimalité de Bellman
Imgs/background.pngV ∗ (s) = max X P(s ′ , a, s)(R(s ′ , a, s) + γV ∗ (s ′ ))

a∈A
s ′ ∈S
X
Q∗ (s, a) = P(s ′ , a, s)(R(s ′ , a, s) + γ max
′
Q∗ (s ′ , a′ ))
a ∈A
s ′ ∈S
Algorithme 1 : Itération de la Valeur

Données : A, S, P, R, ε ∈ R∗+
Initialiser V0 (s) de manière aléatoire pour tout s ∈ S, t = 1, ;
tant que ∀s ∈ S, |Vt (s) − Vt−1 (s)| > ε faire
pour s ∈ S faire
Imgs/background.png
pour a ∈ A faire
Qt (s, a) = s ′ ∈S P(s ′ , a, s)(R(s ′ , a, s) + γ maxa′ ∈A Vt−1 (s ′ ))
P
fin
Vt (s) = maxa Qt (s, a)
fin
fin
PROBLÈME : Dans notre modélisation, R et P sont inconnues, puisque la loi de

Imgs/background.png
probabilité P est inconnue.
On utilise l’algorithme du Q-Learning, qui consiste à appliquer la formule :
Q(st , at ) ← Q(st , at ) + α[rt+1 + γ max Q(st+1 , a) − Q(st , at )]

a∈A
Imgs/background.png pour avoir :
∀s ∈ S, ∀a ∈ A, lim Qt (s, a) = Q∗ (s, a)

t→+∞
Avantages du Q-Learning :
▶ Le Q-learning est un algorithme sans modèle.
Imgs/background.png
▶ Le Q-learning est un algorithme off-policy.
Algorithme 2 : Algorithme Q-Learning
Données : A, S, α : taux d’apprentissage, γ : facteur d’actualisation, ε ∈ R∗+
Résultat : Une Q-table contenant les Q-valeurs définissant la politique π ∗
Initialiser Q(s, a) de manière aléatoire pour tout (s, a) ∈ S × A , i = 1 ;
pour chaque épisode faire
Initialiser s ;
Imgs/background.png
pour chaque étape t de l’épisode faire
Choisir l’action a en utilisant l’algorithme ε-greedy ;
Effectuer l’action a, et recevoir la récompense r , et observer le nouveau état
s′ ;
Qt+1 (s, a) ← Qt (s, a) + α[r + γ maxa′ ∈A Qt (s ′ , a′ ) − Qt (s, a)], s ← s ′
fin
fin
Algorithme 3 : Algorithme ε-greedy

Données : Q-table, s ∈ S, ε ∈ R∗+
Résultat : Action choisie a
η ← nombre aléatoire dans [0, 1] ;
si η < ε alors
Imgs/background.png
a ← action aléatoire dans A
sinon
a ← maxa′ ∈A Q(s, a′ )
fin
Retourne l’action a sélectionnée
Sommaire
1 Introduction
Imgs/background.png
Environnement
Agent
Récompense du système
4 Résultats
Environnement
Imgs/background.png
Figure 3 – Carrefour simple
Chaque ligne d’une chaussée est de longueur 100m

Agent
Imgs/background.png
(a) Phase 1 (b) Phase 2
Figure 4 – Les phases de l’agent
Agent
Imgs/background.png
(a) Phase 3 (b) Phase 4
Figure 5 – Les phases de l’agent
Agent
Les actions possibles de notre agent seraient :

▶ Rester dans la phase actuelle
Imgs/background.png
▶ Changer de phase vers la prochaine
Récompense du système
À chaque étape t, on choisit la récompense du système à être maximisée par :
rt = f (t − 1) − f (t)
avec :
Imgs/background.png n
X
f (t) = awt(veh, t)
veh=1
et :
awt(veh, t), le temps en secondes écoulé avec υ(veh) < 0.1m/s à l’étape t.
Sommaire
1 Introduction
Imgs/background.png
4 Résultats
Convergence du système
Performance du système
Convergence du système
Imgs/background.png
Figure 6 – Récompense du système cumulée par épisode
Imgs/background.png
Figure 7 – Temps d’attente cumulé par épisode
Imgs/background.png
Figure 8 – Longueur moyenne de la file d’attente par épisode

Hakim Taoufik

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Hakim Taoufik

Transféré par

Droits d'auteur :

Formats disponibles

Introduction Analyse Théorique Modélisation et Simulation Résultats

Optimisation des feux rouges

Imgs/background.png Al Hakim TAOUFIK

Figure 1 – Congestion du trafic dans une intersection

Comment automatiser, optimiser et modéliser les feux tricolores à l’aide de l’intelligence

Procédés de décision Markovien (PDM)

On définit un PDM comme un quadruplet (S, A, P, R) où :

Procédés de décision Markovien (PDM)

On considère le temps comme suite discrète t ∈ N

On considère alors les suites de variables aléatoires discrètes suivantes :

On considère aussi la politique stochastique π :

Procédés de décision Markovien (PDM)

∀(s ′ , a, s) ∈ S × A × S, P(s ′ , a, s) = P(st+1 = s ′ |at = a, st = s)

Procédés de décision Markovien (PDM)

On définit la suite de variables aléatoires discrètes réelles (Rt )t∈N , la récompense

On définit alors la fonction récompense R : S × A × S → R par :

À chaque instant t ∈ N, on définit les fonctions valeurs suivantes :

▶ La fonction action-valeur, Qπ : S × A → R tel que :

Les équations de Bellman

Les équations de Bellman

Les équations de Bellman

Relation d’ordre sur l’ensemble des politiques stochastiques :

∀s ∈ S, V ∗ (s) = max V π (s)

Les équations de Bellman

Le but est de trouver la politique stocastique optimale π ∗ qui correspond à la politique

Imgs/background.pngV ∗ (s) = max X P(s ′ , a, s)(R(s ′ , a, s) + γV ∗ (s ′ ))

Les équations de Bellman

Algorithme 1 : Itération de la Valeur

Les équations de Bellman

PROBLÈME : Dans notre modélisation, R et P sont inconnues, puisque la loi de

On utilise l’algorithme du Q-Learning, qui consiste à appliquer la formule :

Q(st , at ) ← Q(st , at ) + α[rt+1 + γ max Q(st+1 , a) − Q(st , at )]

Imgs/background.png pour avoir :

∀s ∈ S, ∀a ∈ A, lim Qt (s, a) = Q∗ (s, a)

Algorithme 3 : Algorithme ε-greedy

Figure 3 – Carrefour simple

Chaque ligne d’une chaussée est de longueur 100m

(a) Phase 1 (b) Phase 2

Figure 4 – Les phases de l’agent

(a) Phase 3 (b) Phase 4

Figure 5 – Les phases de l’agent

Les actions possibles de notre agent seraient :

À chaque étape t, on choisit la récompense du système à être maximisée par :

Figure 6 – Récompense du système cumulée par épisode

Figure 7 – Temps d’attente cumulé par épisode

Figure 8 – Longueur moyenne de la file d’attente par épisode

Vous aimerez peut-être aussi