Académique Documents
Professionnel Documents
Culture Documents
ANR-09-SEGI-004 Fautocoes
Plan
1 Introduction
3 Méthode numérique
4 Exemple
5 Conclusion et perspectives
Plan
1 Introduction
Motivation
Processus markoviens déterministes par morceaux
Objectif
3 Méthode numérique
4 Exemple
5 Conclusion et perspectives
Benoîte de Saporta, François Dufour CQFD
Méthode numérique pour le contrôle optimal des processus Markoviens déterministes par morceaux
Introduction Stratégie Méthode numérique Exemple Perspectives
Motivation
Maintenance préventive
Problème de maintenance
Trouver un équilibre optimal entre
changer les pièces trop tôt/souvent
ne rien faire jusqu’à la panne totale
Problème mathématique
arrêt optimal
contrôle impulsionnel
Motivation
Maintenance préventive
Problème de maintenance
Trouver un équilibre optimal entre
changer les pièces trop tôt/souvent
ne rien faire jusqu’à la panne totale
Problème mathématique
arrêt optimal
contrôle impulsionnel
Motivation
Motivation
Motivation
Motivation
Motivation
Politique de Maintenance
Une seule intervention avant la rupture ⇒ remise à neuf de la
structure
Optimisation de la maintenance : équilibre entre
une maintenance trop précoce
une maintenance trop tardive
PDP
Davis (80’s)
Classe générale de processus hybrides de type non-diffusion :
trajectoire déterministe entre des sauts ponctuels aléatoires.
Applications
biologie, trafic internet, fiabilité dynamique,. . .
PDP
Dynamique
PDP
Remarque importante
T1 a une densité sur [0, t ∗ (m, y )[ mais a un atome en t ∗ (m, y ):
PDP
Construction itérative
Point de départ
X0 = Z0 = (m, y )
Em
PDP
Construction itérative
Xt suit le flot déterministe jusqu’au premier temps de saut T1 = S1
Xt = m, φm (y , t) , t < T1
Em
T1
PDP
Construction itérative
Position après saut Z1 = (M1 , Y1 ) tirée suivant la loi
Qm φm (y , T1 ), ·
EM1
Em
T1 Y1 PSfrag repla
ements
y Qm φm(y, T1), ·
PDP
Construction itérative
Xt suit le flot jusqu’au deuxième temps de sautT2 = T1 + S2
XT1 +t = M1 , φM1 (Y1 , t) , t < S2
EM1
Em PSfrag repla
ements
T1 Y1
S2
y Qm φm(y, T1), ·
PDP
Construction itérative
Postion après saut Z2 = (M2 , Y2 ) tirée suivant la loi
QM1 φM1 (Y1 , S2 ), · . . .
EM1
PSfrag repla
ements
Em
T1 Y1
S2
QM1 φM1 (Y1 , S2), ·
y Qm φm(y, T1), ·
PDP
Proposition
(Zn , Sn ) est une chaîne de Markov en temps discret
Seule source d’aléa du PDP
Objectif
Fonction de performance g
Horizon aléatoire : N-ème temps de saut TN du PDP
MN ensemble des temps d’arrêt τ ≤ TN
Objectif
But de l’exposé
Objectif
la fonction valeur
une règle d’arrêt ε-optimal
Stratégie
Adapter la méthode numérique de quantification utilisée pour les
EDS
Plan
1 Introduction
3 Méthode numérique
4 Exemple
5 Conclusion et perspectives
Benoîte de Saporta, François Dufour CQFD
Méthode numérique pour le contrôle optimal des processus Markoviens déterministes par morceaux
Introduction Stratégie Méthode numérique Exemple Perspectives
Démarche
Démarche
Démarche
Démarche
Démarche
Quantification
Principe
Quantification
Priopriétés
Propriétés asymptotiques
Si E [|X |p+η ] < +∞ pour un η > 0, alors
Z
lim K p/d b Γ p
min kX − X kp = Jp,d |h|d/(d+p) (u)du ,
K →∞ |Γ|≤K
Quantification
Algorithme de quantification
entrée : simulateur de X
sortie :
grille Γ
la poids de chaque point de Γ
les probabilités de transition pour la quantification de chaînes
de Markov
Quantification
Exemple N (0, I2 )
Quantification
Exemple N (0, I2 )
−1
−2
−3
−3 −2 −1 0 1 2 3
Quantification
Exemple N (0, I2 )
−1
−2
−3
−3 −2 −1 0 1 2 3
Quantification
Réferences
Solution
utiliser la chaîne induite (Zn , Sn )
construire judicieusement les grilles en temps
Plan
1 Introduction
3 Méthode numérique
Programmation dynamique
Approximation de la fonction valeur
Temps d’arrêt -optimal
4 Exemple
5 Conclusion et perspectives
Benoîte de Saporta, François Dufour CQFD
Méthode numérique pour le contrôle optimal des processus Markoviens déterministes par morceaux
Introduction Stratégie Méthode numérique Exemple Perspectives
Programmation dynamique
Résultats théoriques
Equation de programmation dynamique rétrograde (U. Gugerli,
1986)
vN = g
vn = L(vn+1 , g ) pour n ≤ N − 1
L(w , g )(x)
hZ t∧t ∗ (x) ∗
i
λQw (φ(x, s))e −Λ(x,s) ds + g φ(x, t ∧ t ∗ (x)) e −Λ(x,t∧t (x))
` ´
= sup
t≥0 0
Z t ∗ (x) ∗
(x))
∨ λQw (φ(x, s))e −Λ(x,s) ds + Qw (φ(x, t ∗ (x)))e −Λ(x,t
0
Programmation dynamique
Interprétation probabiliste
Interpretation de l’opérateur L
L(w , g )(x)
hZ t∧t ∗ (x) ∗
i
λQw (φ(x, s))e −Λ(x,s) ds + g φ(x, t ∧ t ∗ (x)) e −Λ(x,t∧t (x))
` ´
= sup
t≥0 0
Z t ∗ (x) ∗
(x))
∨ λQw (φ(x, s))e −Λ(x,s) ds + Qw (φ(x, t ∗ (x)))e −Λ(x,t
0
Programmation dynamique
Interprétation probabiliste
Interpretation de l’opérateur L
L(w , g )(x)
n h io
= sup Ex w (Z1 )1{S1 <u} + g φ(x, u) 1{S1 ≥u}
u≤t ∗ (x)
∨ Ex w (Z1 )
Programmation dynamique
Interprétation probabiliste
Interpretation de l’opérateur L
L(w , g )(x)
n h ` ´ ˛ io
= sup E w (Zn+1 )1{Sn+1 <u} + g φ(Zn , u) 1{Sn+1 ≥u} ˛ Zn = x
u≤t ∗ (Zn )
ˆ ˛ ˜
∨ E w (Zn+1 ) ˛ Zn = x
Programmation dynamique
Construction itérative
Programmation dynamique
Calcul rétrograde
Equation de programmation dynamique rétrograde
vN (ZN ) = g (ZN )
vn (Zn ) = L(vn+1 , g )(Zn ) pour n ≤ N − 1
Time
(Z0 ,S0) (Zk ,Sk) (ZN ,SN)
Calculation
Discrétisation
L(vn+1 , g )(Zn )
n h io
= sup E v (Zn+1 )1{Sn+1 <u} + g φ(Zn , u) 1{Sn+1 ≥u} Zn
u≤t ∗ (Zn )
∨ E v (Zn+1 ) Zn
Discrétisation
Discrétisation en temps
vN (ZN ) = g (ZN )
vn (Zn ) = L(vn+1 , g )(Zn ) for n ≤ N − 1
Ld (vn+1 , g )(Zn )
n h io
= max E v (Zn+1 )1{Sn+1 <u} + g φ(Zn , u) 1{Sn+1 ≥u} Zn
u∈G (Zn )
∨ E v (Zn+1 ) Zn
Discrétisation
Quantification
vN (ZN ) = g (ZN )
vn (Zn ) = L(vn+1 , g )(Zn ) for n ≤ N − 1
b
Ld (vn+1 , g )(Zn )
n h io
= max E v (Z bn+1 )1 b + g φ(Zn , u) 1 bn
Z
u∈G (Zn ) {Sn+1 <u} {Sn+1 ≥u}
b
bn
∨ E v (Zn+1 ) Z
Discrétisation
b
Ld (vn+1 , g )(Zn )
n h io
= max E v (Z bn+1 )1 b + g φ(Zn , u) 1 b
bn+1 ≥u} Zn
u∈G (Zn ) {Sn+1 <u} {S
bn
∨ E v (Zn+1 ) Z
Vitesse de convergence
Théorème
Hypothèses de régularité Lipschitz sur φ, λ, Q, t ∗ and g
p
|v0 (x) − vb0 (x)| ≤ C EQ
C constante explicite,
EQ erreur de quantification
√
· due aux indicatrices
Indicatrices
Lemme
b0 ), u + η< t ∗ (Z
Soit η t.q. ∀u ∈ G (Z b0 )
1
b1 k2 + C η
max EZb0 |1{S1 <u} − 1{Sb1 <u} |
≤ kS1 − S
u∈G (Z
b0 ) 2 η
Cas faciles
u t∗(
PSfrag repla
ements
S1 b
S1
Indicatrices
Lemme
b0 ), u + η< t ∗ (Z
Soit η t.q. ∀u ∈ G (Z b0 )
1
b1 k2 + C η
max EZb0 |1{S1 <u} − 1{Sb1 <u} |
≤ kS1 − S
u∈G (Z
b0 ) 2 η
Cas faciles
u t∗(
PSfrag repla
ements
S1 b
S1
u t∗(x)
PSfrag repla
ements
η
S1 b
S1
1{S <u} − 1 b ≤ 1{|S −u|≤η} + 1
1 {S1 <u} 1 {|S1 −S
b1 |>η}
h i
EZb0 1{u−η≤S1 ≤u+η} = E E 1{u−η≤S1 ≤u+η} | Z0 | Z b0
Z u+η
= λ(φ(Z0 , u))du ≤ C η
u−η
u t∗(x)
PSfrag repla
ements
η
S1 b
S1
1{S <u} − 1 b ≤ 1{|S −u|≤η} + 1
1 {S1 <u} 1 {|S1 −S
b1 |>η}
h i
EZb0 1{u−η≤S1 ≤u+η} = E E 1{u−η≤S1 ≤u+η} | Z0 | Z b0
Z u+η
= λ(φ(Z0 , u))du ≤ C η
u−η
Existence?
Existence?
Optimalité
Théorème
Mêmes hypothèses
p
|v0 (x) − Ex [g (Xτ̂ )]| ≤ C1 EV + C2 EQ
C1 , C2 constantes explicites
EV erreur de la fonction valeur
EQ erreur de quantification
Plan
1 Introduction
3 Méthode numérique
4 Exemple
Modélisation
Mise en oeuvre de la méthode
Résultats
5 Conclusion et perspectives
Benoîte de Saporta, François Dufour CQFD
Méthode numérique pour le contrôle optimal des processus Markoviens déterministes par morceaux
Introduction Stratégie Méthode numérique Exemple Perspectives
Modélisation
Modélisation
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9
5
x 10
Modélisation
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6
5
x 10
Modélisation
Fonction de performance g
Processus Markovien déterministe 4
2.5
Xt = (mt , dt , γt , ρt ) 2
1.5
mode mt : ambiance à l’instant t 1
anti-corrosion à l’instant t 0
0 0.05 0.1 0.15 0.2 0.25
Problème pratique
Problème pratique
5000
4500
3000
2500
2000
1500
1000
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Problème pratique
5000
4500
3000
2500
2000
1500
1000
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1.2
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12 14 16
4
x 10
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14
5
x 10
1.6
1.4
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6
4
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 1 2 3 4 5 6
4
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 1 2 3 4 5 6
4
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5
5
x 10
Résultats
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 0.5 1 1.5 2 2.5 3 3.5
5
x 10
Résultats
2500
Seuil Probabilité
2000 5 ans 0.0002
10 ans 0.0304
1500
15 ans 0.0524
20 ans 0.0793
1000
40 ans 0.2647
60 ans 0.6048
80 ans 0.8670
500
100 ans 0.9691
150 ans 0.9997
0
0 20 40 60 80 100 120 140 160 180 200
Résultats
Plan
1 Introduction
3 Méthode numérique
4 Exemple
5 Conclusion et perspectives
Points forts
Prochaine étape
Points forts
Conclusion
Prochaine étape
Contrôle impulsionnel
Prochaine étape
Fonction valeur
"Z ∞
#
∞ X
S
J (x) = ExS e −αs
f (Ys )ds + e −ατi
c(Yτi , Yτ + ) ,
i
0 i=1
Prochaine étape
Programmation dynamique
Prochaine étape
Opérateur à itérer
L(Mw , w )(Zn )
h
= inf E F (Zn , t) + e−αSn+1 w (Zn+1 )1{Sn+1 <t∧t ∗ (Zn )}
t∈R+
−αt∧t ∗ (Zn )
i
+e ∗
Mw (φ(Zn , t ∧ t (Zn ))1{Sn+1 ≥t∧t ∗ (Zn )} Zn
h i
∗
∧E F (Zn , t (Zn )) + e −αSn+1
w (Zn+1 )Zn .
avec
Z t∧t ∗ (x)
F (x, t) = e −αs−Λ(x,s) f φ(x, s) ds
0
Mw (x) = inf c(x, y ) + w (y )
y ∈U
Prochaine étape
Solution
Théorème
Convergence du schéma numérique vers V(x) avec vitesse
Stratégie optimale?
aucun résultat de stratégie optimale
=⇒ Sujet de post doc financé par l’ANR