Vous êtes sur la page 1sur 8

Processos de Deciso

Markovianos

Fernando Nogueira Processos de Deciso Markovianos 1


Processo de Deciso Markoviano (PDM) Processo Estocstico no qual o estado do
processo no futuro depende apenas do estado do processo e da deciso escolhida no
presente. Em estado e tempo discretos fica:
{ }
P X(t +1) = x t +1 X(t) = x t , d x t (R ) = k t , X(t 1) = x t 1, d x t1 (R ) = k t 1,...,X(0) = x 0 , d0 (R ) = k 0 =
P{X(t +1) = x t +1 X(t) = x t , d x t (R ) = k t }
PDM descrito por 4 tipos de informaes:
1. Espao de Estados E = {0,1,..., M}
2. Conjunto de Decises para cada estado i, existe um conjunto de decises
possveis d i (R ) = {1.2,...K} , sendo tomada apenas uma delas segundo uma poltica R.
Assim { t , t = 0,1,...} a seqncia de decises tomadas. R {d 0 (R ), d1 (R ),..., d M (R )}.
3. Probabilidades de Transio pij (k ) = P{X(t + 1) = j X(t) = i, di (R ) = k}
4. Custos Esperados Cik o custo esperado de se tomar a deciso k com o processo
no estado i.
PDM seqncia de estados X(0), X(1),.... e decises tomadas 0, 1,....
Objetivo Principal Determinar a poltica R que minimize os custos a longo perodo
(horizonte infinito). Obs: Problemas de Programao Dinmica No Determinsticos
com Horizonte Infinito = PDM.
Fernando Nogueira Processos de Deciso Markovianos 2
Exemplo Prottipo
Uma mquina engarrafadora de gua em perfeitas condies pode no dia seguinte
apresentar algum defeito com probabilidade 0.09 ou passar a uma situao de avaria
total com probabilidade 0,01. Trabalhando com defeito, a mquina pode manter-se
neste estado no dia seguinte com probabilidade 0,55 ou passar ao estado de avaria total
com probabilidade 0,45.
Espao de Estados E = {0,1,2} {perfeito, defeito, a var ia _ total}
Estado 0 1 2
Matriz de Transio 0 0.9 0.09 0.01
P= 1 0 0.55 0.45

2 0 0 1

Considerando as seguintes aes Algumas polticas possveis com as


decises dadas so:
possveis para tomada de deciso:
Poltica d0(R) d1(R) d2(R)
Deciso Ao R1 1 1 3

1 No fazer nada R2 1 3 3
2 Reparar a mquina
R3 1 2 3
3 Substituir a mquina
R4 1 2 2

Fernando Nogueira Processos de Deciso Markovianos 3


A substituio faz com que o processo retorne ao estado 0, mas a reparao se for feita
no estado 1, em 80 % dos casos a mquina fica em perfeitas condies e no restante fica
na mesma situao com defeito. Se a reparao for feita no estado 2, em 30 % dos casos
a mquina fica em perfeitas condies e no restante fica na mesma situao com
defeito. As matrizes de transio para cada poltica so:
Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.9 0.09 0.01
P(R1 ) = 1 0 0.55 0.45 1
P(R 2 ) = 1 0 0
2 1 0 0 2 1 0 0
Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.9 0.09 0.01
P(R 3 ) = 1 0.8 0.2 0 . 8 0 .2
0 P (R 4 ) = 1 0
2 1 0 0 2 0.3 0.7 0

Considerando que a reparao da mquina custa $30,00 e perda de um dia de produo,


a substituio custa $60,00 e perda de um dia de produo, funcionando com defeito
custa $10,00 e o custo de um dia de produo perdida $20,00 os custos para cada
estado so:

Fernando Nogueira Processos de Deciso Markovianos 4


Cik
Estado Deciso
1 2 3
0 0 50 80
1 10 50 80
2 inf 50 80

Pode-se agora calcular o custo de cada poltica atravs de:


M
E(C ) = Cik i Poltica (0, 1,2) E(C)
i =0
R1 (0.7692,0.1539,0.0769) 7.6923

R2 (0.9091,0.0818,0.0091) 7.2727

R3 (0.8909,0.1002,0.0089) 5.7238 Mnimo


R4 (0.8840,0.1072,0.0088) 5.8011

Fernando Nogueira Processos de Deciso Markovianos 5


Determinao de Polticas timas via Programao Linear uma maneira
possvel de determinar poltica tima sem enumerao exaustiva (fora-bruta).
Representao matricial de uma poltica:
Deciso 0
Estado
1 ... K
D ik = P(deciso = k estado = i ), k = 1,2,..., K; i = 0,1,..., M
0 D 01 D 02 ... D 0 K K

1 D D12 ... D1K com 0 D ik 1 e para cada i D ik = 1


R= 11 k =1
M M M M M Dik= 0 ou 1 poltica determinstica, caso contrrio
poltica aleatria
M D M1 DM2 ... D MK

Exemplo: Deciso 1 2 3 Deciso 1 2 3


Estado Estado
0 1 0 0 0 1 0 0
R= 1 0 1 0 0 1
R determinstica R= 1 0 R aleatria
2 0 0 1 2 0 0.4 0.6
Probabilidades Conjuntas Estacionrias yik = P(estado = i e deciso = k)
conjunta = priori (estacionria)*condicional y ik = i .D ik
y ik y ik
K D = =
i ik
ik
= y K
priori i = somatria conjuntas variando k
k =1
i
yik k =1
Fernando Nogueira Processos de Deciso Markovianos 6
As restries a que esto sujeitas as probabilidades conjuntas yik podem ser escritas em
funo das restries a que esto sujeitas as probabilidades de estados estveis i, como:
M M K

i = 1 y ik = 1
O custo mdio esperado por unidade de
i =0 i = 0 k =1 tempo fica:
M K M K M K M K

i =0 k =1 i = 0 k =1
( )
j = i .p ij y jk = y ik .p ij (k ) E C = i Cik D ik = Cik .y ik
i = 0 k =1 i = 0 k =1
y ik 0, i = 0,1,..., M e k = 1,2,..., K

A determinao da Poltica tima torna-se um problema de Programao Linear:


M K
Min C ik .y ik A poltica encontrada ser
i = 0 k =1 determinstica: para cada i, yik > 0
M K para pelo menos um k (ao menos
y ik = 1 uma deciso tem que ser tomada para
i =0 k =1 cada i), o que implica que para cada
K M K
i, yik > 0 para um nico k (existem
y jk y ik .p ij (k ) = 0, para j = 0,1,..., M M+2 restries e, portanto, M+2
k =1 i = 0 k =1
variveis bsicas, sendo que uma
y ik 0, i = 0,1,..., M e k = 1,2,..., K restrio redundante, o que faz com

que existam M+1 variveis com


valores # 0), ou seja, Dik = 0 ou 1.
Fernando Nogueira Processos de Deciso Markovianos 7
Exemplo: Considerando que quando se toma a deciso 2 no estado 0, a probabilidade
do sistema se manter nesse estado aumenta em 0.05 e de passar para o estado 1 diminui
em 0.05. As demais probabilidades de transio continuam as mesmas j citadas:
Estado 0 1 2 Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.95 0.04 0.01 0 1 0 0
0 0.55 0.45 P(k = 2) = 1 0.8 0.2 0.0 1 0 0
P(k = 1) = 1 P(k = 3) = 1
2 0 0 1 2 0.3 0.7 0.0 2 1 0 0
Cdigo MPL custo infinito
Min 0Y01 + 50Y02 + 80Y03 + 10Y11 + 50Y12 + 80Y13 + 100000Y21 + 50Y22 + 80Y23
Subject to
Y01 + Y02 + Y03 + Y11 + Y12 + Y13 + Y21 + Y22 + Y23=1;
Y01 + Y02 + Y03 -(0.9Y01 + 0.95Y02 + 1Y03 + 0Y11 + 0.8Y12 + 1Y13 + 0Y21 + 0.3Y22 + 1Y23)=0;
Y11 + Y12 + Y13 -(0.09Y01 + 0.04Y02 + 0Y03 + 0.55Y11 + 0.2Y12 + 0Y13 + 0Y21 + 0.7Y22 + 0Y23)=0;
Y21 + Y22 + Y23 -(0.01Y01 + 0.01Y02 + 0Y03 + 0.45Y11 + 0Y12 + 0Y13 + 1Y21 + 0Y22 + 0Y23)=0;

Soluo tima Variable


Y01
Activity
0.8909
Reduced Cost
0.0000 custo Poltica tima
MIN Z = 5.7238
Y02
Y03
0.0000
0.0000
47.2327
74.2762
reduzido D01 = D12 = D23 = 1,
Constraint Slack Shadow Price Y11 0.0000 12.7951 infinito demais nulas.
c1 0.0000 5.7238 Y12 0.1002 0.0000
c2 0.0000 -55.4352 1 restrio Y13
Y21
0.0000
0.0000
18.9310
99994.2762
c3 0.0000 0.0000
c4 0.0000 18.9310 redundante Y22 0.0000 8.7416
Y23 0.0089 0.0000

Fernando Nogueira Processos de Deciso Markovianos 8

Vous aimerez peut-être aussi