Processos Decisao Markovianos Transparencia

Processos de Deciso
Markovianos
Fernando Nogueira Processos de Deciso Markovianos 1

Processo de Deciso Markoviano (PDM) Processo Estocstico no qual o estado do
processo no futuro depende apenas do estado do processo e da deciso escolhida no
presente. Em estado e tempo discretos fica:
{ }
P X(t +1) = x t +1 X(t) = x t , d x t (R ) = k t , X(t 1) = x t 1, d x t1 (R ) = k t 1,...,X(0) = x 0 , d0 (R ) = k 0 =
P{X(t +1) = x t +1 X(t) = x t , d x t (R ) = k t }
PDM descrito por 4 tipos de informaes:
1. Espao de Estados E = {0,1,..., M}
2. Conjunto de Decises para cada estado i, existe um conjunto de decises
possveis d i (R ) = {1.2,...K} , sendo tomada apenas uma delas segundo uma poltica R.
Assim { t , t = 0,1,...} a seqncia de decises tomadas. R {d 0 (R ), d1 (R ),..., d M (R )}.
3. Probabilidades de Transio pij (k ) = P{X(t + 1) = j X(t) = i, di (R ) = k}
4. Custos Esperados Cik o custo esperado de se tomar a deciso k com o processo
no estado i.
PDM seqncia de estados X(0), X(1),.... e decises tomadas 0, 1,....
Objetivo Principal Determinar a poltica R que minimize os custos a longo perodo
(horizonte infinito). Obs: Problemas de Programao Dinmica No Determinsticos
com Horizonte Infinito = PDM.
Exemplo Prottipo
Uma mquina engarrafadora de gua em perfeitas condies pode no dia seguinte
apresentar algum defeito com probabilidade 0.09 ou passar a uma situao de avaria
total com probabilidade 0,01. Trabalhando com defeito, a mquina pode manter-se
neste estado no dia seguinte com probabilidade 0,55 ou passar ao estado de avaria total
com probabilidade 0,45.
Espao de Estados E = {0,1,2} {perfeito, defeito, a var ia _ total}
Estado 0 1 2
Matriz de Transio 0 0.9 0.09 0.01
P= 1 0 0.55 0.45

2 0 0 1
Considerando as seguintes aes Algumas polticas possveis com as

decises dadas so:
possveis para tomada de deciso:
Poltica d0(R) d1(R) d2(R)
Deciso Ao R1 1 1 3
1 No fazer nada R2 1 3 3
2 Reparar a mquina
R3 1 2 3
3 Substituir a mquina
R4 1 2 2

A substituio faz com que o processo retorne ao estado 0, mas a reparao se for feita
no estado 1, em 80 % dos casos a mquina fica em perfeitas condies e no restante fica
na mesma situao com defeito. Se a reparao for feita no estado 2, em 30 % dos casos
a mquina fica em perfeitas condies e no restante fica na mesma situao com
defeito. As matrizes de transio para cada poltica so:
Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.9 0.09 0.01
P(R1 ) = 1 0 0.55 0.45 1
P(R 2 ) = 1 0 0
2 1 0 0 2 1 0 0
Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.9 0.09 0.01
P(R 3 ) = 1 0.8 0.2 0 . 8 0 .2
0 P (R 4 ) = 1 0
2 1 0 0 2 0.3 0.7 0
Considerando que a reparao da mquina custa $30,00 e perda de um dia de produo,

a substituio custa $60,00 e perda de um dia de produo, funcionando com defeito
custa $10,00 e o custo de um dia de produo perdida $20,00 os custos para cada
estado so:

Cik
Estado Deciso
1 2 3
0 0 50 80
1 10 50 80
2 inf 50 80
Pode-se agora calcular o custo de cada poltica atravs de:

M
E(C ) = Cik i Poltica (0, 1,2) E(C)
i =0
R1 (0.7692,0.1539,0.0769) 7.6923
R2 (0.9091,0.0818,0.0091) 7.2727
R3 (0.8909,0.1002,0.0089) 5.7238 Mnimo

R4 (0.8840,0.1072,0.0088) 5.8011

Determinao de Polticas timas via Programao Linear uma maneira
possvel de determinar poltica tima sem enumerao exaustiva (fora-bruta).
Representao matricial de uma poltica:
Deciso 0
Estado
1 ... K
D ik = P(deciso = k estado = i ), k = 1,2,..., K; i = 0,1,..., M
0 D 01 D 02 ... D 0 K K
1 D D12 ... D1K com 0 D ik 1 e para cada i D ik = 1

R= 11 k =1
M M M M M Dik= 0 ou 1 poltica determinstica, caso contrrio
poltica aleatria
M D M1 DM2 ... D MK
Exemplo: Deciso 1 2 3 Deciso 1 2 3

Estado Estado
0 1 0 0 0 1 0 0
R= 1 0 1 0 0 1
R determinstica R= 1 0 R aleatria
2 0 0 1 2 0 0.4 0.6
Probabilidades Conjuntas Estacionrias yik = P(estado = i e deciso = k)
conjunta = priori (estacionria)*condicional y ik = i .D ik
y ik y ik
K D = =
i ik
ik
= y K
priori i = somatria conjuntas variando k
k =1
i
yik k =1
As restries a que esto sujeitas as probabilidades conjuntas yik podem ser escritas em
funo das restries a que esto sujeitas as probabilidades de estados estveis i, como:
M M K
i = 1 y ik = 1
O custo mdio esperado por unidade de
i =0 i = 0 k =1 tempo fica:
M K M K M K M K
i =0 k =1 i = 0 k =1
( )
j = i .p ij y jk = y ik .p ij (k ) E C = i Cik D ik = Cik .y ik
i = 0 k =1 i = 0 k =1
y ik 0, i = 0,1,..., M e k = 1,2,..., K
A determinao da Poltica tima torna-se um problema de Programao Linear:

M K
Min C ik .y ik A poltica encontrada ser
i = 0 k =1 determinstica: para cada i, yik > 0
M K para pelo menos um k (ao menos
y ik = 1 uma deciso tem que ser tomada para
i =0 k =1 cada i), o que implica que para cada
K M K
i, yik > 0 para um nico k (existem
y jk y ik .p ij (k ) = 0, para j = 0,1,..., M M+2 restries e, portanto, M+2
k =1 i = 0 k =1
variveis bsicas, sendo que uma
y ik 0, i = 0,1,..., M e k = 1,2,..., K restrio redundante, o que faz com
que existam M+1 variveis com

valores # 0), ou seja, Dik = 0 ou 1.
Exemplo: Considerando que quando se toma a deciso 2 no estado 0, a probabilidade
do sistema se manter nesse estado aumenta em 0.05 e de passar para o estado 1 diminui
em 0.05. As demais probabilidades de transio continuam as mesmas j citadas:
Estado 0 1 2 Estado 0 1 2 Estado 0 1 2
0 0.9 0.09 0.01 0 0.95 0.04 0.01 0 1 0 0
0 0.55 0.45 P(k = 2) = 1 0.8 0.2 0.0 1 0 0
P(k = 1) = 1 P(k = 3) = 1
2 0 0 1 2 0.3 0.7 0.0 2 1 0 0
Cdigo MPL custo infinito
Min 0Y01 + 50Y02 + 80Y03 + 10Y11 + 50Y12 + 80Y13 + 100000Y21 + 50Y22 + 80Y23
Subject to
Y01 + Y02 + Y03 + Y11 + Y12 + Y13 + Y21 + Y22 + Y23=1;
Y01 + Y02 + Y03 -(0.9Y01 + 0.95Y02 + 1Y03 + 0Y11 + 0.8Y12 + 1Y13 + 0Y21 + 0.3Y22 + 1Y23)=0;
Y11 + Y12 + Y13 -(0.09Y01 + 0.04Y02 + 0Y03 + 0.55Y11 + 0.2Y12 + 0Y13 + 0Y21 + 0.7Y22 + 0Y23)=0;
Y21 + Y22 + Y23 -(0.01Y01 + 0.01Y02 + 0Y03 + 0.45Y11 + 0Y12 + 0Y13 + 1Y21 + 0Y22 + 0Y23)=0;
Soluo tima Variable

Y01
Activity
0.8909
Reduced Cost
0.0000 custo Poltica tima
MIN Z = 5.7238
Y02
Y03
0.0000
0.0000
47.2327
74.2762
reduzido D01 = D12 = D23 = 1,
Constraint Slack Shadow Price Y11 0.0000 12.7951 infinito demais nulas.
c1 0.0000 5.7238 Y12 0.1002 0.0000
c2 0.0000 -55.4352 1 restrio Y13
Y21
0.0000
0.0000
18.9310
99994.2762
c3 0.0000 0.0000
c4 0.0000 18.9310 redundante Y22 0.0000 8.7416
Y23 0.0089 0.0000

Processos Decisao Markovianos Transparencia

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Processos Decisao Markovianos Transparencia

Transféré par

Droits d'auteur :

Formats disponibles

Processos de Deciso

Fernando Nogueira Processos de Deciso Markovianos 1

Considerando as seguintes aes Algumas polticas possveis com as

Fernando Nogueira Processos de Deciso Markovianos 3

Considerando que a reparao da mquina custa $30,00 e perda de um dia de produo,

Fernando Nogueira Processos de Deciso Markovianos 4

Pode-se agora calcular o custo de cada poltica atravs de:

R3 (0.8909,0.1002,0.0089) 5.7238 Mnimo

Fernando Nogueira Processos de Deciso Markovianos 5

1 D D12 ... D1K com 0 D ik 1 e para cada i D ik = 1

Exemplo: Deciso 1 2 3 Deciso 1 2 3

A determinao da Poltica tima torna-se um problema de Programao Linear:

que existam M+1 variveis com

Soluo tima Variable

Fernando Nogueira Processos de Deciso Markovianos 8

Vous aimerez peut-être aussi