Decision Markoviana

Procesos Markovianos de Decisin.
Apuntes para la clase

Para el concurso de Oposicin Abierto para ocupar la plaza No. 24396-95 de Profesor de Carrera
Asociado nivel C de Tiempo Completo Interino, publicado en la Gaceta UNAM el da 2 de mayo
de 2011.
Asignaturas: Simulacin Estocstica, Procesos Estocsticos, Estadstica I y Estadstica II de la
Licenciatura en Matemticas Aplicadas y Computacin
Act. Mahil Herrera Maldonado.

mahilh@hotmail.com
mahil@apolo.acatlan.unam.mx
https://sites.google.com/site/mahilhm/
Octubre 2012
Resumen.
Con el apoyo en diversos libros en la materia que se enumeran al final de este trabajo
as como de referencias de pginas de internet, se desarrolla el tema de la Unidad 4.
Procesos Markovianos de Decisin de la asignatura Procesos Estocsticos que
forma parte del plan de estudios vigente de la Licenciatura en Matemticas Aplicadas y
Computacin de la Facultad de Estudios Superiores Acatln de la UNAM. El presente
documento supone que el lector est familiarizado con tpicos bsicos de programacin
lineal, as como conocimientos de las cadenas de Markov y sus propiedades
fundamentales temas que son abordados en los primeros unidades del temario de la
materia Procesos Estocsticos.
Contenido
pg.
Contenido
Introduccin
II
1
1 Ejemplo para aplicar los procesos markovianos de decisin
2 Enumeracin exhaustiva de polticas
3 Solucin por programacin lineal
4 Mtodo de mejoramiento de polticas
13
5 Mtodo de mejoramiento de polticas con descuento
20
6 Mtodo de aproximaciones sucesivas
26
7 Conclusiones.
29
Fuentes de consulta
29
Mahil Herrera M
Procesos Markovianos de Decisin
1
________________________________________________________________________________
INTRODUCCIN
El presente trabajo se desarrollara como apuntes de clase para el tema de procesos

markovianos de decisin (procesos de decisin markoviano), el cual trata del diseo de la
operacin de una cadena de Markov para optimizar su desempeo, para cada estado posible
se tomara una decisin, teniendo en cuenta que cada decisin afectar las probabilidades de
transicin as como los costos subsecuentes.
El objetivo principal de los procesos markovianos de decisin es determinar la poltica ptima

que maximice el ingreso, para lo cual se utilizaran diversos mtodos, tales como, programacin
lineal, enumeracin exhaustiva, mtodo de aproximaciones sucesivas,
algoritmo de
mejoramiento de polticas y criterio del costo descontado.
Este material inicia con un ejemplo que nos servir para aplicar cada uno de los mtodos que
se vern y de esta manera explicar cada uno de ellos, esto para facilitar su comprensin.
Despus se irn explicando la aplicacin de algunos mtodos para la resolucin del problema,
para despus finalizar con aplicaciones del tema.
1. Ejemplo para aplicar los procesos markovianos de decisin
A continuacin tenemos un ejemplo para ver como se lleva a cabo el desarrollo de un proceso
de Markov.
Un fabricante tiene mquina clave en el ncleo de uno de sus procesos. Debido a que tiene un
uso pesado, la mquina se deteriora con rapidez tanto en calidad como en la cantidad de
produccin que obtienen. Por lo tanto, al final de cada mes, se realiza una inspeccin
exhaustiva cuyo resultado es la clasificacin de las condiciones de la mquina en uno de cuatro
estados posibles:
Tabla 1.1 Clasificacin de los estados
Estado
Condicin
0
1
2
3
Tan buena como nueva

Operable deterioro menor
Operable deterioro mayor
Inoperable produccin de calidad inaceptable
Despus de recolectar datos histricos sobre los resultados de estas inspecciones, se hace un
anlisis estadstico de la evolucin del estado de la mquina de un mes a otro. La siguiente
matriz muestra la frecuencia relativa (probabilidad) de cada transicin posible del estado en el
que se encuentra en un mes (un rengln de la matriz) al estado en el que se encuentra al
siguiente mes (una columna de la matriz).
Estado
0
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Adems del anlisis estadstico, se ha encontrado que estas probabilidades de transicin no se

afectan por considerar tambin en qu estados se encontraba en meses anteriores. Esta
propiedad de falta de memoria es la propiedad markoviana . As, para la variable aleatoria X t ,
que es el estado de la mquina al final del mes t, se ha concluido que el proceso estocstico
{X t 't = 0,1,2,...} es una cadena de Markov cuya matriz de transicin (de un paso) es justo la
matriz anterior.
Como lo indica el ltimo elemento de esta matriz de transicin, una vez que la mquina se
vuelve inoperable (entra al estado 3), permanece inoperable. En otras palabras, el estado 3 es
un estado absorbente. Dejar la mquina en este estado sera intolerable ya que esto detendra
Mahil Herrera M
3
________________________________________________________________________________
el proceso de produccin, por lo que la mquina debe reemplazarse. (La reparacin no es
factible en este estado). La nueva mquina comenzara entonces en el estado 0.
El proceso de reemplazo toma 1 mes de manera que la produccin se pierde durante este
periodo. El costo de la produccin perdida (ganancia perdida) es de $2.000 y el costo de
reemplazar la mquina es de $4.000, de manera que el costo total en el que se incurre siempre
que la mquina actual entra al estado 3 es de $6.000.
An antes de que la mquina llegue al estado 3, puede incurrirse en costos por producir
artculos defectuosos. Los costos esperados por mes por este concepto son:
Tabla 1.2 Costo esperado
por artculo defectuoso
Estado
0
1
2
Costo esperado
debido a artculos
defectuosos, $
0
1000
3000
Si incluimos el reemplazar la mquina, la evolucin del estado del sistema (la sucesin de
mquinas) todava es una cadena de Markov, pero ahora con la matriz de transicin siguiente:
Estado
0
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Para evaluar esta poltica de mantenimiento, deben considerarse tanto los costos inmediatos en
que se incurre en el mes que sigue (descritos antes). Como los costos subsecuentes que
resultan cuando el sistema evoluciona de este modo.
Una medida de desempeo usada ampliamente para cadenas de Markov es el costo promedio
esperado por unidad de tiempo (a la larga). Para calcular esta medida, primero se derivan las
probabilidades de estado estable 0 , 1 , 2 y 3 para esta cadena de Markov con la solucin
del siguiente sistema de ecuaciones:
= P y con la condicin
( j ) = 1
j E

0 = 3,
7
3
8
4
1
1
1
2 = 0 + 1 + 2 ,
16
8
2
1
1
1
3 = 0 + 1 + 2 ,
16
8
2
1 = 0 + 1 + 2 + 3
1 = 0 + 1,
La solucin simultnea es:
0 =
2
7
2
2
, 1 = , 2 =
3 =
13
13
13
13
El costo promedio esperado (a la larga) por mes para esta poltica de mantenimiento es
0 0 + 1000 1 + 3000 2 + 6000 3 =
25000
= 1923.07
13
Sin embargo, existen otras polticas de mantenimiento que deben considerarse y compararse
con est. Por ejemplo, quiz la mquina debiera reemplazarse antes de llegar al estado 3. Otra
alternativa es realizar una reparacin general a un costo de $2000. Esta opcin no es factible en
el estado 3 y no mejora la mquina si est en el estado 0 o el 1, y slo es de inters en el
estado 2. En este estado, una reparacin general regresara a la mquina al estado 1. Se
requiere un mes para ello, por lo que otra consecuencia sera un gasto de $2000 por las
ganancias perdidas al no producir.
Para facilitar la consulta, se resumen los costos relevantes de cada decisin para cada estado
en el que la decisin puede ser de inters.
Tabla 1.3 Datos de costos
Decisin
Estado
1. No hacer nada
0
1
Costo esperado
por
producir
artculos
defectuosos, $
0
1000
2
2
3000
0
0
2000
0
2000
3000
4000
1, 2, 3
4000
2000
6000
2. Reparacin general
Costo
de
mantenimiento,
$
Costo (ganancia
perdida)
por
produccin
perdida, $
0
0
0
0
Costo
total
por
mes, $
0
1000
3. Reemplazar
En resumen, las decisiones posibles despus de cada inspeccin son las siguientes:
Mahil Herrera M
5
________________________________________________________________________________
Tabla 1.4 Clasificacin de decisiones
Decisin
1
2
Accin
No hacer nada
Reparacin general (el sistema regresa al estado 1)
Estados relevantes
0,1,2
2
Reemplazo (el sistema regresa al estado 0)
1,2,3
Despus de cada inspeccin de la mquina, se elige entre tres decisiones posibles (no hacer
nada, reparacin general o reemplazo). El costo esperado inmediato que resulta se muestra en
la columna de la derecha de la tabla para cada combinacin relevante de estados y decisiones.
Con las cadenas de Markov se analiz una poltica especfica (d 0 , d1 , d 2 , d 3 ) = (1,1,1,3) , donde la
decisin 1 (no hacer nada) se toma en los estados 0, 1 y 2 y la decisin 3 (reemplazo) se toma
en el estado 3.
Estamos interesados en contestar la siguiente pregunta, Cul es la poltica de mantenimiento
ptima?, dicha pregunta se contestar por medio de los diversos mtodos que aqu se
proponen.
El modelo general califica como un proceso de decisin de Markov por que posee la propiedad
markoviana que caracteriza a estos procesos. En particular, dados el estado y la decisin
actuales, cualquier afirmacin probabilstica sobre el futuro del proceso es por completo
independiente de cualquier informacin proporcionada sobre la historia del proceso. Esta
propiedad se cumple aqu ya que:
1) Se trata de una cadena de Markov.
2) Las nuevas probabilidades de transicin dependen slo del estado y la decisin actuales.
3) El costo esperado inmediato tambin depende slo del estado y la decisin actuales.
La notacin que utilizaremos se puede resumir como sigue:
1. Se observa el estado i de una cadena de Markov de tiempo discreto despus de cada
transicin (i = 0,1,..., M )
2. Despus de cada observacin, se selecciona una decisin (accin) k de un conjunto de K
decisiones posibles ( k = 1, 2,..., K ) (Algunas de las k decisiones pueden no ser relevantes
para algunos estados.)

3. Si se elige la decisin d i = k en el estado i , se incurre en un costo inmediato que tiene un
valor de Cik .
4. La decisin d i = k en el estado i determina cules sern las probabilidades de transicin
para la siguiente transicin desde el estado i . Denote estas probabilidades de transicin por
pij ( k ) para j = 0,1,..., M
5. Una especificacin de las decisiones para los estados respectivos (d 0 , d1 ,..., d M ) prescribe
una poltica para el proceso de decisin markoviano.
6. El objetivo es encontrar una poltica ptima de acuerdo con algn criterio de costo que
considere tanto los costos inmediatos como los subsecuentes que resulten de la evolucin
futura del proceso. Un criterio comn es minimizar el costo promedio esperado por unidad de
tiempo (a la larga).
La descripcin de una poltica implica dos propiedades convenientes (pero innecesarias) que se
supondrn:
1) Una propiedad es que una poltica es estacionaria; es decir, siempre que el sistema se
encuentre en el estado i . La regla para tomar la decisin siempre es la misma sin
importar el valor del tiempo actual t .
2) La segunda es que una poltica es determinstica; esto es, siempre que el sistema se
encuentre en el estado i , la regla para tomar la decisin es una decisin especfica.
Con este marco de referencia general en mente ahora se regresa al ejemplo para encontrar una
poltica ptima con la enumeracin y comparacin de todas las polticas relevantes.
Al hacer esto, se denotar por:
R a la poltica especfica
d i (R ) a la decisin correspondiente que debe tomarse en el estado i .
2. Enumeracin exhaustiva de polticas
Las polticas relevantes para el ejemplo prototipo son las siguientes:

Descripcin verbal
d 0 (R )
d1 ( R )
d 2 (R )
d 3 (R )
Ra
Reemplazo en el estado 3
Rb
Rc
Reemplazo en el estado 3, reparacin 1

general en el estado 2
Reemplazo en los estados 2, 3
1
Rd
Reemplazo en el estado 1, 2, 3
Poltica
Cada poltica da una matriz de transicin diferente, como se muestra enseguida
Mahil Herrera M
7
________________________________________________________________________________
Estado
Ra
0
0
7
8
3
4
1
16
1
8
1
2
1
16
1
8
1
2
Rc
Estado
0
0
0
2
3
1
1
Rb
Estado
7
8
3
4
1
16
1
8
1
16
1
8
Rd
Estado
7
8
3
4
1
16
1
8
1
16
1
8
0
0
0
0
0
0
7
8
1
16
1
16
2
3
1
1
0
0
0
0
0
0
A partir de la ltima columna de la tabla de los datos de costos, los valores de Cik son los
siguientes
Decisin
Cik (en miles de dlares)
Estado
0
1
2
3
0
1
3
6
6
6
Se puede calcular el costo promedio esperado (a largo plazo) por unidad de tiempo, E (C ) , a
partir de la expresin
M
E (C ) = C ik i
i =0
Donde k = d i (R ) para cada i , y ( 0 , 1 ,... M ) representa la distribucin de estado estable para

los estados del sistema segn la poltica R que se evala. Despus de obtener ( 0 , 1 ,... M )
segn cada una de las cuatro polticas el clculo de E (C ) se resume en la siguiente tabla.
2. Enumeracin exhaustiva de polticas
Poltica
Ra
Rb
Rc
Rd
( 0 , 1 , 2 , 3 )
E (C ) en miles de dlares
2 7 2 2
, , ,
13 13 13 13
2 5 2 2
, , ,
21 7 21 21
1
25
= 1.923
2 ( 0 ) + 7 (1) + 2 ( 3 ) + 2 ( 6 ) =
13
13
2 7 1 1
, , ,
11 11 11 11
1 7 1 1
, , ,
2 16 32 32
1
19
2 ( 0 ) + 7 (1) + 1 ( 6 ) + 1 ( 6 ) = = 1.727
11
11
1
35
= 1.667
2 ( 0 ) + 15 (1) + 2 ( 4 ) + 2 ( 6 ) =
21
21
min
1
96
= 3.0
16 ( 0 ) + 14 ( 6 ) + 1 ( 6 ) + 1 ( 6 ) =
32
32
As, la poltica ptima es Rb , es decir, reemplazar la mquina cuando se encuentre en el estado

3 y hacer una reparacin general cuando se encuentre en el estado 2. El costo esperado (a la
larga) por mes es $1667.
En este pequeo ejemplo, es adecuado usar la enumeracin exhaustiva para encontrar la
poltica ptima, donde slo existen cuatro polticas relevantes. Sin embargo, muchas
aplicaciones tienen tantas polticas que este enfoque no es factible. Para tales casos, se
necesitan algoritmos que puedan encontrar una poltica ptima de manera eficiente.
3. Solucin por programacin lineal

Se vio que cualquier poltica R se puede interpretar como una regla que prescribe la decisin
d i (R ) siempre que el sistema se encuentre en el estado i , para cada i = 0,1,..., M . Entonces
R queda completamente definida por los valores.

{d 0 (R ), d1 (R ),..., d M (M )}
De manera equivalente, R se puede caracterizar por la asignacin de valores Dik = 0 o 1 en
la matriz
Decision k
1
0 D01
1 D11
Estado
......
M DM 1
2
D02
D12
......
DM 2
D0 k
D1k
,
....
DMk
Mahil Herrera M
9
________________________________________________________________________________
Donde cada Dik ( i = 0,1,..., M
1
Dik =
0
y k = 1, 2,...., K ) se define como
si la decision k debe tomarse en el estado i

de otra maera
Por lo tanto, cada rengln de la matriz debe contener un solo 1 y el resto de los elementos
deben ser 0. Por ejemplo, la poltica ptima Rb para el ejemplo prototipo se puede caracterizar
por la matriz.
Poltica ptima Rb
Decision k
1 2 3
0 1
1 1
Estado
2 0
3 0
0 0
0 0
,
1 0
0 1
Es decir, no hacer nada (decisin 1) cuando la mquina est en el estado 0 o 1, hacer una
reparacin general (decisin 2) en el estado 2 y reemplazar (decisin 3) en el estado 3.
La introduccin de Dik , proporciona una motivacin para formular un modelo de programacin
lineal. Se piensa que el costo esperado de una poltica se puede expresar como una funcin
lineal de la Dik o de alguna variable relacionada, sujeta a restricciones lineales.
Desafortunadamente., los valores de Dik . son enteros (0 o 1) y se requieren variables continuas
para la formulacin de programacin lineal. Este requisito se puede manejar si se ampla la
interpretacin de una poltica. La definicin previa dice que se tome la misma decisin cada vez
que el sistema se encuentre en el estado i . La nueva interpretacin de una poltica pedir la
determinacin de una distribucin de probabilidad para tomar la decisin cuando el sistema se
encuentre en el estado i .
Con esta nueva interpretacin, ahora necesitan redefinirse las Dik como
Dik = P{decision = k estado = i}
En otras palabras, dado que el sistema est en el estado i , la variable Dik es la probabilidad de
elegir la decisin k como la que debe tomarse. Entonces ( Di 1 , Di 2 ,...., DiK ) es la distribucin
de probabilidad para la decisin que deber tomarse en el estado i .
Este tipo de poltica que usa distribuciones de probabilidad se llama una poltica aleatorizada,
mientras que la poltica que dice que Dik = 0 o 1 recibe el nombre de poltica determinstica.
Las polticas aleatorizadas se pueden caracterizar de nuevo por la matriz
10
3.Solucin por programacin lineal

Decision k
0
1
Estado
D01
D
11
......
DM 1
D02
D12
......
DM 2
D0 k
D1k
,
....
DMk
En donde cada rengln suma 1, y ahora
0 Dik 1
A manera de ilustracin, considere una poltica aleatorizada para el ejemplo prototipo dado por
la matriz
Decision k
1 2 3
1
0 1
1
Estado 12
2
3 4
0
0
0
1
4
0
0
1
2 ,
1
2
1
Esta poltica expresa que siempre se tome la decisin 1 (no hacer nada) cuando la mquina
est en el estado 0. Si se encuentra en el estado 1, se deja como est con probabilidad
1
y se
2
1
, de manera que puede lanzarse una moneda para elegir. Si se
2
1
encuentra en el estado 2, existe una probabilidad de
de que se deje como est, una
4
1
1
probabilidad de
de que se le haga una reparacin general y una de
de que se reemplace.
4
2
reemplaza con probabilidad
Por ltimo, si se encuentra que la mquina est en el estado 3, siempre se le hace un

reemplazamiento.
Al permitir polticas aleatorizadas, de forma que las Dik sean variables continuas en lugar de
variables discretas, se vuelve posible formular un modelo de programacin lineal para encontrar
una poltica ptima.
Ahora procederemos a la formulacin de programacin lineal, las variables de decisin
convenientes (denotadas aqu por yik ) para un modelo de programacin lineal se definen como
sigue.
Mahil Herrera M
11
________________________________________________________________________________
Para cada i = 0,1,... M
k = 1, 2,..., K , sea yik , la probabilidad de estado estable de que el
sistema se encuentre en el estado i y se toma la decisin k , es decir,
y ik = P {estado = i y decision = k}
Cada yik tiene una relacin cercana con la Dik correspondiente ya que, de las reglas de
probabilidad condicional, se tiene
yik = i Dik ,
Donde i , es la probabilidad de estado estable de que la cadena de Markov se encuentre en el
estado i . Lo que es ms
K
i = yik ,
k =1
de manera que
Dik =
yik
yik
K
y
k =1
ik
Existen varias restricciones sobre las yik :

M
1)
i = 1 de manera que
i =0
ik
i = 0 k =1
=1
2) De los resultados de las probabilidades de estado estable:

M
j = i pij
i =0
De manera que
K
k =1
3)
y jk = y ik pij ( k ) , para j = 0,1,..., M

i = 0 k =1
yik 0, para i = 0,1, ..., M
y k = 1, 2, ..., K
El costo promedio esperado a largo plazo por unidad de tiempo es:

M
E (C ) = i Cik Dik = Cik yik ,

i = 0 k =1
i = 0 k =1
Entonces, el modelo de programacin lineal consiste en seleccionar las yik , para
12
3.Solucin por programacin lineal

M
Z = Cik yik ,
Minimizar
i = 0 k =1
Sujeta a las restricciones

M
(1)
y
i = 0 k =1
K
(2)
ik
=1
M
y jk yik pij (k ) = 0, para j = 0,1,..., M .

k =1
i = 0 k =1
(3) yik 0, para i = 0,1,..., M
y k = 1, 2,..., K
As este modelo tiene M + 2 restricciones funcionales y K (M + 1) variables de decisin. [En

realidad, (2) proporciona una restriccin redundante, por lo que cualquiera de estas (M + 1)
restricciones se puede eliminar]

Si se supone que el modelo no es demasiado grande, se puede resolver por el mtodo simplex.
Una vez obtenidas las yik , cada una de las Dik se encuentra a partir de
Dik =
yik
K
y
k =1
ik
La solucin ptima obtenida con el mtodo simplex tiene algunas propiedades interesantes.
Contendr M + 1 variables bsicas yik 0 . Se puede demostrar que yik > 0 al menos para
k = 1,2,..., K De donde se sigue que yik > 0 para slo una k por cada i = 0,1,..., M . . En
consecuencia, Dik = 0 o 1
La conclusin clave es que la poltica ptima encontrada con el mtodo smplex es
determinstica, y no aleatorizada. As, cuando se permite aleatorizar las polticas no se obtienen
ventajas en cuanto a mejorar la poltica final. Sin embargo, tiene un papel en extremo
importante en esta formulacin ya que convierte variables enteras (las Dik ) en variables
continuas para poder usar programacin lineal (PL).
Solucin del ejemplo de la seccin 1 por programacin lineal

Las primeras dos columnas de la tabla de costos proporcionan las combinaciones relevantes de
estados y decisiones. Entonces, las variables de decisin que deben incluirse en el modelo son
y 01 , y11 , y13 , y 21 , y 22 , y 23 , y 33 . (Las expresiones generales dadas para el modelo incluyen a las
yik de las combinaciones irrelevantes de estados y decisiones, de manera que estas yik = 0 en
una solucin ptima y es lo mismo si se eliminan desde el principio.)
Mahil Herrera M
13
________________________________________________________________________________
La columna de la derecha de la tabla 1.3 da los coeficientes de estas variables en la funcin
objetivo. Las probabilidades de transicin pij (k ) para cada combinacin relevante del estado i
y la decisin k tambin se describen en la seccin anterior.
El modelo de programacin lineal que resulta es
Minimizar Z = 1000 y11 + 6000 y13 + 3000 y21 + 4000 y22 + 6000 y23 + 6000 y33 ,
Sujeta a
y01 + y11 + y13 + y21 + y22 + y23 + y33 = 1
y01 ( y13 + y23 + y33 ) = 0
3
7
y11 + y13 y01 + y11 + y22 = 0

8
4
1
1
1
y21 + y22 + y23 y01 + y11 + y21 = 0
8
2
16
1
1
1
y33 y01 + y11 + y21 = 0
8
2
16
Todas las yik 0
Al aplicar el mtodo smplex se obtiene la solucin ptima:
2
,
21
( y11, y13 ) = 5 ,0
( y21, y22 , y23 ) = 0,
D01 = 1,
( D11 , D13 ) = (1, 0 )
( D21 , D22 , D23 ) = ( 0,1, 0 ) ,
y01 =
De manera que
2
,0 ,
21
y33 =
2
,
21
D33 = 1,
Esta poltica dice que debe dejarse la mquina como est (decisin 1) cuando se encuentre en
el estado 0 o 1, debe hacerse una reparacin general (decisin 2) cuando est en el estado 2 y
debe reemplazarse (decisin 3) si est en el estado 3. sta es la misma poltica ptima
encontrada mediante la enumeracin exhaustiva.
4. Mtodo de mejoramiento de polticas

Se han estudiado dos mtodos para derivar una poltica ptima para un proceso de decisin
markoviano: enumeracin exhaustiva y programacin lineal. La enumeracin exhaustiva es til
porque es rpida y directa para problemas muy pequeos. La programacin lineal se puede
usar para resolver problemas bastante ms grandes, y existe una gran variedad de paquetes de
software para el mtodo smplex.
14
4.Mtodo de mejoramiento de polticas
Ahora se presentar un tercer mtodo llamado mtodo o algoritmo de mejoramiento de

polticas. La ventaja ms importante de este mtodo es que tiende a ser muy eficiente, debido a
que casi siempre llega a una solucin ptima en un nmero relativamente pequeo de
iteraciones (muchas menos que en el mtodo smplex con una formulacin de programacin
lineal).
Con referencia a la descripcin y notacin para los procesos de decisin markovianos dados al
final de la seccin 1, se puede demostrar que, para cualquier poltica dada R existen valores
g (R ), v0 , vi (R ),..., vM (R ) que satisfacen
M
g ( R ) + v i ( R ) = C ik + pij ( k ) v j ( R ) , para i = 0,1,2,..., M .

j =0
Se dar ahora una justificacin heurstica de estas relaciones y una interpretacin para estos
valores.
Denote por vin (R ) costo total esperado de un sistema que inicia en el estado i (en el primer
periodo de observacin) y opera durante n periodos. Entonces, vin (R ) consiste en dos
componentes: Cik , el costo en el que se incurre durante el primer periodo de observacin y
M
p (R )v (R ) , el costo total esperado del sistema al operar los n 1 periodos restantes.

j =0
ij
n
j
Esto da la ecuacin recursiva

M
vin (R ) = cik + pij (k )v nj 1 (R ) para i = 0,1,2,..., M .

j =0
En donde vi1 (R ) = Cik para toda i .

Ser til explorar el comportamiento del costo total esperado vin (R ) conforme n crece.
Recuerde que el costo promedio esperado (a la larga) por unidad de tiempo al seguir cualquier
poltica R , se puede expresar como
M
g ( R ) = i C ik
i =0
que es independiente del estado inicial i. Entonces, vin (R ) se comporta aproximadamente como
n g ( R ) para n grande. De hecho, si se ignoran las pequeas fluctuaciones, vin (R ) se puede

expresar como la suma de dos componentes
vin (R ) ng (R ) + vi (R )
Mahil Herrera M
15
________________________________________________________________________________
donde la primera componente es independiente del estado inicial y la segunda depende de ese
estado. Entonces, vin (R ) se puede interpretar como el efecto sobre el costo total esperado
debido a que el proceso inicia en el estado i . En consecuencia,
vin (R ) v nj (R ) vi (R ) v j (R )
de manera que vin (R ) v j (R ) es una medida del efecto de comenzar en el estado i y no en el
estado j .
Cuando n crece suficiente, se puede sustituir
vin (R ) = ng (R ) + vi (R ) y v nj 1 (R ) = (n 1)g (R ) + v j (R )
en la ecuacin recursiva. Esto lleva al sistema de ecuaciones dado en el primer prrafo de esta
seccin.
Observe que este sistema tiene M + 1 ecuaciones con M + 2 incgnitas, por lo que se puede
seleccionar una de estas variables de manera arbitraria. Por convencin, se elegir v M (R ) igual
a cero. Por lo tanto, al resolver el sistema de ecuaciones lineales se puede obtener g (R ) el
costo promedio esperado a largo plazo, por unidad de tiempo si se sigue la poltica R . En
principio, se pueden enumerar todas las polticas y encontrar aquella que minimiza g (R ) . Sin
embargo, aun para un nmero moderado de estados y decisiones, esta tcnica es tediosa. Por
fortuna, existe un algoritmo que se puede usar para evaluar las polticas y encontrar la ptima
sin tener que hacer la enumeracin completa, que se describe a continuacin.
Algoritmo de mejoramiento de la poltica
El primer paso del algoritmo es elegir una poltica arbitraria R1 . Despus resuelve el sistema de
ecuaciones para encontrar los valores g ( R1 ) , v 0 ( R ) ,..., v M 1 ( R ) y con v M ( R ) = 0 . Este paso se
llama determinacin del valor.

Se construye una poltica mejor denotada por R2 . Paso llamado mejoramiento de la poltica.
Estos dos pasos constituyen una iteracin del algoritmo. Con la nueva poltica R2 se realiza
otra iteracin. Esto contina hasta que dos iteraciones sucesivas lleven a polticas idnticas,
con lo que se obtiene el ptimo. En seguida se describen los detalles.
Paso inicial: se elige una poltica inicial de prueba R1 . Se hace n = 1 .
Iteracin n :
16
Paso 1, determinacin del valor: para la poltica Rn , se usa pij (k ), Cik
y vM (Rn ) = 0 para
resolver el sistema de M + 1 ecuaciones
g (Rn ) = Cik + pij (k )v j (Rn ) vi (Rn , ) para i = 0,1,..., M ,

M
j =0
para todos los M + 1 valores desconocidos de g (Rn ), v0 (Rn ), v1 (Rn ),..., vM 1 (Rn )
Paso 2, mejoramiento de la poltica: con los valores actuales de vi (Rn ) calculados para la
poltica Rn , se encuentra la poltica alternativa Rn +1 tal que para cada estado i , di (Rn +1 ) = k es
la decisin que minimiza
M
Cik + pij (k )v j (Rn ) vi (Rn ),

j =0
es decir, para cada estado i , se quiere
Minimizar
k = 1, 2, ..., K
C ik + pij ( k ) v j ( Rn ) v i ( Rn )
j =0
y despus se establece d i (Rn +1 ) igual al valor de k que da el mnimo. Este procedimiento

define una nueva poltica Rn +1
Prueba de optimalidad: la poltica actual Rn +1 es ptima si es idntica a la poltica Rn . Si lo es,
el algoritmo se detiene. De otra manera, se establece n = n + 1 y se realiza otra iteracin.
Dos propiedades clave de este algoritmo son:
1. g (Rn +1 ) g (Rn ),
para n = 1,2,...
2. El algoritmo termina con una solucin ptima en un nmero finito de iteraciones.

Solucin del ejemplo de la seccin 1 por el algoritmo de mejoramiento de la poltica
Paso inicial. Para la poltica inicial de prueba se elige, de manera arbitraria, la poltica que dice
que se reemplace la mquina (decisin 3) cuando se encuentra en el estado 3, pero que no se
haga nada (decisin 1) en otros estados. La matriz de transicin y los costos de esta poltica se
resumen como sigue.
Mahil Herrera M
17
________________________________________________________________________________
Poltica
R1
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1000
1
16
1
8
1
2
1
16
1
8
1
2
7
8
3
4
3000
6000
Con esta poltica, el paso de determinacin del valor requiere resolver el siguiente sistema de
cuatro ecuaciones simultaneas para g (R1 ), v0 (R1 ), v1 (R1 ) y v2 (R1 ) y con v3 (R1 ) = 0 .
g (R1 ) =
7
1
+ v1 (R1 ) + v2 (R1 ) v0 (R1 )
8
16
3
1
g (R1 ) = 1000
+ v1 (R1 ) + v2 (R1 ) v1 (R1 )
4
8
1
g (R1 ) = 3000
+ v2 (R1 ) v2 (R1 )
2
g (R1 ) = 6000 + v0 (R1 )
La solucin simultnea de este sistema de ecuaciones es
g (R1 ) =
25000
= 1923
13
53000
v0 (R1 ) =
= 4077
13
34000
v1 (R1 ) =
= 2615
13
28000
v2 (R1 ) =
= 2154
13
Ahora se puede aplicar el paso 2 (mejorar la poltica). Es necesario encontrar una poltica
mejorada R2 , tal que la decisin k en el estado i minimiza la expresin correspondiente:
Estado 0 : c0 k p00 (k )(4077 ) p01 (k )(2615) + p02 (k )(2154) + 4077

Estado 1 : c1k p10 (k )(4077 ) p11 (k )(2615) + p12 (k )(2154) + 2615
Estado 2 : c2 k p20 (k )(4077 ) p21 (k )(2615) + p22 (k )(2154) 2154
Estado 3 : c3k p30 (k )(4077 ) p31 (k )(2615) + p32 (k )(2154).
En realidad, en el estado 0, la nica decisin permitida es la decisin 1 (no hacer nada), as que
no se necesitan clculos. De manera similar, se sabe que la decisin 3 (reemplazar) debe
18
tomarse en el estado3. Entonces, solo los estados 1 y 2 requieren el clculo de los valores de
estas expresiones para diferentes decisiones.
Para el estado 1, las decisiones posibles son 1 y 3. Para cada una se muestran los valores de
Cik , p1 j , (k ) y el valor resultante de la expresin
Estado 1
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
1000
3
4
1
8
1
8
6000
Valor de
expresin
1923
la
mnimo
4538
Como la decisin 1 minimiza la expresin, se elige como la decisin que debe tomarse en el
estado 1 para la poltica R2 (igual que para la poltica R1 ).
Los resultados correspondientes para el estado 2 se muestran enseguida
Estado 2
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
3000
1
2
1
2
2
3
4000
6000
0
1
1
0
0
0
0
0
Valor de
expresin
1923
la
mnimo
-769
-231
Por lo tanto se elige la decisin 2 como la que se debe tomar en el estado 2 para la poltica R2 .
Observe que esto es diferente de la poltica R1 .
Se resumen ahora los resultados de la nueva poltica, su matriz de transicin y sus costos.
Poltica
R2
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1
16
1
8
1
16
1
8
7
8
3
4
1000
2
3
2
3
2
3
0
1
1
0
0
0
0
0
2
3
4000
6000
Como esta poltica difiere de la poltica R1 , la prueba de optimalidad dice que se realice otra
iteracin
Mahil Herrera M
19
________________________________________________________________________________
Paso 1 (determinacin del valor), las ecuaciones a resolver para esta poltica son las siguientes
g (R2 ) =
g (R2 ) = 1000
g (R2 ) = 4000
7
1
+ v1 (R2 ) + v2 (R2 ) v0 (R2 )
8
16
3
1
+ v1 (R2 ) + v2 (R2 ) v1 (R2 )
4
8
+ v1 (R2 )
v2 (R2 )
g (R2 ) = 6000 + v0 (R2 )
La solucin simultnea de este sistema de ecuaciones es
g (R2 ) =
5000
= 1667
3
13000
v0 (R2 ) =
= 4333
3
v1 (R2 ) = 3000
v2 (R2 ) =
2000
= 667
3
Ahora se puede aplicar el paso 2 (mejorar la poltica). Para los dos estados con ms de una
decisin posible, las expresiones que se quieren minimizar son:
Estado 1 : c1k p10 (k )(4333) p11 (k )(3000) + p12 (k )(667 ) + 3000
Estado 2 : c2 k p20 (k )(4333) p21 (k )(3000) + p22 (k )(667 ) + 667

La primera iteracin proporciona la mayor parte de los datos necesarios (probabilidades de
transicin y C ik ) para determinar la nueva poltica, excepto por los valores de cada una de estas
expresiones para cada decisin posible. Estos valores son:
Decisin
1
2
3
Valor para el
estado 1
1667
--4667
Valor para el
estado 2
3333
1667
2334
Como la decisin 1 minimiza la expresin para el estado 1 y la decisin 2 minimiza la expresin

para el estado 2, la siguiente poltica de prueba R3 es
Estado
0
1
2
3
Decisin
1
1
2
3
Observe que la poltica R3 es idntica a la poltica R2 . Entonces la prueba de optimalidad indica

que esta poltica es ptima y el algoritmo termina.
20
5.Mtodo de mejoramiento de polticas con descuento
5. Mtodo de mejoramiento de polticas con descuento

Hasta el momento se han medido las polticas segn su costo promedio esperado (a largo
plazo) por unidad de tiempo. Ahora se estudiar una medida alternativa de desempeo, el costo
descontado total esperado.
Esta medida usa un factor de descuento , donde 0 < a < 1 . Este factor de descuento se puede
1
, donde i es la tasa de inters actual por periodo. As, a es el
1+ i
valor presente de una unidad de costo un periodo en el futuro. En forma similar, a m es el valor
interpretar como igual a
presente de una unidad de costo dentro de m periodos.

Este criterio de costo descontado es preferible al criterio de costo promedio cuando los periodos
para la cadena de Markov son suficientemente largos como para que el valor del dinero en el
tiempo se deba tomar en cuenta cuando los costos en periodos futuros se suman al costo en el
periodo actual. Otra ventaja es que el criterio de costo descontado se puede adaptar con
facilidad al manejar procesos de decisin markovianos de periodo finito donde la cadena de
Markov deja de operar despus de cierto nmero de periodos.
Tanto la tcnica de mejoramiento de la poltica como el enfoque de programacin lineal se
pueden aplicar aqu con algunos ajustes relativamente menores al caso del costo promedio.
Para derivar las expresiones necesarias para los pasos de determinacin del valor y
mejoramiento de una poltica se adopta el punto de vista de programacin dinmica
probabilstica En particular, para cada estado i (i 0,1,..., M ) de un proceso de decisin
markoviano que opera bajo la poltica R , sea:
Vi n ( R ) el costo descontado total esperado cuando el proceso inicia en el estado i y opera

durante n periodos.
Entonces, Vi n ( R ) tiene dos componentes: Cik el costo en el que se incurre durante el primer
M
periodo de observacin, y a
p (k )V (R ) , el costo total descontado esperado del proceso al

j =0
ij
n 1
j
operar los n 1 periodos restantes. Para cada
i = 0.1,...M , esto conduce a la ecuacin
recursiva
M
Vi n (R ) = Cik + a pij (k )V jn1 (R )

j =0
Mahil Herrera M
21
________________________________________________________________________________
donde Vi1 (R ) = Cik , que se parece mucho a las relaciones recursivas de programacin dinmica
probabilstica.
Conforme n se aproxima a infinito, esta relacin recursiva converge a
M
Vi ( R ) = C ik + a pij ( k )V j ( R )
para i = 0.1,...M
j =0
en donde Vi (R ) se puede interpretar ahora como el costo descontado total esperado cuando el
proceso comienza en el estado i y contina operando indefinidamente. Se tienen M+1
ecuaciones y M+1 incgnitas, de manera que la solucin simultnea de este sistema de
ecuaciones proporciona el valor de Vi (R )
Para ilustrar, consideremos de nuevo el ejemplo de la seccin 1. Segn el criterio del costo
promedio, en las secciones 2, 3 y 4 se encontr que la poltica ptima es no hacer nada si el
proceso se encuentra en los estados 0 y 1, hacer una reparacin general en el estado 2 y
reemplazar en el estado 3.
Segn el criterio del mejoramiento de una poltica con descuento (costo descontado), con
a = 0.9 , esta poltica da el siguiente sistema de ecuaciones:
1
1
7
V0 ( R ) = 0.9 V1 ( R ) + V2 ( R ) + V3 ( R )
16
16
8
1
1
3
V1 ( R ) = 1000 + 0.9 V1 ( R ) + V2 ( R ) + V3 ( R )
8
8
4
V2 ( R ) = 4000 + 0.9 V1 ( R )
V3 ( R ) = 6000 + 0.9 V0 ( R )
La solucin simultnea es:
V0 ( R ) = 14949
V1 ( R ) = 16262
V2 ( R ) = 18636
V3 ( R ) = 19454
Entonces si se supone que el sistema comienza en el estado 0, el costo descontado total
esperado es $14949
Este sistema de ecuaciones proporciona las expresiones necesarias para el algoritmo de
mejoramiento de una poltica. Despus de resumir este algoritmo en trminos generales se
usara para verificar si esta poltica, en particular, todava es ptima bajo el criterio del costo
descontado.
22
Resumen del algoritmo de mejoramiento de una poltica con descuento (Criterio del
costo descontado).
Paso inicial se elige una poltica de prueba inicial arbitraria R1 . Se establece n = 1
Iteracin n:
Paso 1, determinacin del valor: para poltica Rn se utilizan pij (k ) y Cik para resolver el
sistema de M + 1 ecuaciones
M
Vi (Rn ) = Cik + a pij (k )V j (Rn ) para i = 0.1,...M

j =0
Para todos los M + 1 valores desconocidos de V0 (Rn ),V1 (R ),...VM (Rn )

Paso 2, mejoramiento de la poltica: con los valores de Vi (Rn ) , se encuentra la poltica
alternativa Rn+1 tal que, para cada estado i, d i (Rn+1 ) = k es la decisin que minimiza
M
Cik + a pij (k )V j (Rn )

j =0
Esto es, para cada estado i se quiere

M
Minimizar C ik + a pij ( k )V j ( Rn )
k =1,2,..., K
j =0
Y despus se establece d i (Rn+1 ) igual al valor de k que minimiza. Este procedimiento define
una nueva poltica ptima Rn+1
Prueba de optimizacin: la poltica actual Rn +1 es ptima si es idntica a la poltica Rn . Si lo
es, el algoritmo se detiene. De otra manera se establece n = n + 1 y se realiza otra iteracin.
Las tres propiedades clave de este algoritmo son las siguientes
1) . Vi (Rn+1 ) Vi (Rn ), para i = 0,1,..., M y n = 1,2,...
2) .El algoritmo termina con una poltica ptima en un nmero finito de interacciones
3) . El algoritmo es valido son la suposicin (usada en el caso del costo esperado) de que
la cadena de Markov asociada con toda matriz de transicin es irreducible
Regresando a nuestro ejemplo en donde se qued antes de resumir este algoritmo
Ya se seleccion la poltica ptima segn el criterio del costo promedio con la poltica inicial de
prueba R1 . Esta poltica, su matriz de transicin y sus costos se resumen a continuacin:
Mahil Herrera M
23
________________________________________________________________________________
Poltica
R1
Matriz de Transicin
Costos
Estado
Decisin
Estado
Estado
Cik
1
16
1
8
1
16
1
8
7
8
3
4
1000
2
3
2
3
2
3
0
1
1
0
0
0
0
0
2
3
4000
6000
Adems, ya se llevo a cabo el paso 1 (determinacin del valor) la iteracin 1 esta matriz de
transicin y estos costos llevaron a las ecuaciones empleados para encontrar:
V0 (R1 ) = 14949,V1 (R1 ) = 16262,V2 (R1 ) = 18636 yV3 (R1 ) = 19454
Para comenzar el paso 2 (mejorar la poltica) solo es necesario construir la expresin que debe
minimizarse para los dos estados (1 y 2) con una decisin seleccionada
Estado 1 : C 1k + 0.9 p10 ( k )(14949 ) + p11 ( k )(16262 ) + p12 ( k )(18636 ) + p13 ( k )(19454 )
Estado 2 : C 2 k + 0.9 p20 ( k )(14949 ) + p21 ( k )(16262 ) + p22 ( k )(18636 ) + p23 ( k )(19454 )
Para cada uno de estos estados y sus decisiones posibles, se muestras las C ik , y las pij ( k ) y
los valores que resultan para las expresiones correspondientes
Estado 1
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
1000
3
4
1
8
1
8
6000
Valor de
expresin
16262
la
mnimo
19454
Estado 2
Decisin
Cik
p10 (k )
p11 (k )
p12 (k )
p13 (k )
3000
1
2
1
2
2
3
4000
6000
0
1
1
0
0
0
0
0
Valor de
expresin
20140
18636
19454
la
mnimo
Como la decisin 1 minimiza la expresin para el estado 1 y decisin 2 minimiza la expresin

para el estado 2, la siguiente poltica de prueba (R2 ) es la siguiente;
24
Poltica
Estado
0
1
2
3
R2
Decisin
1
1
2
3
Como esta poltica es idntica a la poltica R1 la prueba de optimalidad indica que esta poltica
es ptima. Entonces, la poltica ptima segn el criterio del mejoramiento de una poltica con
descuento es igual a la obtenida anteriormente. (Esto ocurre con frecuencia perno no siempre)
Formulacin de programacin lineal
La formulacin de programacin lineal para el caso del costo descontado es similar a la del
costo esperado dada en la seccin 3; pero ahora, no se necesita la primera restriccin dada en
esa seccin; las otras restricciones funcionales si deben incluir el factor de descuento a . Otra
diferencia es que el modelo ahora contiene constantes j para j = 0,1,..., M estas constantes
deben satisfacer las condiciones
M
j =0
= 1,
j >0
para
j = 0,1,...., M
Excepto por esto, se pueden elegir de manera arbitraria sin afectar la poltica ptima que se
obtiene del modelo
El modelo que resulta refiere a elegir los valores de las variables de decisin continuas yik
para
Minimizar Z =
C
i =0 k =1
ik
yik ,
Sujeta a las restricciones

K
(1)
yik a yik pik (k ) = j , para j = 0,1,..., M

k =1
i 00 k =1
(2) yik 0, para i = 0,1,..., M ; k = 1,2,..., K

Una vez que se usa el mtodo simplex para obtener una solucin ptima de este modelo, la
poltica ptima correspondiente se define por
Dik = P {decision = k
y estado = i } =
y ik
K
y
k =1
ik
Ahora, las y ik se pueden interpretar como un tiempo esperado descontado por estar en el
estado i y tomar la decisin k, cuando la distribucin de probabilidad del estado inicial (cuando
comienzan las observaciones) es P{X 0 = j} = j para j = 0,1,..., M En otras palabras, si
Mahil Herrera M
25
________________________________________________________________________________
Z n ik = P {en el tiempo n , estado i
y desicion = k}
Entonces
yij = zik0 + az1ik + a 2 zik2 + a 3 zik3 + ...

Con la interpretacin de las j como probabilidades del estado inicial (donde cada probabilidad
es mayor que cero), Z se puede interpretar como el costo descontado total esperado
correspondiente. Entonces, la eleccin de las j afecta el valor ptimo de Z (pero no la poltica
ptima que resulta).
Una vez ms, se puede demostrar que la poltica ptima obtenida al resolver el modelo de
programacin lineal es determinstica; es decir, Dik = 0 a 1 Ms an, esta tcnica es vlida sin
la suposicin (usada para el caso del costo esperado) de que la cadena de Markov asociada
con cada matriz de transicin es irreducible.
Solucin del ejemplo prototipo por programacin lineal. El modelo de programacin lineal para
el ejemplo prototipo (con a = 0.9 ) es
Minimizar Z = 1000 y11 + 6000 y13 + 3000 y21 + 4000 y22 + 6000 y23 + 6000 y33 ,
Sujeta a
y01 0.9( y13 + y23 + y33 ) =
1
4
3
7
1
y11 + y13 0.9 y01 + y11 + y22 =
4
8
4
1
1
1
1
y21 + y22 + y23 0.9 y01 + y11 + y21 =
8
2
16
4
1
1
1
1
y33 0.9 y01 + y11 + y21 =
8
2 4
16
Toda yik o
Donde 0 , 1 , 2 y 3 seleccionan de manera arbitraria como
1
. El mtodo simplex da la
4
solucin ptima
y01 = 1.210,
y33 = 1.067,
( y11 , y13 ) = (6.656,0)
( y21 , y22 , y23 ) = (0,1.067,0)
26
De manera que
D01 = 1
(D11 , D13 ) = (1,0)
(D21 , D22 , D23 ) = (0,1,0)
D33 = 1
Esta poltica ptima es la misma que la obtenida antes en esta seccin por el algoritmo de
mejoramiento de la poltica.
El valor de la funcin objetivo para la solucin ptima es Z = 17325 Este valor est muy
relacionado con los valores de las Vi (R ) para esta poltica ptima encontradas por el algoritmo
de mejoramiento de la poltica. Recuerde que cada Vi (R ) se interpreta como el costo
descontado total esperado dado que el sistema inicia en el estado i y i , se interpreta como la
probabilidad de comenzar en el estado i. Como cada i se eligi igual a
1
.
4
1
V0 ( R ) + V1 ( R ) + V2 ( R ) + V3 ( R )
4
1
= (14949 + 16262 + 18636 + 19454 )
4
17325 =
6. Mtodo de aproximaciones sucesivas

Se dirigir la atencin a un enfoque llamado mtodo de aproximaciones sucesivas para
encontrar rpidamente al menos una aproximacin a una poltica ptima.
Se ha supuesto que el proceso de decisin markoviano operar indefinidamente y se ha
buscado una poltica ptima para tal proceso. La idea bsica del mtodo de aproximaciones
sucesivas es encontrar una poltica ptima para las decisiones que se toman en el primer
periodo cuando slo quedan w periodos de operacin para el proceso antes de terminar,
comenzando con n =1, despus n =2, despus n =3, etctera. Conforme n crece, las polticas
ptimas correspondientes convergen a una poltica ptima para el problema de periodo infinito
de inters. Entonces, las polticas obtenidas para n =1,2,3 proporcionan aproximaciones
sucesivas que llevan a la poltica ptima deseada.
La razn por la que este enfoque es atractivo es que se cuenta con un mtodo rpido para
encontrar una poltica ptima cuando slo quedan n periodos de operacin.
En particular, para i = 0,1,..., M sea
Vi n = Costo descontado total esperado por seguir una poltica ptima, dado que el proceso
comienza en el .estado i y le quedan slo n periodos de operacin
Mahil Herrera M
27
________________________________________________________________________________
Las Vi n se obtienen de la relacin recursiva (por el principio de optimalidad)
M
Vi n = Min C ik + pij ( k )V jn 1 para i = 0,1,..., M

k
j =0
El valor de k que minimiza proporciona la decisin ptima que se debe tomar en el primer
periodo cuando el proceso inicia en el estado i.
Para comenzar con n =1, todas las de manera que
Vi n = Min {C ik } para i = 0,1,..., M

k
Aunque es posible que el mtodo de aproximaciones sucesivas no conduzca a una poltica

ptima para el problema de infinitos periodos despus de slo unas cuantas iteraciones, tiene
una ventaja especial sobre las tcnicas de mejoramiento de una poltica y de programacin
lineal: nunca requiere que se resuelva un sistema de ecuaciones simultneas, con lo que cada
iteracin se puede realizar en forma sencilla y rpida.
Lo que es ms, si en realidad slo quedan n periodos en el proceso de decisin markoviano,
definitivamente n iteraciones de este mtodo llevarn a una poltica ptima. (Para un problema
de n periodos, se permite establecer a = 1 , es decir, sin descuento, en cuyo caso el objetivo es
minimizar el costo total esperado sobre los n periodos.)
Solucin del ejemplo prototipo por el mtodo de aproximaciones sucesivas Se usar de nuevo
a = 0.9 . Consulte los valores de Cik en la ltima columna de la tabla 1.3 al final de la seccin 1.
Vea tambin en las dos primeras columnas de la misma tabla que las nicas decisiones k
factibles para cada estado i son k = 1 , para i = 0, k = 1o3 para i = 1, k = 1, 2 o 3 para k = 3
para i = 3
Para la primera iteracin (n = 1) , se muestra el valor obtenido para cada Vi 1 junto con el valor
de k que minimiza (dado entre parntesis).
V01 = Min {C 0k } = 0,
k =1
( k = 1)
V11 = Min {C 1k } = 1000,
( k = 1)
V21 = Min {C 2 k } = 3000,
( k = 1)
k =1,3
k =1,2,3
V31 = Min {C 3k } = 6000,

k =3
( k = 3)
As, la primera aproximacin dice que se tome la decisin 1 (no hacer nada) cuando el sistema
est en el estado 0,1 o 2. Cuando el sistema se encuentra en el estado 3, se toma la decisin 3.
28
6. Mtodo de aproximaciones sucesivas
La segunda iteracin lleva a
1
1
7
V02 = 0 + 0.9 (1000 ) + ( 3000 ) + ( 6000 )

= 1294 ( k = 1)
16
16
8
1
1
V12 = min 1000 + 0.9 (1000 ) + ( 3000 ) + ( 6000 ) , 6000 + 0.9 1( 0 ) = 2688
8
8
4
( k = 1)
V22 = min 3000 + 0.9 ( 3000 ) + ( 6000 ) , 4000 + 0.9 1(1000 ) , 6000 + 0.9 1( 0 ) = 4900 ( k = 2 )
2
2
2
V3 =
6000 + 0.9 1( 0 ) = 6000
(k = 3)
donde el operador mnimo se elimin en la primera y cuarta expresiones por haber slo una
alternativa. La segunda aproximacin indica que se deje la mquina como est cuando se
encuentra en los estados 0 o 1, se haga una reparacin general si est en el estado 2 y se
reemplace cuando est en el estado 3. Observe que esta poltica es la ptima para el problema
con nmero infinito de periodos, como se encontr en esta seccin con el algoritmo de
mejoramiento de la poltica y con programacin lineal. Sin embargo, los valores de las Vi 2
(costo descontado total esperado cuando se comienza en el estado i para el problema de dos
periodos) an no son cercanos al de Vi (el costo correspondiente al problema de nmero
infinito de periodos).
1
1
7
V03 = 0 + 0.9 ( 2688 ) + ( 4900 ) + ( 6000 )

= 2730 ( k = 1)
8
16
16
1
1
V13 = min 1000 ( 2688 ) + ( 4900 ) + ( 6000 ) + 0.9 , 6000 + 0.9 (1(1294 ) ) = 4041 ( k = 2 )
8
8
4
V23 = min 3000 + 0.9 ( 4900 ) + ( 6000 ) , 4000 + 0.9 1( 2688 ) , 6000 + 0.9[1(1294 ) ] = 6419 ( k = 2 )
2
2
V33 =
6000 + 0.9[1 (1294 ) ] = 6000
( k = 3)
De nuevo se obtiene la poltica ptima para el problema de periodos infinitos y los costos se
acercan a los de la poltica ptima para ese problema. Este procedimiento puede continuar y
V0n ,V1n ,V2n , y,V3n convergen a 14949,16262, 18636 y 19454, respectivamente.

Debe hacerse hincapi en que de haber terminado el mtodo de aproximaciones sucesivas
despus de la segunda iteracin, se habra obtenido una poltica ptima para el problema de
periodos infinitos, aunque no hay manera de saberlo, si no se resuelve por otros mtodos.
Como se indic, el mtodo de aproximaciones sucesivas obtiene definitivamente una poltica
ptima para un problema de n periodos despus de n iteraciones. Para este ejemplo, la
primera, segunda y tercera iteraciones han identificado la decisin ptima inmediata para cada
estado si el nmero de periodos que quedan es uno, dos o tres, respectivamente.
Mahil Herrera M
29
________________________________________________________________________________
CONCLUSIONES
Los procesos de decisin de Markov son una herramienta poderosa para optimizar el
desempeo de los procesos estocsticos que se pueden modelar como una cadena de
Markov discreta.
Las dos medidas principales de desempeo que se usan son el costo promedio
esperado por unidad de tiempo y el costo descontado total esperado (a la larga).
El costo total descontado (a la larga) requiere la determinacin del valor adecuado de un

factor de descuento, pero esta medida es til cuando es importante tomar en cuenta el
valor del dinero en el tiempo.
Los dos mtodos ms importantes para derivar polticas ptimas para los procesos de
decisin markovianos son los algoritmos de mejoramiento de una poltica y
programacin lineal.
Bajo el criterio de costo descontado, el mtodo de aproximaciones sucesivas

proporciona un camino rpido para aproximarse a una poltica ptima.
En general cualquier modelo de cadenas de Markov se puede aplicar estos mtodos

cuando se busquen polticas ptimas pero en [White 1985] se pueden encontrar
aplicaciones ms precisas.
Fuentes de consulta.
[ 1] Brmaud, P. (1999). Cadenas de Markov. Nueva York: Springer.

[ 2] Herrera, M (2011) Introduccin a los procesos estocsticos. Mxico: FES Acatln
UNAM.
[ 3] Hillier F, Lieberman G (2002) Investigacin de operaciones, Mxico: McGraw Hill.
[ 4] Rincn, L. (2011). Introduccin a los procesos estocsticos. Mxico: Facultad de
Ciencias UNAM.
[ 5] Taha H.(2004) Investigacin de operaciones, Mxico: Pearson.
[ 6] White, D. J. (1985). Real Aplications of Markov Decision Processes, Interfaces 15-6.

Decision Markoviana

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Decision Markoviana

Transféré par

Droits d'auteur :

Formats disponibles

Procesos Markovianos de Decisin.

Apuntes para la clase

Act. Mahil Herrera Maldonado.

1 Ejemplo para aplicar los procesos markovianos de decisin

2 Enumeracin exhaustiva de polticas

3 Solucin por programacin lineal

4 Mtodo de mejoramiento de polticas

5 Mtodo de mejoramiento de polticas con descuento

6 Mtodo de aproximaciones sucesivas

El presente trabajo se desarrollara como apuntes de clase para el tema de procesos

El objetivo principal de los procesos markovianos de decisin es determinar la poltica ptima

mejoramiento de polticas y criterio del costo descontado.

1. Ejemplo para aplicar los procesos markovianos de decisin

1. Ejemplo para aplicar los procesos markovianos de decisin

Tan buena como nueva

Adems del anlisis estadstico, se ha encontrado que estas probabilidades de transicin no se

1. Ejemplo para aplicar los procesos markovianos de decisin

La solucin simultnea es:

0 0 + 1000 1 + 3000 2 + 6000 3 =

Reemplazo (el sistema regresa al estado 0)

2. Despus de cada observacin, se selecciona una decisin (accin) k de un conjunto de K

decisiones posibles ( k = 1, 2,..., K ) (Algunas de las k decisiones pueden no ser relevantes

para algunos estados.)

pij ( k ) para j = 0,1,..., M

1. Ejemplo para aplicar los procesos markovianos de decisin

2. Enumeracin exhaustiva de polticas

Las polticas relevantes para el ejemplo prototipo son las siguientes:

Reemplazo en el estado 3, reparacin 1

Cada poltica da una matriz de transicin diferente, como se muestra enseguida

Cik (en miles de dlares)

Donde k = d i (R ) para cada i , y ( 0 , 1 ,... M ) representa la distribucin de estado estable para

2. Enumeracin exhaustiva de polticas

As, la poltica ptima es Rb , es decir, reemplazar la mquina cuando se encuentre en el estado

3. Solucin por programacin lineal

R queda completamente definida por los valores.

y k = 1, 2,...., K ) se define como

si la decision k debe tomarse en el estado i

Dik = P{decision = k estado = i}

3.Solucin por programacin lineal

En donde cada rengln suma 1, y ahora

Por ltimo, si se encuentra que la mquina est en el estado 3, siempre se le hace un

k = 1, 2,..., K , sea yik , la probabilidad de estado estable de que el

sistema se encuentre en el estado i y se toma la decisin k , es decir,

Existen varias restricciones sobre las yik :

2) De los resultados de las probabilidades de estado estable:

y jk = y ik pij ( k ) , para j = 0,1,..., M

yik 0, para i = 0,1, ..., M

El costo promedio esperado a largo plazo por unidad de tiempo es:

E (C ) = i Cik Dik = Cik yik ,

Entonces, el modelo de programacin lineal consiste en seleccionar las yik , para

3.Solucin por programacin lineal

Sujeta a las restricciones

y jk yik pij (k ) = 0, para j = 0,1,..., M .

(3) yik 0, para i = 0,1,..., M

As este modelo tiene M + 2 restricciones funcionales y K (M + 1) variables de decisin. [En

restricciones se puede eliminar]

Solucin del ejemplo de la seccin 1 por programacin lineal

y01 + y11 + y13 + y21 + y22 + y23 + y33 = 1

y01 ( y13 + y23 + y33 ) = 0

y11 + y13 y01 + y11 + y22 = 0

( y21, y22 , y23 ) = 0,

( D11 , D13 ) = (1, 0 )

( D21 , D22 , D23 ) = ( 0,1, 0 ) ,

4. Mtodo de mejoramiento de polticas