Vous êtes sur la page 1sur 15

Les chaînes de Markov

Master: Informatique Décisionnelle

Pr C.Daoui

Université Sultan Moulay Slimane

Faculté des Sciences et Techniques Béni-Mellal

Laboratoire de modélisation et calcul

Département de Mathématiques

1. Les chaines de Markov finies à temps discret


Le fondateur de la discipline
Andrei Andreevich Markov (1856-1922) un mathématicien russe. Ses travaux sur la théorie des
probabilités l’ont amené à mettre au point les chaines de Markov qui l’ont rendu célèbre.
Ceux-ci peuvent représenter les prémices de la théorie du calcul stochastique.
2. Définitions
Définition: Un processus stochastique {Xt, t ∈ T} est une collection de variables aléatoires
définies sur un même espace probabilisé (Ω, F, P). L’indice t est souvent interprété comme le
temps.
Le processus est en temps continu si T est continu (e.g., T = [0 , ∞)), et en temps discret si T est
discret (e.g., T = {0, 1, 2, . . .}). Lorsque T est continu, on note souvent Xt par X(t).
La variable Xt représente l’état du processus au temps t et l’ensemble de toutes les valeurs
possibles pour cette variable est appelé l’espace des états du processus et sera noté E.
Classification :
Un processus stochastique dont l’ensemble des états E est fini ou dénombrable est appelé une chaine.
Un processus est à temps discret lorsque l’ensemble T est fini ou dénombrable.
Définition : Une chaine de Markov à temps discret est un processus stochastique {Xn, n=0, 1,
...} à temps discret, défini sur un espace d’états E fini ou dénombrable et vérifiant la propriété
de Markov :
P [Xn = i | X0 , ..., Xn−1 ] = P [Xn = i | Xn−1 ], pour tout i ∈ E et  n ≥ 1.

1
PX m1  em1 X m  em , X m1  em1 ,, X 0  e0   PX m1  em1 X m  em  ∀ m>0 ∀ ei ∈ E
En mots, l’état courant résume, à lui seul, tout l’historique du système susceptible d’influencer
son évolution future.
Une chaine de Markov à temps discret est homogène (dans le temps) si, pour tout paire d’états
(i, j ) et tout instant n, P [Xn = j |Xn−1 = i] = P [Xn+k = j |Xn+k−1 = i], ∀ k≥ 0.
Restriction : Dans ce chapitre, l’étude portera sur une chaine de Markov à temps discret,
définit sur un espace d’états E fini, et homogène dans le temps. Notons que les résultats que nous
allons présenter s’appliquent le plus souvent tels quels aux chaines de Markov à temps discret,
homogènes mais définies sur un espace d’états dénombrable.
2.1 Probabilité de transition et matrice de transition
Pour une chaine de Markov homogène {Xn, n= 0, 1, ...}, on a
P [Xn = j |Xn−1 = i] = P [X1 = j |X0 = i] ∀n ≥ 1.
On peut donc définir la probabilité de transition (en une étape) de i à j comme
Pij = P [X1 = j |X0 = i] ∀ ( i, j ) ∈ E 2
En mots, la probabilité Pij est égale à la probabilité conditionnelle que le système se retrouve
dans l’état j à l’étape suivante sachant qu’il se trouve actuellement dans l’état i.
Si la chaine possède |E| états, les probabilités précédentes peuvent être rangées dans une matrice de
transition P=(pij) de taille |E|×|E| dont les lignes et les colonnes sont indexées par les
éléments de E.

Matrice Stochastique: Une matrice carrée P = (pi j)i, jE est Stochastique ou Markovienne si

1) pij ≥ 0 ∀ i, j ∈ E.

2) la somme des éléments de chacune de ses lignes est égal à 1 (  pij = 1 ∀ i ∈ E).
jE

Exemple: (La marche aléatoire)


On considère un promeneur se déplaçant étape par étape soit à droite soit à gauche de façon
équiprobable. S’il se trouve sur un bord, ils y restent (bord absorbant). Les règles n'évoluent
pas au cours du temps. Il s'agit d'une chaîne de Markov.
 1 0 0 0   bord absorbant à droite
 
1 / 2 0 1 / 2 0 
 0 1/ 2 0 1/ 2
 
 1   bord absorbant à gauche
La matrice P de transition est :  0 0 0

On remarque que cette matrice est stochastique car la somme des coefficients de chaque

2
ligne fait 1. Le coefficient encadré s’écrit PX1  3 X 0  2  1/ 2 et représente la probabilité

d’arriver en position 2, en partant de la position 3.


Propriété: Soit P une matrice stochastique finie de taille s, alors toute puissance Pm, m ≥ 0,
de P est une matrice stochastique.
Preuve: Par induction.
2.2 Probabilités de transition en m étapes
La probabilité conditionnelle d’aller de i à j en m étapes exactement est
Pij(m) = P [Xm = j |X0 = i] = P [Xn+m = j |Xn = i] ∀ n ≥ 1.
Cette probabilité est indépendante de n car le processus est homogène et est appelée la
probabilité de transition en m étapes de i à j.
La matrice P(m) dont l’élément (i, j) est égal à Pij(m) est appelée la matrice de transition en
m étapes.
Remarque: On a évidemment p(1)ij = pij et P (1) = P .
Convention: On adoptera la convention naturelle P (0) = P
Théorème 2.1: Pour tout m ≥ 0, la probabilité p(m)ij de transition de i à j en m étapes est
donnée par l’élément (i, j ) de la matrice Pm.
Sous forme matricielle ce résultat s’écrit: P (m) = P m, pour tout m ≥ 0.
Preuve: Par induction.
Equation de Chapman-Kolmogorov
Corollaire 2.1: Soit P (n), n ≥ 0, la matrice de transition en n étapes d’une chaine de

Markov. Alors, n m Pi j
nm
  Pi nk Pkmj ,  i, j  E , d’où Pi nj   P n  i j .
kE

3. Eléments de la théorie des graphes et classification des états


Définition: On appelle graphe orienté tout couple G = (E , U) où E est un ensemble
quelconque et U est un sous ensemble de E  E.
E est appelé l’ensemble des sommets et U est l’ensemble des arcs. Pour tout arc (x , y)  U,
x est dit origine de l’arc et y est son extrémité, un graphe est dit fini si E est fini.
Un graphe G = (E , U) peut être représenté sous deux formes:
⇒ Un tableau carré, représentant E  E, dont les cases correspondant aux éléments de U sont
marqués par 1, les autres par 0. Ce tableau s’appelle la matrice d’incidence du graphe G.
Exemple: E = { a , b , c , d } ; U = { ( a , b ) , ( a , d ) , ( b , a ) , ( c , b ) , ( c , c ) , ( d , d ) }

3
a b c d
a 0 1 0 1
b 1 0 0 0
c 0 1 1 0
d 0 0 0 1
⇒ Une figure (ce qui explique l’adoption du mot graphe) dans laquelle chacun des sommets
est représenté par un point, et un arc (x , y)  U est représenté par une flèche de x vers y.

On appelle boucle tout arc dont l’extrémité et l’origine coïncident.


3.1 Chemin- Circuit
On dit que j est un successeur de i s’il existe un arc (i , j)  U.
L’ensemble des successeurs d’un sommet i  E est noté i, l’application qui à tout élément
de E fait correspondre ses successeurs est l’application multivoque  : E   ( E ) (où  (E)
désigne l’ensemble des parties de E).
On dit que j est un prédécesseur de i, s’il existe un arc (j , i)  U.

L’ensemble des prédécesseurs de i est noté: i .


1

Définition : Un chemin c de longueur q est une séquence de q arcs : c = {u1, u2, ...., uq} avec
u1 = ( i0 , i1 ); u2 = ( i1 , i2 ); ... ; uq = ( iq-1 , iq ).
Le sommet i0 est l’extrémité initiale du chemin c, le sommet iq est son extrémité terminale.
Un circuit est un chemin dont les extrémités coïncident.
Définition : On appelle fermeture transitive d’un graphe ( E , U ), l’application multivoque
ˆ i  { i }  i  i2  .... iN 1 où ik représente l’ensemble des sommets
 défini par 
que l’on peut atteindre à partir du sommet i par des chemins de longueur k, et N est le
cardinal de E.
ˆ i1 représente
On dit que ̂i est l’ensemble des descendants de i, de la même façon 
l’ensemble des ancêtres de i.
L'algorithme suivant calcule la fermeture transitive d'un graphe, il est en général attribué à
Roy et Warshall:

4
procedure PHI (var m: GrapheMat; x: IntSom; n: integer);
var
u, v: IntSom;
begin
for u := 1 to n do
if (m[u, x] = 1) then
for v := 1 to n do
if (m[x, v] = 1) then
m[u, v] := 1;
end;
procedure FermetureTransitive (var m: GrapheMat; n: integer);
var
x: IntSom;
begin
for x := 1 to n do
PHI(m, x, n);
end;
Remarque L'algorithme ci-dessus effectue un nombre d'opérations que l'on peut majorer par
, chaque exécution de la procédure PHI pouvant nécessiter opérations; cet algorithme
est donc meilleur que le calcul des puissances successives de la matrice d'adjacence.

3.2 Composante fortement connexe.


Définition : Un graphe est dit fortement connexe si étant donné deux sommets quelconques
i et j, il existe un chemin d’extrémité initiale i et d’extrémité terminale j.
Considérons la relation : i R j  il existe un chemin de i à j et de j à i, ou i = j.
R est une relation d'équivalence, ses classes d’équivalences C1, C2, ..., Cq forment une
partition de E.
Définition: On appelle composante fortement connexe (C.F.CX), toute classe
d'équivalence associée à R.
Remarque: La composante fortement connexe Ei contenant un sommet l donné est égale à

Ei  ˆ l  ˆ l1 . Ainsi, on peut la déterminer par l’algorithme suivant:


5
 Algorithme de recherche d’une composante fortement connexe (C.F.CX ).
Il existe un algorithme en o(U ) pour déterminer les composantes fortement connexes, il
consiste à exécuter la procédure récursive ci dessous dite ``Exploration en profondeur
d’abord ’’.
On suppose qu’on commence l’exploration par le sommet k.
Pour i  E, l’étiquette val( i ) désigne l’ordre dans lequel i est exploré à partir de k.
L’étiquette min( k ) est l’ordre du sommet accessible (par un lien ascendant) le plus haut
depuis un descendant de k.
On considère une pile ( pil ) pour empiler les sommets explorés.
Par convention
 val( i ) = 0 si i n’est pas exploré.
 val( i )  0 et val( i )  E si i est exploré mais n’est pas encore listé dans une
C.F.CX .
 val( i ) = E + 1 si i est déjà listé.
 Le graphe G = (E , U) est représenté par la matrice d’incidence M.

Algorithme
a) Initialisation :
Pour i = 1 à E faire val( i ):= 0; cl ( i ): =  Fait.

b) Etape fondamentale

Pour k = 1 à E faire

si val ( k )  E alors id: = 0; p : = 1; Explorer ( k , min ( k )); fin de si.

Procédure Explorer (k , min ( k ))


Début val( k ) : = id + 1; id : = id + 1; min ( k ) : = id; pil ( p ) : = k; p : = p + 1;

Pour i = 1 à E faire

Si M[ k , i ] = 1 alors
Si val( i ) = 0 alors Explorer ( i , min( i )); l : = min( i ) fin de si
Sinon l : = val( i );
Si l < min( k ) alors min( k ): = l fin de si fait.
Si min( k ) = val( k ) alors (``tous les sommets empilés à l’entrée de la procédure sauf ceux
déjà listés appartiennent à la même C.F.CX que k ’’) ;
Tant que pil( p )  k faire

Si val ( pil ( p-1 ) )  E alors cl ( k ) = cl ( k )  { pil ( p-1 ) }; val( pil ( p-1 )) = E +1

Fin de si; p : = p - 1 fait. Fin de la procédure.

6
Exemple d’application
Soit le graphe G = (E , U) défini par sa matrice d’incidence M , E = {1, 2, 3, 4}.
1 1 0 0 
0 1 1 0 
M  
1 0 1 0 
0 0 1 0 
a) cl( 1 ) = cl( 2 ) = cl( 3 ) = cl( 4 ) = 
val( 1 ) = val( 2 ) = val( 3 ) = val( 4 ) = 0
b) k = 1
val( 1 ) = 0  4 alors id = 0 ; p = 1 ;
Explorer ( 1 , min( 1 ))
val( 1 ) = 1 ; id = 1 ; min( 1 ) =1 ; pil ( 1 ) = 1 ; p = 2
i = 1 M[1 , 1] =1 alors val( 1 )  0 ; min( 1 ) =1
i = 2 M[1 , 2] =1 alors val( 2 ) = 0 alors
Explorer ( 2 , min( 2 ))
val( 2 ) = 2 ; id = 2 ; min( 2 ) = 2 ; pil ( 2 ) = 2 ; p = 3
i = 2 M[2 , 2] = 1 alors val( 2 )  0 ; val( 2 ) = min( 2 ).
i = 3 M[2 , 3] = 1 alors val( 3 ) = 0 alors
Explorer ( 3 , min( 3 ))
val( 3 ) = 3 ; id = 3 ; min( 3 ) = 3 ; pil( 3 ) = 3 ; p = 4
i = 1 M[3 , 1] = 1 alors val( 1 )  0 ; val( 1 ) < min( 3 ) alors min( 3 ) := 1
i = 3 M[3 , 3] = 1 alors val( 3 )  0 ; val( 3 ) > min( 3 ).
min( 3 )  val( 3 ) ( fin Explorer ( 3 , min( 3 )) ) ; l = 1
min( 2 ) = val( 2 ) alors pil( 4 )  2 alors val( 3 )  4 alors cl( 2 ) ={ 3 } ; val( 3 ) = 5;
val( 2 )  4 alors cl( 2 ) = { 2 , 3 } ; val( 2 ) = 5
val( 1 )  4 alors cl( 2 ) = { 1 , 2 , 3 } ; val( 1 ) = 5 (fin Explorer ( 2 , min( 2 )) )
min( 1 ) = val( 1 )..... cl( 1 ) = cl( 2 ).
k=2 val( 2 ) = 5 stop.
k=3 val( 3 ) = 5 stop.
k=4 val( 4 )  4 alors id = 0 , p = 1
Explorer ( 4 , min( 4 ))
val( 4 ) = 1 , id = 1 , min( 4 ) = 1 , pil( 4 ) = 4 , p = 2
i = 3 M[4 , 3] = 1 alors val( 3 ) = 5  0
min( 4 ) = val ( 4 ) = 1 alors pil( 2 )  4 alors val( 4 )  4 alors cl( 4 ) = { 4 }; val( 4 ) = 5. ∎

Donc on trouve deux composantes fortement connexes C1 = {1, 2, 3}; C2 = { 4 }.

3.3 Graphe réduit


On peut définir à partir du graphe G un nouveau graphe Gr, dit graphe réduit de G.
L’ensemble des sommets de Gr est l’ensemble des composantes fortement connexes de G.
Un arc (Ei , Ej) existe dans Gr si et seulement si il existe dans G un arc partant d’un sommet
de Ei vers un sommet de Ej. Le graphe Gr n’admet pas de boucle.

7
La figure1 représente un graphe G à 10 sommets. On a mis en évidence les 6 composantes
fortement connexes, la figure 2 représente le graphe réduit Gr.

Figure 1: G = ( E , U ).

2 4
3

Figure 2 : graphe réduit Gr

3.4 Relation entre graphes et chaines de Markov finies.


La théorie des graphes fournit des algorithmes spécifiques pour chercher les fermetures
transitives, les composantes fortement connexes. Pour que la théorie des chaînes de Markov
profite des avantages de ces algorithmes, on présente dans cette section la relation entre les
graphes et les chaînes de Markov finies.
On associe à la chaîne de Markov de matrice de transition P = (pi j)i, jE, un graphe, dit de
transition de la chaine de Markov, G = (E , U) avec E est l’ensemble des états et U:= {(i , j)
 E  E : pi j > 0}. Ensuite, on présente les équivalences entre quelques notions de la théorie
des chaînes de Markov finies et celles de la théorie des graphes.
 Dire qu’un état i est accessible à partir d’un état j équivaut à dire en théorie des
graphes qu’il existe un chemin de i à j.
 Deux états i et j communiquent équivaut à dire en théorie des graphes qu’il existe
un chemin de i à j et de j à i.

8
Proposition 3.1: Une classe communicante relativement à la chaîne de Markov est une
composante fortement connexe pour le graphe associé à la chaîne de Markov.
Preuve: Soit la relation d’équivalence définie par :
 i, j  E; i R’ j  i communique avec j, ou i = j.
 il existe un chemin de i à j et un chemin de j à i, ou i = j.
 i R j (où R est la relation d’équivalence définie ci-dessus)
Alors R et R’ sont équivalentes.
Définition: Un sous ensemble S de E est dit fermé relativement à une chaine de Markov de
matrice de transition P si Pi j = 0  i  S,  jS.
Définition: Une classe récurrente pour la chaîne de Markov est une classe communicante
fermée. Si tel n’est pas le cas, la classe est transitoire.
Les états d’une classe récurrente sont dits persistants ou récurrents et ceux d’une classe
transitoire sont transitoires.
Proposition 3.2: Une classe récurrente C pour la chaîne de Markov est une composante
fortement connexe fermée au sens du graphe associé à la chaîne (i.e., ( C ) = ).
Preuve: D’après proposition 3.1, une classe récurrente est une composante fortement
connexe pour le graphe associé à la chaîne. De plus  i  C, Pi j = 0  j  C, ce qui veut dire
qu’il n’existe pas d’arcs sortant de C. i.e., (C) = .
Un état i est dit absorbant si et seulement si Pii = 1 (on a alors Pij = 0, ∀ j ≠ i).
Une chaine de Markov est irréductible si et seulement si son graphe représentatif est
fortement connexe (i.e., toutes ses paires d’états communiquent).
Une chaîne de Markov est dite unichaine s’il admet une seule classe récurrente.
Remarque : Définissons fij(k)= P(Xk=j, Xl≠ j, 1≤ l ≤k-1  X0=i ) : la probabilité pour que le
système partant de i soit pour la première fois dans l’état j au bout de k transitions. Alors

fij := f
k 1
(k)
ij est la probabilité pour que le système partant de i atteigne l’état j en un nombre

fini de transitions.
Un état i est récurrent ⟺ fii = 1; c’est à dire partant de i le système y retourne à coup sûr au
cours de son évolution.

Les états récurrents sont classés selon le temps moyen de retour μi =  kf
k 1
(k)
ii .

On dit qu’un état est récurrent non nul (nul) si μi < +∞ (μi = +∞).

9
n
Lemme 3.1 : Soit i ∈ E, on a Pii(n) = P
k 1
(n - k) ( k )
ii iif .
Preuve: Posons Tii la variable aléatoire définie par Tii = min {k≥1 / Xk = i, X0 = i}: le temps
de premier passage de i partant de i. On observe facilement que fii(n) = P(Tii= n  X0=i ).
 n
Pii(n) = P( Xn = i  X0=i ) =  P(Xn  i, Tii  k / X 0  i) =
k 1
 P(X
k 1
n  i, Tii  k / X 0  i)

n
Pii(n) =  P(X
k 1
n  i / X k  i) P(Tii= k  X0=i).

n
D’où l’expression Pii(n) = Pk 1
(n - k) ( k )
ii f
ii .


Proposition 3.3 : Un état i est récurrent si et seulement si P
n 1
(n)
ii   et il est transitoire si

cette somme est finie.


Preuve : ⇛ Soit i un état récurrent. D’après lemme 3.1, on peut écrire :
  n      

P
n 1
(n)
ii =  P
n 1 k 1
(n - k) ( k )
ii f
ii =  f P
k 1
(k )
ii
n k
(n - k)
ii = f
k 1
(k )
ii  P = ( fii( k ) )(1   Pii(n) ) .
n 0
(n)
ii
k 1 n 1

 
Si i est récurrent k 1
f ii( k ) := fii = 1 alors la dernière égalité n’est possible que si P
n 1
(n)
ii  

⇚ D’après lemme 3.1, on peut écrire :


N N n N N N N

 Pi (n)i =
n 1
 Pii(n -k) fii(k ) =
n 1 k 1
 f ii( k )  Pii(n -k) ≤  f ii(k )  Pii(l) .
k 1 n k k 1 l0

 N P (n)
ii
1
D’où fii :=  f ii( k ) ≥ f (k )
ii ≥ n 1
N
=1- N
( Pii(0)= 1).
k 1 k 1
P
l0
(l )
ii P
l0
(l )
ii

Au passage à la limite N→∞, on aura fii = 1, donc i récurrent.

Proposition 3.4: Si i, j sont deux états communicants et i est récurrent alors j est récurrent.
Preuve : Comme i ↔ j ⟺ ∃ m, n > 0 : Pij(n) > 0 et Pji(m) > 0.
  
On a Pjj(m+n+s) ≥ Pji(m) Pii(s) Pij(n) . Alors P
s 1
(s)
jj ≥  Pjj(m  n s) ≥ Pji(m) Pij(n)
s 1
P
s 1
(s)
ii .

D’où le résultat.

10
Remarque: Une conséquence de cette proposition est le fait que tous les états d’une même
classe sont soit tous récurrents soit tous transitoires.

Proposition 3.5 : Si j est un état transitoire alors pour tout état i,  Pi kj   .
k 1

  n   
Preuve :  Pi (n)j =
n 1
 Pjj(n -k) fij(k ) =
n 1 k 1
 f ij( k )  Pjj(n) ≤
k 1 n 0
P
n 0
(n)
jj < ∞.

Si j est transitoire alors lim Pij(n) = 0.


Lemme : il existe au moins un état récurrent.
Preuve : On a ∀ i ∈ E, ∀ n p
jE
(n)
ij = 1.

Supposons que tous les états sont transitoires alors ∀ i ∈ E lim Pij(n) = 0.
Alors 1 = lim p
jE
(n)
ij =  lim
jE
n 
pij( n ) = 0. Ce qui est absurde.

4. Périodicité et distribution de probabilité stationnaire

La période d de l’état i d’une chaine de Markov est égale au plus grand diviseur commun de
tous les n pour lesquels Pii(n) > 0. On le note encore d(i).
L’état i est périodique lorsque d > 1 et apériodique lorsque d = 1.
Notons que si n différent d’un multiple de d(i) alors Pii(n) = 0.
En mots l’état i ne peut se produire qu’au bout d’un temps ou nombre de transitions multiple
de d(i).
Proposition 4.1: Si i, j sont deux états communicants alors d(i) = d(j).
Théorème 4.1 :
f ij
 Si j est un état récurrent apériodique alors pour tout i ∈ E, lim Pij(n) = .
i
 Si j est un état récurrent de période d alors pour tout i ∈ E,

d
lim Pij(nd +a) =  f i (kd  a)
, pour a = 0, 1, …., d-1.
j
j
k 1

Preuve : C.Derman. Finite state Markovian Decision processes. Academic Press, (1970).
Définition : Une distribution de probabilité stationnaire w est une solution du système :
a) xi ≥ 0, ∀ i ∈ E;
b) x
jE
j = 1;

11
c) xi =  x j Pji , ∀ i ∈ E.
jE

Lemme : Soit (xi, i ∈ E) une distribution stationnaire. Pour tout n > 0, i ∈ E on a :


xi = x
jE
j p (jin ) .

Preuve : la propriété vraie pour n=1. Supposons la vraie pour n et montrons la pour n +1.
On a Pj(in  1)   Pjk Pk(in ) alors :
kE

x P
jE
j
( n 1)
ji = x  p
jE
j
kE
jk pki( n ) = P x P
kE
(n)
ki
jE
j jk = x P
kE
k
(n)
ki = x i.

Avant d’énoncer le théorème suivant qui montre l’existence et l’unicité d’une distribution de
probabilité stationnaire, on présente la proposition suivante:
Proposition 4-2
Toute classe récurrente est positive.
Preuve: E.Parzen. Stochastic Processes. Holden Day, San Francisco (1962).

Théorème 4-1 : Une chaîne de Markov finie admet une distribution de probabilité
stationnaire unique si et seulement si elle admet une seule classe récurrente.
Preuve : E.Parzen. Stochastic Processes. Holden Day, San Francisco (1962).

4.1 Forme canonique de la matrice de transition


L’ensemble E se décompose en classes récurrentes E1, E2, ..., Em et en un ensemble d’états
transitoires T qui peut être vide. Avec un arrangement approprié de l’espace des états, la
matrice de transition P peut s’écrire sous la forme canonique suivante :
 P1 0 . . . . . . . . . . . . 0  E1
 
0 P2 0 . . . . . . . 0  E 2
. 0 .  .
P 
. . .  .
 
0 0 . . . . . . . Pm 0  E m
R R 2 . . . . . .R m Q  T
 1
On suppose que T  .

Théorème 4.2 : La matrice ( I - Q ) est inversible et I - Q   Qn .
1

n 0

Preuve :

12
Théorème 4-3
1 n 1 k f
(i) P* : = lim
n  n

k 0
P existe et Pi *j = ij .
j
(i i) P* P = P P* = P* P* = P*.
(i i i) Pi*.  Pj*. et Pi*j  0 pour tout ( i , j ) : i, j  Ek, k=1, 2,..., m.

(i v) P. *i  0 pour tout état transitoire i.

Preuve: C.Derman. Finite state Markovian Decision processes. Academic Press, (1970).

la forme générale de la matrice stationnaire P*


P1* 0 .............. 0 
 
0 P2* . . . . . . . . . . . . . .0 
. 0 . 0 
P* = . . . 0 
 
. . . . 
. . Pm* 0 
 
 A1 A 2 . . . . . . . . . . . Am 0 

4.2 Probabilités d’absorption par les classes récurrentes.

On détermine pour tout i T les probabilités aik d’absorption par les classes récurrentes Ek,
k=1, 2,..., m, sachant que l’état initial de la chaîne est i. Calculons aik en considérant la
première transition :
a i k   Pi j  Pr  absorption par E k / X 1  j .
jE

0 si j   E l
l k
Or Pr  absorption par E k / X 1  j   1 si j  E k
a jk si j  T

13
Nous obtenons donc :
ai k  p
j  Ek
i j   pi j a j k .
j T

 
Considérons les vecteurs colonnes a k  a i k i  T , h k    pi j  , on peut écrire l'équation
 j  Ek  i  T
vectorielle :
a k  h k  Q a k  I  Q  a k  h k .
Nous pouvons affirmer que, pour une chaîne de Markov finie, les probabilités d’absorption
existent et sont définies de façon unique par l'équation ci dessus.
m m

 a k  I  Q  h
1 k
Remarque : Il est clair que . Si nous notons par U le vecteur colonne
k 1 k 1

à Tcomposantes, toutes égales à 1, on aura:


m  m  m

 h k     pi l  = (I - Q) U, il en résulte que a k
 U.
k 1  k 1 l  Ek  i T k 1

En mots, ceci indique que le processus, partant d’un état transitoire, finira par rejoindre l’une
des classes récurrentes.
4.3 Algorithme pour calculer la matrice stationnaire.
Avant d’énoncer cet algorithme, il est essentiel d’utiliser le théorème suivant qui va-nous
permettre de calculer facilement les composantes de la matrice stationnaire.
Théorème 4.4 : Pour une classe récurrente Ek, nous avons Pi*j  a i k Pj* j , i T , j  Ek , où

{aik, i  T} sont les probabilités d’absorption par Ek.


Preuve: W.Feller. An introduction to probability theory and its applications. (2nd ed )(1950).
Remarque : On peut restreindre la chaîne de Markov à la classe récurrente Ek; pour k=1,
2,..., m. D’après théorème 4.1 et du fait que P* P = P*, on peut déduire que ( Pi*j ) j  Ek , i  Ek

est une distribution de probabilité stationnaire unique de la chaîne de Markov restreinte à Ek.
Puisqu’on a Pi*j  Pj* j ,  i, j  Ek , donc Pj* j   j  Ek
est une solution unique du système linéaire:

   j l  p j l  y kj  0, l  Ek
 j  Ek

  y kj  1
 j  Ek

Algorithme pour calculer la matrice stationnaire P*


14
Etape1 Identifier les classes récurrentes E1, E2, ..., Em et l’ensemble des états transitoires T.

Etape2 Déterminer pour k = 1 , 2 ,.....,m.


 
( i ) la solution unique x kj , j  Ek du système linéaire :

   j l  p j l  y kj  0, l  Ek
 j  Ek

  y kj  1
 jEk

( i i ) la solution unique {ai k , i  T} du système linéaire :

 
j T
i j  pi j  bkj  p
j  Ek
ij , iT

Etape3 Les composantes de la matrice stationnaire sont données par


 x kj si i, j  Ek , k  1, 2,..., m


Pi*j : a ik x kj si i  T , j  Ek , k  1, 2,..., m



0 si non

15

Vous aimerez peut-être aussi