Académique Documents
Professionnel Documents
Culture Documents
Chaı̂nes de Markov
Olivier Hénard
9 octobre 2019
Ces notes de cours reprennent dans un seul ensemble (supposé cohérent) une toute petite
partie des notions présentées dans le livre de Levin Peres (et Wilmer) :
Levin, D. A., & Peres, Y. Markov chains and mixing times Second Edition (Vol. 107).
American Mathematical Soc. (2017)
qui est la référence choisie pour ce cours. Notre ambition en proposant ce texte complémentaire
n’est pas de nous substituer à cette référence, mais plutôt d’aider le lecteur novice à trouver
son chemin dans cet ouvrage dont l’ambition excède très largement le cadre d’un cours de 6
séances d’une heure.
Notre délicat travail d’élagage a été dicté cette année par un principe simple : parvenir à
aborder, au terme des six séances, le problème des temps de recouvrement d’une chaı̂ne de
Markov ; le choix de ce problème a lui-même répondu à plusieurs critères : confronter le plus
rapidement possible les étudiants à une problématique de recherche récente et abordable 1 ,
sans trop de technicité, et qui offre un panorama des méthodes utilisées dans les probabilités
modernes.
Le chemin que nous avons tracé dans l’ouvrage est le plus court chemin qui a pour point
de départ la définition d’une chaı̂ne de Markov et pour point d’arrivée le calcul effectif des
temps de recouvrement des tores d-dimensionnels. Le contenu de quasiment toutes ces notes
découle de ces deux impératifs, comme pourra le constater un lecteur qui pour comprendre le
résultat final sur les temps de recouvrement, déroulerait patiemment la bobine des résultats
intermédiaires nécessaires à la compréhension du résultat final.
Le problème des temps de recouvrement fournit un exemple caractéristique de la théorie dite
”moderne” des chaı̂nes de Markov. Alors que la théorie dite classique des chaı̂nes de Markov
était centrée sur la vitesse de convergence en temps long d’une chaı̂ne donnée vers sa mesure
stationnaire, la théorie moderne consiste plutôt à considérer des familles de chaı̂nes de Markov
dont l’espace d’état croit, et à estimer pour ces familles des quantités caractéristiques (ici le
temps de recouvrement, c’est-à-dire le temps mis par un marcheur aléatoire sur un graphe pour
visiter chaque sommet du graphe) lorsque la taille de l’espace d’état tend vers l’infini. Cette
théorie moderne est développée depuis les années 80 et elle est motivée par des applications en
algorithmique et physique statistique.
Mentionnons les quelques résultats essentiels contenus dans ce cours :
— tout d’abord, le théorème de convergence des chaı̂nes de Markov (et sa démonstration
en particulier, hautement généralisable),
— la représentation des mesures stationnaires par les fonctions de Green (attribuée à
Aldous-Fill), qui justifie l’approche probabiliste,
— la représentation probabiliste des extensions harmoniques au moyen des chaı̂nes de Mar-
kov stoppées en un temps d’arrêt (problème de Dirichlet),
— l’équivalence entre les chaı̂nes réversibles et les réseaux électriques, qui culmine avec le
principe de Thomson (une description énergétique/variationnelle des fonctions harmo-
niques),
— l’identité du temps de transport (qui motive pour beaucoup l’intérêt de la résistance
équivalente) et la borne de Matthews.
L’objectif de ces notes est d’aider l’élève à délimiter les notions du livre dont nous ferons
usage plutôt que de se substituer à la lecture du dit ouvrage ; Nous conseillons la lecture parallèle
des chapitres 1, 2, 9, 10 et 11 de l’ouvrage de Levin Peres pour approfondir les notions du cours.
Mes remerciements aux étudiants de L3 MFA d’Orsay promotion 2017-2018, Damien Gi-
1. le calcul du temps de recouvrement du tore fait l’objet d’une publication en 2004, Dembo, A., Y. Peres,
J. Rosen, and O. Zeitouni. 2004. Cover times for Brownian motion and random walk in two dimensions, Ann.
Math. 160, 433-464
3
rault et Léo Hahn-Leclerc, dont le mémoire ”Chaı̂nes de Markov et Arbres couvrants aléatoires”
a fourni une base solide à ces notes et stimulé l’écriture de celles-ci.
Notations :
N = {0, 1, 2, 3, . . .}, N? = N \ {0}, Z = {. . . , −2, −2, 0, 1, 2, . . .}, R =] − ∞, +∞[ ont leur
signification traditionnelle (française), et l’ordre total ≤ dont ces ensembles sont munis (ainsi
que sa version stricte <) également ; en revanche, le symbole d’inclusion ⊂ fera toujours référence
à une inclusion large d’ensembles, c’est-à-dire avec égalité possible (et on précisera en toute
lettre le cas d’une inclusion stricte). Aussi, par souci de légèreté, la probabilité conditionnelle
P(B∩C) sera quelquefois abrégée en P(B, C), de même pour les probabilités conditionnnelles où
P(A|B, C) pourra remplacer P(A|B ∩ C). Si S est un ensemble, #S et |S| sont deux notations
pour son cardinal.
Enfin, par souci de concision et de clarté, on ne précisera pas en général l’espace sur lequel
sont définies nos variables aléatoires (Ω ayant déjà un rôle autre), ni la tribu dont on munit cet
espace : dans le cas d’un espace d’état discret, ces notions n’ont que peut d’intérêt et ne posent
pas de difficultés.
4
Table des matières
1 Matrices stochastiques 7
1.1 Le semi-groupe des matrices stochastiques. . . . . . . . . . . . . . . . . . . . . . 7
1.2 L’ensemble des mesures stationnaires . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définition et existence d’une mesure stationnaire . . . . . . . . . . . . . . 8
1.2.2 Unicité de la mesure stationnaire et irréductibilité . . . . . . . . . . . . . 10
1.3 Convergence et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Matrices stochastiques et réversibilité . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Spectre et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Irréductibilité et matrice triangulaire par blocs. . . . . . . . . . . . . . . 16
5
6 TABLE DES MATIÈRES
Chapitre 1
Matrices stochastiques
C’est un jour pluvieux sur le plateau de Saclay. Et on se prend à regretter le bon vieux
temps des khôlles quotidiennes. Et si l’on multipliait des matrices ? Mais pas n’importe quelles
matrices, des matrices...stochastiques 1 .
Définition 1.1. On appelle matrice stochastique sur Ω une matrice P = (P (x, y))x,y∈Ω carrée
dont les entrées sont positives et dont les lignes somment à 1 c’est-à-dire :
1. Pour tout x, y ∈ Ω, P (x, y) ≥ 0.
P
2. Pour tout x ∈ Ω, y∈Ω P (x, y) = 1.
Remarque 1.2. Noter qu’une matrice stochastique n’a rien d’aléatoire, contrairement à ce que
son nom peut laisser penser. Le lien avec l’aléa sera explicité en Section 2.
Si Q = Q(x, y)x,y∈Ω est une autre matrice indicée par Ω, on rappelle que le produit matriciel
P Q est défini par X
P Q(x, z) = P (x, y)Q(y, z),
y∈Ω
Lemme 1.3. Si P et Q sont deux matrices stochastiques sur Ω, alors P Q est encore une
matrice stochastique.
P P P P P
Démonstration.
P La positivité est immédiate, et z P Q(x, z) = z ( y P (x, y)Q(y, z)) = y P (x, y)( zQ
y P (x, y) = 1.
En conséquence, la famille obtenue en considérant les produits successifs de P par elle-même,
c’est-à-dire la famille (P t )t∈N , est une famille de matrices stochastiques. (Pour t = 0, on obtient
P 0 , par convention la matrice identité, qui est aussi stochastique). L’ensemble des matrices
1. Attention, ces matrices dites stochastiques n’ont rien d’aléatoire !
7
8 CHAPITRE 1. MATRICES STOCHASTIQUES
stochastiques forme un ensemble compact (en tant que sous-ensemble fermé borné d’un espace
euclidien - on rappelle l’hypothèse clef que Ω est fini), donc la suite (P t )t∈N admet des points
d’accumulation. (La dimension étant finie, le choix de la norme n’est pas important). On se
demande dans la suite de ce chapitre quand l’ensemble des points d’accumulation est réduit à
un point, c’est-à-dire quand la suite converge.
P 1= 1,
P Il s’agit d’une égalité entre vecteurs lignes : pour tout y ∈ Ω, πP (y) = π(y), avec (πP )(y) =
x π(x)P (x, y).
Insistons sur le fait que notre espace d’état est fini. Quand ce n’est pas le cas, IP peut être
vide, il peut ne pas exister de mesure de probabilité stationnaire : considérer l’exemple de la
matrice stochastique associée au shift vers la droite sur Z (infini), donné par P (x, y) = 1y=x+1
pour tout x, y ∈ Z, est à cet égard instructif : seule la mesure de comptage et ses multiples sont
des mesures stationnaires, mais elles ne sont pas de probabilité.
Première preuve de la Proposition 1.8. Soit µ mesure de probabilité sur Ω. Posons, pour t ∈ N,
Pt−1
1
νt = t s=0 µP s . L’intérêt de cette expression est que la différence fait apparaı̂tre une somme
télescopique :
t t−1
1X s 1X 1
νt P − νt = µP − µP i = (µP t − µ).
t s=1 t s=0 t
Soit x ∈ Ω. On a
1 1 2
|νt P (x) − νt (x)| = |µP t (x) − µ(x)| ≤ (|µP t (x)| + |µ(x)|) ≤ .
t t t
De plus, la suite (νt )t∈N est à valeurs dans [0, 1]Ω qui est un compact. On peut donc extraire
une sous-suite (νtk ) qui converge vers une limite ν, avec tk → ∞ avec k par définition. On a
alors |νtk P (x) − νtk (x)| ≤ t2k , et l’on conclut par continuité que νP (x) = ν(x).
Lemme 1.9 (Lemme de Perron Frobenius). Soit P matrice stochastique sur Ω qui admet
un vecteur propre à gauche µ pour une valeur propre α de module 1. Alors le vecteur |µ| =
(|µ(x)|)x∈Ω est un vecteur propre à gauche pour la valeur propre 1.
P
Démonstration. Notons que α · µ(y) = x µ(x)P (x, y) implique, pour chaque y ∈ Ω,
X X
|µ(y)| = |α| · |µ(y)| = |αµ(y)| = | µ(x)P (x, y)| ≤ |µ(x)|P (x, y)
x x
P
Partant, |µ(y)| = x |µ(x)|P (x, y) vaut pour tout y ∈ Ω.
alors les mesures π1 et π2 se prolongent sur Ω (en attachant la mesure nulle aux ensembles
sur lesquelles elles ne sont pas définies) et ces deux mesures sont deux mesures de probabilité
stationnaires distinctes. La question de l’unicité de la mesure invariante réclame donc une
nouvelle définition.
Définition 1.10. On dit que P est irréductible lorsque, pour tout x, y ∈ Ω, il existe t =
t(x, y) ∈ N tel que P t (x, y) > 0.
Si une matrice (stochastique) qui ne comporte que des coefficients strictement positifs est
évidemment irréductible (prendre t = 1 pour chaque couple x, y), les matrices stochastiques
qui nous intéressent en pratique comprennent beaucoup de 0, ce sont typiquement des matrices
d’adjacence de graphes dits dilués (sparses
en anglais), c’est-à-dire des graphes à n sommets qui
comptent O(n) arêtes (à comparer aux n2 = O(n2 ) arêtes possibles dans un tel graphe) : penser
aux matrices d’adjacence de n-cycles, ou du produit cartésien d’un nombre fini de n-cycles.
La définition suivante introduit la notion de fonction harmonique, qui ”précise” de façon
plus locale la notion de vecteur propre à droite pour la valeur propre 1.
En particulier, h harmonique sur Ω est donc un vecteur propre à droite pour P . L’irréductibilité
a une implication immédiate sur l’espace propre associé à la valeur propre 1, et permet de
préciser le lemme 1.4.
Proposition 1.12. Soit P irréductible. Si h est harmonique sur Ω entier, alors h est constante.
En d’autres termes,
Ker(P − I) = Vect(1) .
Démonstration. Soit x ∈ Ω qui maximise h, et y ∈ Ω. Il existe t ∈ N tel que P t (x, y) > 0. Ainsi :
h(x) = P t h(x) = z P t (x, z)h(z) implique, pour tout z tel que P t (x, z) > 0, h(z) = h(x). Ceci
P
vaut en particulier pour y.
Lemme 1.13 (Positivité). Soit P irréductible. Si π ∈ IP , alors pour tout x ∈ Ω, π(x) > 0.
P
Démonstration. Puisque π est une mesure de probabilité, z∈Ω π(z) = 1 donc il existe y ∈ V
tel que π(y) > 0. Soit maintenant x ∈ Ω. P est irréductible donc il existe t = t(y, x) ∈ N tel
que P t (y, x) > 0. Donc
X
π(x) = π(z)P t (z, x) ≥ π(y)P t (y, x) > 0.
z∈V
La question de l’unicité de la mesure stationnaire est dès lors très vite tranchée.
1.3. CONVERGENCE ET PÉRIODICITÉ 11
d’où l’on tire qu’il y a en fait égalité dans l’inégalité : pour tout z ∈ Ω, π1 (z)/π2 (z)P t (z, x) =
π1 (x)/π2 (x)P t (z, x) et dans le cas de y, on peut simplifier pour obtenir π1 (y)/π2 (y) =
π1 (x)/π2 (x). Ceci étant valable pour tout y, l’application z 7→ π1 (z)/π2 (z) est constante
et donc π1 et π2 sont deux mesures de probabilité proportionnelles, c’est-à-dire égales.
2. Le résultat sur les fonctions harmoniques implique Ker(P − I)=Vect(1) (alors qu’on
savait seulement dans la deuxième preuve de la Proposition 1.8 que dim Ker(P −In ) ≥ 1),
et les mêmes arguments (théorème du rang et transposée) impliquent que dim(Ker((P −
I)| ))= 1, donc il y a au plus une mesure de probabilité stationnaire (il faut encore que
les coordonnées soient positives ou nulles, et c’est Perron-Frobenius qui garantit ce fait).
Une obstruction claire à l’irréductibilité est par exemple la présence d’etats absorbants au
sens suivant :
Définition 1.15. Soit P matrice stochastique sur Ω. Un état x ∈ Ω est dit absorbant pour P
si P (x, x) = 1.
Lemme 1.16. S’il existe un état absorbant pour P , alors P n’est pas irréductible.
Démonstration. En effet, puisque P (x, x) = 1, et si y 6= x, alors pour tout t ∈ N, P t (x, y) ≤
t t
P
z6=x P (x, z) = 1 − P (x, x) = 1 − 1 = 0.
Définition 1.17. Soit x ∈ Ω. On pose T (x) : ={t ∈ N, P t (x, x) > 0} et on appelle période de
x l’entier pgcd(T (x)).
Le pgcd d’un sous-ensemble non vide S de N est le plus grand des diviseurs communs de S
(qui existe bien puisque cet ensemble est non vide - il contient 1 - et majoré - par le plus petit
élément de S), c’est-à-dire le maximum de l’ensemble AS = {a ∈ N? , S ⊂ aN}. Par le théorème
de Bachet Bézout, si Z[S] désigne l’ensemble des combinaisons linéaires à coefficients entiers
relatifs d’éléments de S, alors
Z[S] = g.Z, où g = pgcd(S).
Proposition 1.18. Soit P stochastique irréductible. Les éléments de Ω ont tous la même
période.
Démonstration. Soient x, y ∈ Ω. Il suffit de démontrer que pgcd(T (x)) = pgcd(T (y)). P est
irréductible donc il existe t1 , t2 ∈ N tels que P t1 (y, x) > 0 et P t2 (x, y) > 0. On pose t0 = t1 + t2 .
Alors, si t ∈ T (x).
X
P t0 +t (y, y) = P t1 (y, z)P t (z, z)P t2 (z, y) ≥ P t1 (y, x)P t (x, x)P t2 (x, y) > 0,
z∈Ω
Proposition 1.21. Si P est irréductible apériodique, alors il existe ε > 0 et t0 ∈ N tel que
Attention, l’ordre des quantificateurs est clef dans cette proposition ! La preuve de la pro-
position nécessite un lemme d’arithmétique, que nous ne démontrerons pas (voir par exemple
le livre de Levin Peres) :
#(N \ S) < ∞,
Démonstration de la Proposition 1.21. Soit x ∈ Ω. Observons que T (x) est stable par somme
et que pgcd(T (x)) = 1 par apériodicité. Le lemme de Schur assure alors qu’il existe t(x) tel que
pour tout t ≥ t(x), t ∈ T (x). De plus, pour tout y ∈ Ω, toujours par irréductibilité, il existe
t(x, y) ∈ N tel que P t(x,y) (x, y) > 0. Donc, pour tout t ≥ t(x) + t(x, y), P t (x, y) > 0. Ainsi,
pour t0 := maxx∈Ω (t(x) + maxy∈Ω t(x, y)), on a pour tout x, y, P t0 (x, y) > minx,y P t0 (x, y) > 0
en utilisant que l’espace d’état est fini.
Il reste maintenant un petit pas pour arriver au théorème de convergence, qui est le résultat
fondamental de ce chapitre, sinon du cours. On note btc la partie entière de t (définie de façon
unique par les deux propriétés : btc ≤ t < btc + 1 et btc ∈ Z).
Theorème 1.23. Soit P matrice stochastique irréductible apériodique, et π son unique mesure
stationnaire. Pour ε et t0 qui satisfont (1.4), on a pour tout (x, y) ∈ Ω2 ,
X
|P t (x, y) − π(y)| ≤ 2(1 − ε)bt/t0 c .
y
Ce résultat implique que P t (x, y) admet quand t → ∞ une limite π(y) qui ne dépend pas
de l’entrée x. En termes de matrice, P t converge donc vers la matrice de rang 1 (on rappelle
que le rang d’une matrice est la dimension de l’image de l’application linéaire associée) dont
les lignes sont toutes égales à π. Cette matrice est bien sûr encore une matrice stochastique,
puisque cet ensemble est fermé. Si l’on sait que t0 et ε existent de la propriété d’apériodicité, il
importe en pratique de trouver des valeurs numériques de façon à maximiser (1 − ε)1/t0 : c’est
ce qui est difficile. Le fait que la vitesse de convergence soit toujours exponentielle est encore
une simplification liée à notre espace d’état fini.
Démonstration d’après Aldous–Diaconis. On pose Π la matrice carrée dont toutes les lignes
sont égales à π, et on vérifie immédiatement que P Π = ΠP = Π (seule la deuxieme identité
requiert π ∈ IP ). Pour ε et t0 fournis par la relation 1.21, on définit par la relation :
P t0 = εΠ + (1 − ε)Q
une matrice Q à coefficients positifs ou nuls, dont on vérifie sans souci qu’elle est stochastique.
De plus, multipliant à gauche par Π, on a Π = εΠ + (1 − ε)QΠ d’où QΠ = Π. Et multipliant
à droite par Π, on a : Π = εΠ + (1 − ε)QΠ d’où ΠQ = Π. Soit k ∈ N. Ces deux relations
14 CHAPITRE 1. MATRICES STOCHASTIQUES
= (1 − ε) Q + Π − (1 − ε)k Π
k k
= (1 − ε)k (Qk − Π) + Π.
Il faut aussi prendre en compte le reste que peut laisser la division euclidienne d’un entier
arbitraire par t0 . Pour r ∈ {0, . . . , t0 − 1}, on forme donc la différence
Ainsi y |P t0 k+r (x, y) − π(y)| ≤ (1 − ε)k y |Qk P r (x, y) − π(y)| ≤ 2(1 − ε)k en notant que
P P
Qk P r est stochastique.
Une analyse de la démonstration montre que la propriété clef est la minoration ”pour tout
x, y ∈ Ω, P t0 (x, y) ≥ ε ≥ επ(y).” C’est l’inégalité entre les membres extrêmaux que l’on utilise
dans la preuve, c’est aussi celle qui s’étend aux espaces d’états infinis (en effet, la première de
ces deux inégalités ne peut avoir lieu lorsque Ω est infini pour une probabilité (sommer sur y)).
Nous verrons enfin en TD que les itérées successives (P t )t∈N convergent toujours au sens de
Césaro, et ceci sans faire aucune hypothèse d’apériodicité en particulier, c’est -à-dire que :
s
P
0≤s<t P
−→ Π quand t → ∞.
t
De plus, chaque ligne de la matrice limite Π fournit une mesure stationnaire de P (mais si l’on
ne suppose pas l’irréductibilité de P , ces mesures ne sont pas forcément égales).
Définition 1.24. Soit P stochastique et π une mesure sur Ω. P est dite réversible par rapport
à π si pour tout x, y ∈ Ω
π(x)P (x, y) = π(y)P (y, x). (1.5)
Par extension, on dira simplement que P est réversible s’il existe une mesure de probabilité π
tel que P soit réversible par rapport à π.
1.4. MATRICES STOCHASTIQUES ET RÉVERSIBILITÉ 15
Noter que l’équation (1.5) est automatiquement vérifiée sur la diagonale {x = y} : il suffit
donc de la vérifier pour x 6= y. Noter que la réversibilité de P par rapport à π est équivalente
à l’énoncé : pour tout x1 , . . . , xn ∈ Ωn ,
π(x1 )P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = π(xn )P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 )
qui implique, si P est irréductible (à l’aide du lemme 1.13) et si x1 = xn , que
P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 ) (1.6)
Réciproquement, on peut vérifier que si tout suite x1 . . . xn ∈ Ωn avec x1 = xn satisfait (2.1),
alors P est réversible. C’est le critère dit de Kolmogorov, qui permet de vérifier la réversibilité
sans connaı̂tre π. C’est un exercice intéressant (non trivial) que de prouver ce critère.
L’intérêt de la réversibilité est exprimée par la proposition ci dessous :
Proposition 1.25. Si P est réversible par rapport à π, alors π est une mesure stationnaire
pour P .
Démonstration. Soit x ∈ Ω. Il suffit d’appliquer la définition :
X X
πP (x) = π(y)P (y, x) = π(x)P (x, y) = π(x)
y∈V y∈V
1.5 Compléments
1.5.1 Spectre et périodicité
La périodicité d’une matrice stochastique a une traduction spectrale simple en terme des
valeurs propres de module 1. On rappelle que, pour a ∈ N? , ω ∈ C une racine a-ième de l’unité
si ω a = 1. L’ensemble des racines a-ièmes de l’unité est explicite, il s’agit de
2ikπ
{e a , k ∈ {0, . . . , a − 1}}.
Démonstration. Supposons T (x) ⊂ aN et soit ω une racine a-ième de l’unité. Soit x0 ∈ Ω et,
pour k ∈ {0, . . . , a − 1},
Supposons réciproquement ω valeur propre de P et montrons que T (x) ⊂ aN. Soit v vecteur
propre associé à la valeur propre ω, et choisissons x0 tel que |v(x0 )| = maxy |v(y)|. Soit k ∈
{0, . . . , a − 1}. Quitte à multiplier la vecteur par un complexe, on peut supposer v(x0 ) = ω −k
et alors, pour tout y ∈ Ω, |v(y)| ≤ |v(x0 )| = 1. Soit alors t ∈ aN + k ,
X
1 = ω k v(x0 ) = ω t v(x0 ) = P t v(x0 ) = P t (x0 , y)v(y)
y∈V
Maintenant une somme pondérée (par une mesure de probabilité) de complexes de module
inférieurs ou égal à 1 ne peut valoir 1 que si tous les complexes valent, c’est-à-dire que P t (x0 , y) >
0 implique v(y) = 1. En particulier, P t (x0 , x0 ) = 0. Comme ceci vaut pour tout t ∈ aN + k, on
en déduit bien T (x0 ) ⊂ aN.
Définition 1.29. On dit qu’une matrice M indicée par Ω est triangulaire par blocs s’il existe
k ≥ 2 et Ω1 , . . . , Ωk une partition de Ω 3 telle que :
Si M est triangulaire par blocs, alors toute puissance de M est encore triangulaire par blocs.
Dès lors :
3. collectionSd’ensembles deux à deux disjoints dont la réunion est égale à l’ensemble Ω entier : i 6= j ⇒
Ωi ∩ Ωj = ∅ et i Ωi = Ω
1.5. COMPLÉMENTS 17
Remarque 1.30. Si P matrice stochastique est triangulaire par blocs, alors P n’est pas
irréductible.
La réciproque est fausse en général : il est possible de trouver des matrices non triangulaires
par bloc et qui ne sont pas irréductibles, considérer par exemple la matrice stochastique
1/2 1/2
P =
0 1
En revanche (preuve laissée au lecteur), sous une hypothèse naturelle, on a la réciproque :
La condition est par exemple vérifiée par les matrices symétriques (donc les matrices de
transition sur des graphes non dirigés), puisqu’alors P t (x, y) = P t (y, x). Noter que l’implication
au coeur de l’hypothèse ne dit surtout pas( !) que P est irréductible.
18 CHAPITRE 1. MATRICES STOCHASTIQUES
Chapitre 2
On se propose dans ce chapitre d’explorer le lien entre les evolutions aléatoires connues sous
le nom de chaı̂nes de Markov et les matrices stochastiques étudiées dans le chapitre 1. L’ap-
proche classique des chaı̂nes de Markov commence par énoncer une propriété d’indépendance
conditionnelle, dite propriété de Markov, puis de montrer que cette propriété définit des suites
de variables aléatoires dont l’évolution à un pas est décrite par une matrice stochastique. Nous
prenons la chose à revers en définissant les chaı̂nes de Markov par leur loi exprimée au moyen
d’une matrice stochastique.
Un cas d’étude important sera l’étude des marches aléatoires sur des graphes finis, qui se
trouve relié aux matrices stochastiques réversibles.
19
20 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES
sont par définition les plus petite tribus sur ΩN qui rende chacune des projections mesurables.
Ces deux tribus sont égales (le montrer), et sont appelées la tribu cylindrique. Celle-ci n’est pas
la tribu de toutes les parties de ΩN . Notons que, pour s fixé, la tribu σ{π≤s } est explicite :
A ∈ σ{π≤s } ssi il existe B ∈ Ωs+1 tel que A = (π≤s )−1 (B) = {x = (xt )t≥0 , π≤s (x) ∈ B}.
est dans la tribu cylindrique puisqu’il admet l’expression suivante, en terme de réunions et
d’intersections dénombrables :
Maintenant, le modèle probabiliste depuis Kolmogorov est le suivant. On suppose qu’il existe
un espace probabilisé (bien souvent non explicite), (E, F , P), appelé l’espace des événements,
et une application mesurable
Ce qu’on appelle alors loi de X1 est la mesure image de P par l’application ω 7→ X1 (ω),
c’est une mesure de probabilité sur Ω, notée P(X1 ∈ ·) = P({ω : X1 (ω) ∈ ·}). En tant que
mesure de probabilité sur un espace fini, cette mesure est tout simplement caractérisée par la
collection des nombres (P(X1 = k))k∈N . Dire que l’application (2.1) est mesurable, c’est dire
que pour tout ensemble A de la tribu cylindrique sur ΩN ,
{ω : (Xt )t (ω) ∈ A} ∈ F ,
Définition 2.1. Pour tout t ∈ N, on pose Ft = σ{X0 , X1 , . . . , Xt } la plus petite sous tribu
qui rend mesurable les applications coordonnées X0 , X1 , . . . , Xt , et F∞ la plus petite tribu qui
comprend tous les Ft pour t ∈ N.
2.1. CONSTRUCTION DES CHAÎNES 21
(Point de détail : F∞ n’est pas nécessairement égal à ∪t≥0 Ft ; en effet, une réunion de tribus
n’est pas en gńéral une tribu). Pour chaque t, Ft est une sous tribu de F , et la suite (Ft )t∈N
est une suite croissante de sous-tribus de F . On peut alors montrer le résultat fondamental
suivante : dire qu’une fonction F : E → R est une fonction Ft -mesurable signifie alors qu’il
existe une fonction mesurable de G : Ωt+1 → R telle que
F (ω) = G(X0 (ω), . . . , Xt (ω)).
On définit la loi d’une chaı̂ne de Markov en définissant une mesure de probabilité sur (Ft ).
Pour cela il suffit de définir la mesure des cylindres. Le théorème suivant est aussi une définition.
Nous omettons sa démonstration 1 .
Theorème 2.2. Soit µ mesure de probabilité sur Ω et P matrice stochastique sur Ω. La pro-
priété
t
!
\
∀t ∈ N, (xs )0≤s≤t ∈ Ωt+1 , P {Xs = xs } = µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt ) (2.2)
s=0
définit de façon unique la loi d’une suite de variables aléatoires (Xt )t∈N . Cette suite est la chaı̂ne
de Markov de distribution initiale µ et de matrice de transition P .
Rappelons la notation δx pour la masse de Dirac en x, définie par
δx (A) = 1A (x) pour tout x ∈ Ω, A ⊂ Ω.
Si la chaı̂ne de Markov est définie sur un espace probabilisé dont la mesure de probabilité est
notée P, on notera Pµ par un léger abus 2 la loi de la chaı̂ne de Markov issue de µ, et si µ = δx ,
on note simplement Px = Pδx la loi de la chaı̂ne issue de x,
Lemme 2.3. Soit µ mesure de probabilité sur Ω. On a la décomposition :
X
Pµ = µ(x)Px
x∈Ω
Tt
Démonstration. Il suffit de le vérifier pour un événement A = s=0 {Xs = xs }
X X t
\
µ(x)Px (A) = µ(x)Px ( {Xs = xs })
x∈Ω x∈Ω s=0
X
= µ(x)1{x} (x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
x∈Ω
= µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
t
\
= Pµ ( {Xs = xs })
s=0
= Pµ (A).
2.1.1 Examples
Variables aléatoires iid Il est utile de comparer la forme de la loi des chaı̂nes de Markov à
celle de la loi d’une suite de variables aléatoires indépendantes de loi µ :
t
!
\ Y
t+1
∀t ∈ N, (xs )0≤s≤t ∈ Ω , P {Xs = xs } = µ(xs ),
s=0 0≤s≤t
on voit ainsi, en comparant avec (2.2), que les chaı̂nes de Markov introduisent une première
forme de dépendance entre les différentes coordonnées de la suite. On note aussi que cette suite
définit une chaı̂ne de Markov (certes peu intéressante du point de vue de ce cours) de mesure
initiale et de matrice de transition respectivement données par :
Marche aléatoire simple sur un graphe non dirigé Un autre exemple est fourni par
une la marche aléatoire (simple) sur un graphe non dirigé 3 G = (V, E). L’ensemble de sommets
est V et d’ensemble d’arêtes est E (un sous-ensemble des parties de V à deux éléments). Pour
alléger les notations on note x ∼ y si {x, y} ∈ E. On suppose que le graphe G est sans sommet
isolé, c’est à dire que pour tout x ∈ V , il existe y ∈ V tel que x ∼ y. Notons qu’on peut avoir
x ∼ x : cela signifie que la boucle {x, x} appartient à l’ensemble des arêtes. Alors la matrice de
transition de la marche aléatoire sur le graphe est définie par :
1x∼y X
P (x, y) = avec deg(x) = 1x∼y
deg(x) y∈V
Alors !
t
\ 1 1
P {Xs = xs } = P(X0 = x0 ) · ... · 1x ∼x ∼...xt−1 ∼xt
s=0
deg(x0 ) deg(xt−1 ) 0 1
Marche aléatoire sur Ω Cela concerne la cas où Ω est un groupe additif, de sorte qu’on
puisse faire des additions d’éléments de Ω (pour les cas finis, on peut penser à Z/nZ =
{0, 1, . . . , n − 1} ou même (Z/n/Z)d ; le cas le plus naturel est bien sûr celui de Zd , qui n’est
pas un graphe fini, mais poser la définition suivante ne pose cependant aucun problème). On
pose alors la matrice de transition :
Alors !
t
\
P {Xs = xs } = P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 ) (2.3)
s=0
La variable aléatoire X0 étant donnée, on peut construire comme suit cette chaı̂ne à partir
d’une suite de variables aléatoires i.i.d. (Yt )t∈N de loi η, indépendante de X0 . On pose pour tout
t∈N
Xt+1 = Xt + Yt .
3. l’adjectif ”non dirigé” a son importance, car toute chaı̂ne de Markov peut être vue comme une marche
aléatoire sur un graphe dirigé
2.1. CONSTRUCTION DES CHAÎNES 23
Alors 2.3 vaut en t = 0 par hypothèse, et si elle vaut en t, on la montre comme suit en t + 1 :
t+1
! t
!
\ \
P {Xs = xs } =P {Xs = xs } ∩ {Xt + Yt = xt+1 } par définition de Xt+1
s=0 s=0
t
!
\
=P {Xs = xs } ∩ {xt + Yt = xt+1 }
s=0
t
!
\
=P {Xs = xs } P(Yt = xt+1 − xt ) par indépendance
s=0
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 )η(xt+1 − xt ) par la récurrence
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt+1 − xt )
X t
\
= Px {Xs = xs } car la réunion est disjointe
(xs )0≤s≤t−1 ∈Ωt s=1
X t−1
Y
= P(X0 = x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0
X t−1
Y
= δx (x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0
X
= P (x, x1 )P (x1 , x2 ) . . . P (xt−1 , y)
(xs )1≤s≤t−1 ∈Ωt
Il s’ensuit que
X
µP t f (x) = µ(x)P t (x, y)f (y) par définition de µP t f
x,y∈Ω
X
= µ(x)Px (Xt = y)f (y) vu le résultat précédent
x,y∈Ω
X
= µ(x)Ex [f (Xt )]
x∈Ω
= Eµ [f (Xt )].
On reformulera en guise d’exercice la version probabiliste des résultats vus pour les ma-
trices stochastiques, en particulier du théorème de convergence (on connaı̂t plusieurs modes de
convergence pour les suites de variables aléatoires, convergence p.s., convergence en probabilité,
convergence en loi : à quel type de convergence correspond-il ?).
ce qui a l’avantage de ne pas demander à ce que P(Xt = x ∩ Ht−1 ) > 0, c’est-à-dire que le
conditonnement soit bien défini. Intuitivement, la propriété de Markov énonce une propriété
d’indépendance conditionnelle parfois ainsi formulée : ”le futur est indépendant du passé condi-
tionnellement au présent”.
Remarque 2.6. Pour être précis, c’est la propriété de Markov dite homogène que nous ve-
nons de présenter. La propriété de Markov inhomogène autorise de plus une dépendance
des transitions en t, dans le sens où le membre de droite de (2.4) se trouve remplacé par :
P(Xt+1 = y | Xt = x).
Notons d’ors et déjà que si (X0 , X1 ) est un couple de variables aléatoires, alors
P (x, y) : = P(X1 = y | X0 = x)
définit une matrice stochastique. On obtient directement le lien entre chaı̂ne de Markov et
propriété de Markov, exprimé dans le théorème suivant :
Theorème 2.7. — Si une suite de variables aléatoires (Xt )t∈N satisfait la propriété de
Markov, alors c’est une chaı̂ne de Markov de matrice de transition P (x, y) = P(X1 =
y|X0 = x).
— Réciproquement, une chaı̂ne de Markov satisfait la propriété de Markov.
Seule la mesure initiale est laissée indéterminée dans l’énoncé de la propriété de Markov.
2.2. LA PROPRIÉTÉ DE MARKOV 25
Démonstration. Soit t ∈ N, (xs )0≤s≤t ∈ Ωt+1 . Supposons la propriété de Markov vérifiée dans
un premier temps.
t
! t−1
! t−1
!
\ \ \
P {Xs = xs } = P Xt = xt | {Xs = xs } P {Xs = xs }
s=0 s=0 s=0
t−1
!
\
= P (X1 = xt |X0 = xt−1 ) P {Xs = xs }
s=0
t
Y
= P (X1 = xs |X0 = xs−1 ) · P(X0 = x0 ) par récurrence
s=1
Tt−1
Réciproquement si l’on dispose d’une chaı̂ne de Markov, alors si l’on pose Ht−1 = s=0 {Xs =
xs } et xt = x et xt+1 = y, on a :
t+1
!
\
P ({Xt+1 = y} ∩ {Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0
tandis que
t+1
!
\
P ({Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0
On peut facilement obtenir des énoncés plus généraux de la propriété de Markov, d’abord en
étendant le futur de la trajectoire après l’instant t + 1 : la suite de variables aléatoires (Xt )t∈N
satisfait la propriété de Markov ssi pour tout t, r ∈ N, et pour tout (xs )0≤s≤t+r ∈ Ωt+r
r t
! r
!
\ \ \
P {Xt+s = xt+s }| {Xs = xs } = P {Xs = xt+s }|X0 = xt (2.6)
s=1 s=0 s=1
Notons que l’on n’est pas forcé de fixer la valeur de Xt dans (2.7).
26 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES
Et on peut encore écrire cette dernière expression, avec un léger abus de notation :
h i
E F ((Xs )0≤s≤t )EXt G(X)
Dans les applications de la méthode dite à un pas, où on décompose selon les valeurs du premier
pas de la chaı̂ne de Markov, cette égalité est particulièrement utile.
Démonstration du Corollaire. Il suffit de distinguer selon les valeurs de Xt puis d’appliquer
(2.7) :
X
E [F ((Xs )0≤s≤t )G(θt (X))] = E F ((Xs )0≤s≤t )1{Xt =x} G(θt (X))
x∈Ω
X
= E[F ((Xs )0≤s≤t )1{Xt =x} ] Ex G(X)
x∈Ω
h i
= E F ((Xs )0≤s≤t )ϕ(Xt ) , avec ϕ(x) = Ex G(X)
= µP t1 (f1 · P t2 −t1 f2 )
Le produit · désigne le produit usuel des fonctions, c’est-à-dire ici le produit terme à terme des
vecteurs colonnes. Le lecteur pourra s’amuser à titre d’exercice à calculer, pour t1 < t2 < t3 et
f1 , f2 , f3 : Ω → R, la valeur de Eµ [f1 (Xt1 )f2 (Xt2 )f3 (Xt3 )].
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 27
Définition 2.12. On appelle temps d’arrêt une variable aléatoire τ à valeurs dans N telle que
∀t ∈ N, {τ ≤ t} ∈ Ft (2.10)
Noter que notre cadre où le temps est discret, il est équivalent de demander que ∀t ∈ N, {τ =
t} ∈ Ft , ou encore {τ > t} ∈ Ft . Pratiquement, {τ ≤ t} ∈ Ft signifie que, pour tout t ∈ N,
1{τ ≤t} est une fonction mesurable de (Xs , 0 ≤ s ≤ t). On peut exprimer cela sans parler de
tribu engendrée ; cela signifie encore que, pour tout t ∈ N, il existe A ∈ Ωt+1 tel que :
{τ ≤ t} = {(Xs )0≤s≤t ∈ A}
Définition 2.13. On considère une chaı̂ne de Markov (Xt )t∈N , un temps d’arrêt τ et deux
sommets a, x ∈ V . On appelle fonction de Green la fonction définie de la manière suivante
+∞
X
Gτ (a, x) = Pa (Xt = x, τ > t)
t=0
On notera l’inégalité stricte dans {τ > t}. Par Fubini positif, on a l’identité
" +∞ #
X
Gτ (a, x) = Ea 1{Xt =x,τ >t} ,
t=0
c’est-à-dire que la fonction de Green mesure l’espérance du temps passé en x strictement avant
l’instant τ partant de a.
Theorème 2.14 (Théorème du temps d’occupation de Aldous-Fill). Soit (Xt )t∈N une chaı̂ne
de Markov irréductible, et τ un temps d’arrêt qui vérifie
Gτ (a, x)
∀x ∈ Ω, = π(x). (2.12)
Ea [τ ]
28 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES
En toutes lettres : la proportion du temps passé en x avant l’instant τ est égal à la mesure
stationnaire en a, qui quantifie également le temps moyen passé en a par la chaı̂ne dans son
état stationnaire. Le théorème d’Aldous-Fill s’écrit encore :
" τ −1 #
X
Ea 1{Xt =x} = Ea [τ ] Eπ [1{X1 =x} ]
t=0
Remarque 2.15. Ceci peut évoquer le lemme de Wald : si les (Xt , t ∈ N) sont des variables
aléatoires intégrables de même espérance (pas besoin d’indépendance, ni même d’identique
distribution) et N est une variable aléatoire entière intégrable indépendante de la famille des
(Xt )t∈N , alors :
N
X
E[ Xt ] = E[N ] E[X1 ]
t=1
PN P
Pour le prouver, il suffit d’écrire t=1 Xt = t∈N Xt 1t≤N puis de sommer comme suit :
N
X X
E[ Xt ] = E[ Xt 1t≤N ]
t=1 t∈N
X
= E[Xt 1t≤N ]
t∈N
X
= E[Xt ]P(t ≤ N ) par indépendance
t∈N
X
= E[X1 ] P(t ≤ N )
t∈N
= E[X1 ] E[N ]
La différence avec le lemme de Wald est qu’on a à droite Eπ [1{X1 =x} ] et non Ea [1{X1 =x} ] ;
quand aux hypothèses elles sont complètement différentes bien sûr ; en particulier, τ n’est pas
indépendant de la suite de variables aléatoires Xt , bien au contraire.
Nous verrons qu’un exemple de tel temps d’arrêt τ est le temps de retour en a dont la
définition est donnée en 2.16.
découle de (2.8) avec A = {τ > t} ∈ σ{(Xs )0≤s≤t } par définition d’un temps d’arrêt (c’est ici
qu’on utilise cette propriété de façon cruciale). Soit maintenant y ∈ Ω. C’est un calcul, long
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 29
Ainsi
X Gτ (a, x) Gτ (a, y)
P (x, y) = ,
x∈Ω
Ea [τ ] Ea [τ ]
et l’unicité de la mesure de probabilité stationnaire, qui découle d’après la proposition 1.14 de
l’hypothèse d’irréductibilité, permet de déduire (2.12).
Voici les deux exemples canoniques de temps d’arrêt (vérifier qu’il s’agit effectivement de
tels temps) :
Définition 2.16. Soit A ⊂ Ω, et x ∈ Ω. Le temps d’atteinte de A et le temps de retour en A
sont respectivement définis par
Ce résultat est d’autant plus remarquable qu’il n’existe pas de façon simple d’obtenir Ea [τb ]
pour a 6= b en général (on verra plus tard une approche dans le cas des graphes réversibles et
transitifs). On notera aussi que cette représentation est purement probabiliste (essayer d’expri-
mer la quantité Ea [τa+ ] à l’aide du semigroupe P t pour s’en persuader).
Cette représentation de π au moyen de τ + est des plus satisfaisantes. Elle permet notamment
d’avoir accès au calcul de Ea [τa+ ] lorsque la mesure stationnaire est connue ; cependant, pour
calculer Ea [τb+ ] dans le cas où a 6= b, il va nous falloir développer une autre stratégie. De
façon peut-être surprenante, c’est en mobilisant nos connaissances en électricité que nous allons
pouvoir répondre à cette question dans le chapitre suivant.
Proposition 2.18. Si la matrice de transition P de la chaı̂ne de Markov (Xt )t≥0 est irréductible
sur Ω, alors quelque soit x, y ∈ Ω
Notons que la preuve ci-dessous donne en fait des bornes pour le majorant..
Démonstration. On commence par montrer la propriété sur les temps d’atteinte. La propriété
sur les temps de retour en découlera ensuite. Notons t(x, y) l’entier tel que P t (x, y) > 0, dont
l’existence nous est assurée par la définition de l’irréductibilité. On fixe alors y et on choisit
t = maxx t(x, y) de sorte que
t
[
Px (τy ≤ t) = Px ( {Xs = y}) ≥ Px (Xt(x,y) = y)
s=0
conclut la preuve. Pour ce qui est des temps de retour on note que si x 6= y, alors Px (τy+ = τy ) = 1
d’où Ex [τy+ ] = Ex [τy ] < ∞ dans ce cas. Ensuite, pour le cas restant, on a, à l’aide de la
proposition 2.19 ci-dessous, que :
X
Ey [τy+ ] = 1 + P (y, x)Ex [τy ] ≤ 1 + max Ex [τy ] < ∞
x
x
Proposition 2.19. Soit A ⊂ Ω. Le temps de retour τA+ en A d’une chaı̂ne de Markov (Xt )t∈N
de matrice de transition P = (P (x, y))x,y∈Ω satisfait :
X
Ex [τA+ ] = 1 + P (x, y)Ey [τA ].
y
Notons que la proposition ne suppose pas l’irréductibilité, mais il est alors possible que les
deux termes soient simultanément infinis.
Démonstration. On note que τA+ = τA ◦ θ + 1 puis
Ex [τA+ ] = Ex [τA ◦ θ + 1]
X
= Ex [τA ◦ θ + 1, X1 = y]
y
X
= P (x, y)Ey [τA + 1] par 2.9
y
où (θ ◦ X)τA signifie (X ◦ θ)τA (θ◦X) , puis il en découle, si l’on pose F (X) = 1{XτA =z} :
Px (Xτ + = z) = Ex [F (θ ◦ X)]
A
X
= P (x, y)Ey [F (X)] de 2.9
y
X
= P (x, y)Py (XτA = z),
y
P
et l’égalité avec les espérances découle de l’expression générale E[f (Y )] = y∈Ω P(Y = y)f (y).
32 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES
C’est la marche aléatoire des gains d’un joueur qui joue à un jeu équilibré, gagne ou perd 1 à
chaque tour de jeu et s’arrête lorsqu’il atteint un gain de n ou lorsqu’il atteint 0 et n’a plus
d’argent à parier. On s’intéresse au temps aléatoire τ = min{t ≥ 0, Xt ∈ {0, n}} ∈ N ∪ {∞}
qui est le premier temps où le joueur atteint la fortune 0 (il a perdu) ou n (il a gagné).
1. Le temps aléatoire τ est-il fini p.s. ?
2. Dans ce cas, admet-il une espérance finie ?
3. Toujours dans ce cas, quelle est la loi de la variable aléatoire Xτ (définie sur l’événement
{τ < ∞}), qui rend compte du gain final ?
La méthode présentée ci dessous, dite méthode à un pas, est une méthode récursive sur la
position initiale de la chaı̂ne. L’opérateur de shift θ = θ1 défini par (θ ◦ X)t = Xt+1 , peut être
composé avec τ = τ (X) pour donner
Ek [τ ] = Ek [τ ◦ θ + 1]
= Ek [τ ◦ θ + 1, X1 = k + 1] + Ek [τ ◦ θ + 1, X1 = k − 1]
= P (k, k + 1)Ek+1 [τ + 1] + P (k, k − 1)Ek−1 [τ + 1]
1
= (h(k + 1) + h(k − 1)) + 1
2
identité qui vaut dans [0, ∞]. Les conditions au bord sont h(0) = h(n) = 0. Si `(k) = h(k +
1) − h(k), alors pour k ∈ {1, . . . , n − 1},
On a donc `(k) = `(0) − 2k, et par ailleurs la somme des `(k) est nulle, donc
n−1
X
0= `(k) = n`(0) − n(n − 1),
k=0
Les quantités k et n − k jouent bien un rôle symétrique dans cette expression comme attendu.
2.5. QUELQUES MOTS SUR LA PROPRIÉTÉ DE MARKOV FORTE 33
En particulier, Ek [τ ] < ∞ et donc {τ < ∞} est un événement presque sûr sous Pk quelque
soit k ∈ Ω. Pour calculer Pk (Xτ = n | X1 = k + 1), on commence par observer que
Pk (Xτ = n | X1 = k + 1) = Pk (Xτ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n| X1 = k + 1)
= Pk+1 ((θ ◦ X)τ ◦θ = n | X1 = k + 1)
= Pk+1 (Xτ = n)
On en tire comme précédemment une équation de récurrence sur la quantité suivante : pour
k∈
/ {0, n},
g(k) := Pk (Xτ = n)
= Pk (Xτ = n | X1 = k + 1) Pk (X1 = k + 1) + Pk (Xτ = n | X1 = k − 1) Pk (X1 = k − 1)
1
= (Pk+1 (Xτ = n) + Pk−1 (Xτ = n))
2
g(k + 1) + g(k − 1)
= ,
2
avec les conditions au bord g(0) = 0 et g(n) = 1. Pour résoudre cette équation, notons qu’elle
peut se réécrire g(k + 1) − g(k) = g(k) − g(k − 1) ; la fonction g a donc des accroissements
constants et c’est la fonction affine g(k) = nk .
Quelques commentaires sur les spécificités de cette chaı̂ne de Markov sont nécessaires :
Noter que la présence d’états absorbants (au sens de la définition 1.15) empêche la chaı̂ne
d’être irréductible ; ici, la chaı̂ne compte deux états absorbants. On n’a pas unicité de la mesure
de probabilité stationnaire, et toute combinaison linéaire des masses de Dirac en les deux états
absorbants pδ0 + (1 − p)δn est une mesure de probabilité stationnaire (soit encore tout vecteur
t
ligne π avec S π(0) = p, et π(n) = 1 − p). On a aussi limt→∞ P (k, n) = limt→∞ P(Xt = n) =
limt→∞ P( t∈N {Xt = n}) = P(Xτ = n) on a :
k n−k
lim P t (k, n) = , et lim P t (k, 0) = ,
t→∞ n t→∞ n
ce qui implique aussi, pour tout k 0 ∈ Ω \ {0, n}, limt→∞ P t (k, k 0 ) = 0. En particulier,
Pour le moment il n’y a pas vraiment de gain par rapport à (2.7). Si l’on essaie d’ecrire
une relation similaire à (2.7) pour un temps d’arrêt, on voit que le domaine de définition de
G (disons le nombre d’arguments que cette fonction doit prendre) n’est pas bien défini. Pour
contourner cet obstacle on pose pour τ un temps d’arrêt, la tribu Fτ :
A ∈ Fτ ssi ∀t ∈ N, A ∩ {τ ≤ t} ∈ Ft
On considère ensuite directement des fonctions F et G définies directement sur (E, F ) (et non
plus des fonctions F et G définies sur ΩN et Ωt+1 ), ce qui permet d’écrire la propriéte suivante,
appelée propriété de Markov forte par oppoisition à la propriété de Markov simple :
Proposition 2.21 (Propriété de Markov forte). Soit τ un temps d’arrêt presque sûrement fini,
et (Xt )t∈N une chaı̂ne de Markov. Alors pour tout F F∞ -mesurable bornée, et G Fτ -mesurable
bornée,
Démonstration. L’idée est de décomposer suivant les valeurs prises par le temps d’arrêt, puis
d’utiliser la propriété 2.6, en notant que par définition de la filtration Fτ , G 1Xt =x 1τ =t est Ft
mesurable,
X
E[F ◦ θτ · G 1Xτ =x ] = E[F ◦ θτ · G 1Xτ =x 1τ =t ]
t∈N
X
= E[F ◦ θt · G 1Xt =x 1τ =t ]
t∈N
X
= Ex [F ]E[G 1Xt =x 1τ =t ]
t∈N
= Ex [F ]E[G 1Xτ =x ]
Chapitre 3
On étudie dans ce chapitre les temps d’atteinte de chaı̂nes de Markov réversibles au moyen de
calculs de résistance dans des réseaux électriques, les mêmes réseaux que ceux qu’on a pu rencon-
trer en cours d’électricité. La tension aux sommets du graphe lorsqu’on branche un générateur
entre deux sommets quelconque d’une part, et la probabilité d’atteindre un de ces deux som-
mets avant l’autre sont des quantités étroitement liées : cela découle de la propriété d’unicité
du prolongement harmonique d’une fonction. De cette observation fondamentale découlent un
certain nombre de propriétés surprenantes, entre autre le calcul de fonctions harmoniques au
moyen de la réduction de réseaux électriques.
Définition 3.1. Un graphe simple non-dirigé G = (V, E) est la donnée d’un ensemble V ,
appelé ensemble de sommets et d’un sous-ensemble E des paires non ordonnées de sommets
de V , appelé ensemble d’arêtes 1 . On appelle boucle une arête de type {x, x}. Un graphe sans
boucles est un graphe où E ⊂ {{x, y} : x, y ∈ V 2 , x 6= y}
Le formalisme de paires est naturel pour les graphes non-dirigés : les deux paires {x, y} et
{y, x} étant égales, elle représentent la même arête. À ensemble de sommets V fixé de cardinal
n, le plus gros graphe possible (au sens de l’inclusion des ensembles d’arêtes) est celui où les
n
2
arêtes sont retenues dans E, on l’appelle le graphe complet. A l’inverse on peut considérer
le graphe vide (sans arêtes) de peu d’intérêt...
Définition 3.2. Un réseau {G, c} est la donnée un graphe fini G = (V, E) non orienté et
connexe et d’une collection de conductances c = (c(e))e∈E ∈ (R+ \ {0})E 2 , d’inverses r(e) =
1/c(e) appelés résistances.
35
36 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
Définition 3.3. Soit {G, c} un réseau. La chaı̂ne de Markov sur V associée à ce réseau de
matrice de transition P = (P (x, y))x,y∈V 2 donnée par
c(x, y) X
P (x, y) = 1{x,y}∈E avec c(x) = c(x, y) (3.1)
c(x)
y,{x,y}∈E
où l’on distingue à la deuxième égalité les arêtes qui forment des boucles ou non : si une arête
n’est pas une boucle, elle est comptée deux fois, s’il s’agit d’une boucle, c’est-à-dire d’une arête
du type {x, x}, elle est comptée une seule fois. L’intérêt qu’on porte aux réseaux est justifié par
la proposition suivante.
Proposition 3.4. La marche aléatoire sur le réseau {G, c} est réversible par rapport à la
mesure de probabilité π donnée par
c(x)
π(x) = , x ∈ V.
cG
Réciproquement, à toute chaı̂ne de Markov irréductible et réversible (Xt )t∈N sur Ω, on peut
associer un réseau (unique à isomorphisme près, ou si l’on impose le choix de V = Ω) tel que
que la chaı̂ne (Xt )t∈N soit la marche aléatoire sur le réseau.
En conséquence, le calcul de la mesure stationnaire sur un réseau (unique dès lors que la
chaı̂ne est irréductible, c’est-à-dire le graphe sous-jacent connexe) ne pose aucune difficulté,
puisqu’il suffit de faire des sommes sur les conductances, qui correspondent aux données du
réseau.
Démonstration. Le sens direct est aisé, il suffit d’observer P est réversible par rapport à π en
reportant la définition de P :
c(x) c(x, y) c(x, y) c(y, x) c(y) c(y, x)
π(x)P (x, y) = = = = = π(y)P (y, x) :
cG c(x) cG cG cG c(y)
Dans l’autre sens, il suffit de poser, si π est la mesure par rapport à laquelle X est réversible,
c(x, y) := π(x)P (x, y) dès lors que cette quantité est non nulle (formellement, on définit V = Ω
et E = {{x, y} ∈ V 2 , π(x)P (x, y) 6= 0}). C’est la propriété de réversibilité qui garantit que
la définition de c(x, y)P
n’est pas ambigüe. P Le graphe est bien connexe par irréductibilité. En
outre, le calcul c(x) = y:{x,y}∈E c(x, y) = y:{x,y}∈E π(x)P (x, y) = π(x) assure que, pour tout
x, y ∈ Ω
c(x, y) π(x)P (x, y)
= = P (x, y).
c(x) c(x)
Démonstration. Soit x0 tel que h(x0 ) = maxy∈V h(y). Si x0 ∈ B il n’y a rien à prouver. Sinon,
si x0 ∈/ B, soit b ∈ B. On peut trouver une suite finie (xi )1≤i≤r tel que P (xi , xi+1 ) > 0 pour
tout 0 ≤ i ≤ r − 1 et xr = b. On note s le plus petit entier tel que xs ∈ B. On montre alors
que h(xi ) = h(x0 ) pour tout i ≤ s par récurrence (finie) sur l’entier i. C’est vrai en i = 0.
Si h(xi ) = h(x0P) et i < s alors, puisque xi ∈ / B par définition, h est encore harmonique en
xi , et h(xi ) = P (xi , y)h(y) implique h(y) = h(xi ) pour tout y tel que P (xi , y) > 0, en
particulier pour y = xi+1 . Ainsi h(xs ) = h(x0 ) et xs ∈ B est un élément en lequel h atteint son
maximum.
est l’unique extension de hB telle que h(x) = hB (x) pour tout x ∈ B et h est harmonique pour
P sur V \ B.
Démonstration. Vérifions d’abord que h donnée dans l’intitulé est bien une extension. Si x ∈ B,
alors τB = 0 et donc h(x) = Ex [hB (XτB )] = hB (x). Cette extension est de plus harmonique.
Soit x ∈
/ B. On a alors, sous Px , p.s.,
Si ce principe fournit un résultat d’existence et d’unicité très utile d’un point de vue
théorique, nous utiliserons en pratique d’autres méthodes pour calculer les extensions har-
monique dans le cas de graphes concrets (réduction de réseaux). Ces méthodes seront basées
sur les concepts que nous introduisons maintenant.
38 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
x 7→ Px (τa < τz )
∀xy ~ I(xy)
~ ∈ E, ~ = c(x, y)(W (x) − W (y)).
On pose r(x, y) = 1/c(x, y) dès lors que c(x, y) 6= 0 et on appelle r(x, y) résistance de l’arête
{x, y}, de sorte que’on peut réécrire la relation précédente sous la forme plus classique :
Pour éviter tout problème de signe, on retiendra que le courant va des sommets de potentiel
maximal (proches de la source) à ceux de potentiel minimal (proches du puits). I ainsi définie
est antisymétrique, et puisque W est une tension, elle satisfait également la loi des noeuds
suivante : X
div I(x) := ~ = 0, x ∈ V \ {a, z} (loi des noeuds)
I(xy)
y:{xy}∈E
— ∀xy ~ θ(xy)
~ ∈ E, ~ + θ(yx)
~ = 0 (antisymétrie).
— ∀x ∈
/ {a, z},
X
div θ(x) := θ(xy)
~ = 0 (loi des noeuds)
y:{xy}∈E
— div θ(a) ≥ 0.
Si θ est un flot, l’intensité du flot θ de a à z est définie par
X
kθk = div θ(a) := θ(ax).
~
x:{a,x}∈E
Attention, contrairement à ce que la notation peut suggérer, l’intensité n’est pas une norme
sur l’ensemble des flots (dessiner un flot non nul le long d’une boucle fermée qui ne rencontre ni
a ni z). Noter aussi que dans un flot, le rôle des points source a et puits z n’est pas symétrique
du fait de l’inégalité div θ(a) ≥ 0 dans la définition d’un flot : on a un flot de a à z. Notons
que pour un flot θ, l’antisymétrie et la loi des noeuds assure que :
X X X X
div θ(a) + div θ(z) = div θ(x) = θ(xy)
~ = (θ(xy)
~ + θ(yx))
~ = 0.
x∈V x∈V y:{x,y}∈E {x,y}∈E
Parmi tous les flots, le flot courant possède une propriété caractéristique de ”découler d’un
potentiel”, ce qui motive la définition suivante :
Définition 3.12. On dit qu’un flot θ : E ~ → R vérifie la loi des cycles si, pour toute suite de
sommets e~1 , e~2 , . . . , e~m qui forme un cycle orienté, on a
m
X
r(~
ei )θ(~
ei ) = 0.
i=1
Proposition 3.13. Le flot courant I vérifie la loi des cycles. De plus, si θ est un flot de a à z
qui vérifie :
— la loi des cycles pour tout cycle e~1 , e~2 , . . . , e~m
— la normalisation kθk = kIk,
alors θ = I.
Démonstration. Posons f = θ − I. Alors f satisfait la loi des nœuds et la loi des cycles.
Supposons par l’absurde que f 6= 0, et par exemple f (e~1 ) > 0 pour e~1 une arête du réseau.
Alors, par la loi des nœuds, il existe e~2 tel que f (e~2 ) > 0. On construit ainsi une suite d’arêtes
sur lesquelles f est strictement positive. Or, V est fini donc cette suite va passer 2 fois sur un
même nœud, et en sommant, on contredit la loi des cycles (rappelons que la loi des cycles est
vérifiée même en les cycles qui comprennent a ou z). Donc f = 0 et θ = I.
40 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
W (a) − W (z)
R(a ↔ z) = ,
kIk
avec I le flot courant associé à la tension W .
Démonstration. On pose
W (x) − W (z)
x 7→ W̄ (x) : =
W (a) − W (z)
et on note que la fonction W̄ ainsi définie est encore harmonique sur V \ {a, z}, avec les
conditions au bord W̄ (a) = 1 et W̄ (z) = 0 (c’est donc encore une tension, mais les valeurs aux
bornes sont différentes) donc, si I 0 désigne le flot courant associé à W 0 :
1
R(a ↔ z) =
I¯
1
=P ¯ ax)
I(
x:{a,x}∈E ~
1
=P
x:{a,x}∈E c(ax)W̄ (a) − W̄ (x)
1
=P W (a)−W (x)
x:{a,x}∈E c(ax) W (a)−W (z)
W (a) − W (z)
=P
x:{a,x}∈E c(ax)(W (a) − W (x))
W (a) − W (z)
=
kIk
L’interprétation est la suivante : si l’on remplace le réseau {G, c} entre a et z par une
seule arête, quelle résistance/conductance lui attribuer pour que, à tension fixée, l’intensité du
courant soit identique ou, à courant d’intensité fixée, la différence de tension entre a et z soit
identique : la réponse est dans les deux cas donnée par la résistance/conductance équivalente.
On en tire une représentation intéressante de la conductance équivalente qui fait apparaı̂tre
Pa (τz < τa+ ) comme le facteur d’amortissement entre c(a) et C(a ↔ z). Notons qu’on pourrait
aussi bien prendre cette propriété comme définition.
3.4. RÉSISTANCE ÉQUIVALENTE 41
kIk
=
c(a)(W (a) − W (z))
C(a ↔ z)
= par la définition 3.14
c(a)
Gτz (a, x)
x 7→
c(x)
est une tension, et c’est l’unique tension associée à un courant unitaire, nul en z.
Démonstration. Par réversibilité, le poids π(a)P (a, x1 )P (x1 , x2 ) . . . P (xt−1 , x) de chaque trajec-
toire de a à x en t temps pas qui ne rencontre pas z et égal au poids de la trajectoire renversée
en temps π(x)P (x, xt−1 )P (x1 , x2 ) . . . P (x1 , a) et sommant sur toutes ces trajectoires on obtient
alors
π(a)Pa (Xt = x, t < τz ) = π(x)Px (Xt = a, t < τz ) :
Maintenant, π étant proportionnel à c, si l’on fait la somme sur t on obtient :
Maintenant, on sait de plus que la tension en a vaut R(a ↔ z) du lemme 3.17. Il en découle
que I = R(a ↔ z). L’unicité est conséquence du principe de Dirichlet.
Définition 3.19. Soit a, b ∈ V et (Xt )t∈N ∈ V N une trajectoire issue de a. On note τb,a la
variable aléatoire :
où l’on rappelle la convention que le minimum d’un ensemble vide est égal à +∞ On note ta↔b
et on appelle temps de transport entre a et b :
ta↔b : = Ea [τb,a ].
3.6. ÉNERGIE 43
On suppose maintenant (Xt )t∈N marche aléatoire sur un réseau fini irréductible. Ainsi le
temps de transport est le temps espéré, partant de a, pour revenir en a après avoir visité b (ce
qui correspond bien au temps de transport quotidien si a=”maison” et b=”bureau”). Notons
que la propriété de Markov forte implique :
Mais
X
Ea [τa ◦ θτb ] = Ea [τa ◦ θτb , τb = t] car Pa (τb < ∞) = 1
t∈N
X
= Ea [τa ◦ θt , τb = t]
t∈N
X
= Eb [τa ]Pa (τb = t) de la propriété de Markov
t∈N
= Eb [τa ] car Pa (τb < ∞) = 1
et donc
ta↔b = Ea [τb ] + Eb [τa ]
est bien une expression symétrique en a et b, comme le laissait présager son écriture. L’identité
suivante sera notre outil principal pour évaluer des espérances de temps d’atteinte. Elle nécessite
le calcul préalable de la résistance équivalente et justifie au passage l’intérêt de cette notion.
Proposition 3.20 (Identité du temps de transport). Soit P irréductible réversible. Pour tout
a, b ∈ V ,
ta↔b = cG R(a ↔ b).
On se rappelle que cG défini en (3.2) comptabilise la somme des conductances des sommets
(la conductance d’une arête qui n’est pas une boucle est comptée deux fois dans cette somme).
Nous verrons en TD que cette identité fondamentale combinée permet bien souvent de se passer
de la méthode à un pas (et de la résolution de la récurrence qui lui est souvent associée).
Démonstration. On note π la mesure par rapport à laquelle P est réversible. Par le théorème
du temps d’occupation de Aldous-Fill, Théorème 2.14, et l’unicité de la mesure stationnaire
sous l hypothèse d’irréductibilité, on a
Gτ (a, a) c(a)
P b,a = π(a) = .
x Gτb,a (a, x) cG
P P+∞
Ensuite, par définition, x Gτb,a (a, x) = Ea t=0 1{Xt ∈V,τb,a >t} = Ea [τb,a ] = ta↔b . De plus,
d’après la définition du temps d’arrêt τb,a , et une application de la proposition 3.17,
On obtient en remplaçant Gτa,b (a, a) et Gτa,b (a, V ) par leurs deux expressions l’identité du temps
de transport.
3.6 Énergie
Définition 3.21. Soit θ un flot sur {G, c}. On définit l’énergie du flot θ par
X
E(θ) = θ(e)2 r(e).
e∈E
44 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
2
X
2 1 XX W (x) − W (y)
E(I) = r(e)I(e) = r(x, y)
e
2 x y r(x, y)
1 XX
= c(x, y) (W (x) − W (y))2
2 x y
1 XX
= ~ (W (x) − W (y))
I(xy)
2 x y
X X
= W (x) I(xy)
~ car I est antisymétrique
x y
X X
= W (a) I(ay)
~ + W (z) I(zy)
~ par la loi des nœuds
y y
Proposition 3.23 (Principe de monotonie de Rayleigh). Soient {r(e)} et {r0 (e)} deux en-
sembles de résistances sur les arêtes du même graphe G, et R(a ↔ z; r) et R(a ↔; r0 ) les
résistances équivalentes associées. Montrer que si, pour tout e, r(e) ≤ r0 (e), alors
R(a ↔ z; r) ≤ R(a ↔; r0 ).
On minimise alors sur les flots θ unitaire pour conclure à l’aide du principe de Thomson.
3. transformation étoile-triangle
Le point crucial est que la résistance équivalente du réseau avant et après réduction est in-
changée. Maintenant, si le graphe associé au réseau est planaire (c’est-à-dire peut être dessiné
dans le plan sans que deux arêtes [pas forcément dessinées par des segments de droite] ne se
touchent sauf en leurs extremités), alors on est assuré que l’application de ces trois règles per-
met de réduire le réseau en une arête liant point source et point puits, soit le réseau le plus
simple possible : la résistance de cette seule arête est alors la résistance équivalente.
Nous détaillons maintenant trois transformations utiles, dont les deux premières ci-dessus
(nous ne ferons pas usage de la transformation étoile-triangle).
— Les résistances en série s’additionnent :
Si v est un sommet de degré 2 du graphe G, de voisins v1 et v2 , alors les arêtes {v1 , v}
et {v2 , v} peuvent être remplacées par une seule arête {v1 , v2 } de résistance
Une fois l’arête {v1 , v2 } affectée de cette nouvelle résistance, La fonction tension (res-
treinte aux sommets du nouveau réseau, c’est-à-dire V \ {v}) vérifie la loi d’Ohm et la loi
des cycles, c’est-à-dire que la fonction tension restreinte est la tension dans le nouveau
réseau ; on peut reformuler cet énoncé plus simplement en disant que la tension n’est
pas changée en les sommets non modifiés. Pour le courant associé, on voit que
et les valeurs de I en les arêtes non modifiées est inchangé. En conséquence, la résistance
équivalente de l’ancien et du nouveau réseau sont identiques.
— Les conductances en parallèle s’additionnent :
Soit deux arêtes e1 et e2 , de conductances c(e1 ) et c(e2 ) qui partagent les mêmes extre-
mités v1 et v2 : e1 = e2 = {v1 , v2 }. Alors ces deux arêtes peuvent être remplacées par
une seule arête e de conductance
A nouveau la fonction tension (cette fois-ci sans restriction) vérifie la loi d’Ohm et la
loi des cycles pour pour ces nouvelles conductances. Le courant associé vérifie : I(e) =
I(e1 ) + I(e2 ), et ses valeurs en les autres arêtes sont inchangées.
Comme précédemment, la résistance équivalente de l’ancien et du nouveau réseau sont
identiques.
— Identification de sommets :
L’opération consiste simplement à identifier deux sommets v1 et v2 en un seul sommet
v. En conséquence, les éventuelles arêtes qui existaient entre v1 et v2 deviennent des
boucles par exemple. Cette opération n’est pas neutre sur la tension et le courant dans
le réseau, à moins que la tension W (v1 ) et W (v2 ) en les deux sommets v1 et v2 ne soit
identique dans le réseau de départ : dans ce cas en effet, on peut vérifier que la tension
originale vérifie encore la loi d’Ohm et la loi des noeuds ; le courant associé est le même
que dans le réseau initial (notons aussi qu’aucun courant ne circulait dans l’arête {v1 , v2 }
dans le cas où W (v1 ) = W (v2 )).
NB : a priori on a défini un réseau à partir d’un graphe dont les arêtes sont des paires de
sommets, donc des arêtes simples : notre définition empêche la possibilité d’arêtes multiples
entre deux mêmes sommets, en conséquence l’entrée ci-dessus au sujet des conductances en
parallèle semble donc vide. C’est sans compter que la troisième entrée au sujet de l’identification
de sommets peut générer de tels graphes avec des arêtes multiplies, et nous fait donc sortir du
cadre des réseaux tels que définis ci-dessus.
3.8. EN CONCLUSION 47
3.8 En conclusion
Les réseaux, qui correspondent à la donnée d’un graphe et de conductances sur celui-ci,
fournissent une représentation commode des chaı̂nes de Markov réversibles. Sont associés aux
réseaux les quantités physiques de tension et d’intensité, et les résistances/conductances des
arêtes trouvent leur géneérlisation dans les notions de résistances/conductances équivalentes
entre sommets (ou sous-ensembles de sommets). La résistance équivalente est un invariant
essentiel du réseau et des deux sommets choisis ; son calcul est rendu possible par les méthodes
des réduction de réseau usuels vus en physique. L’étude de la résistance équivalence Zd en
restriction aux sommets de coordónnées toutes inférieures à n (une ”boı̂te”) permet d’avoir
une approche quantitative du thórème de Polya au sujet de la récurrence/transience de ces
réseaux. Surtout les bornes inférieures (Nash-Williams) et supérieures (Thomson) permettent
de comprendre si ces résultats sont sensibles aux déformations de ces réseaux. Les preuves
historiques du théorème de Polya reposent sur des calculs exacts très dépendant du choix
précis de ces réseaux.
48 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
Chapitre 4
Pour une chaı̂ne irréductible à espace d’état fini, on sait que les temps d’atteinte sont finis
p.s., et même d’espérance finie. Après ces temps d’atteinte, une des quantités les plus naturelles
à considérer est le plus grand de ces temps d’atteinte, qui correspond aussi au premier instant
où l espace entier a été visité. Il porte le nom de temps de couverture.
On prendra soin de distinguer, parmi les quantités définie dans ce chapitre, les quantités
aléatoires des quantités déterministes. Dans la mesure du possible, on utilisera τ pour une
quantité aléatoire et t pour une quantité déterministe.
On travaille dans cette section avec une chaı̂ne (Xt )t∈N définie sur Ω. On consultera la
définition 2.16 si besoin pour la définition du temps d’atteinte d’un sommet.
Définition 4.1. On note thit et on appelle temps d’atteinte de la chaı̂ne (Xt )t∈N le temps
déterministe :
thit = max Ex [τy ].
x,y∈V
Définition 4.2. On note τcov et on appelle temps de couverture de la trajectoire (Xt )t∈N la
variable aléatoire
τcov = min{t ≥ 0, {Xs }0≤s≤t = V } = max τx .
x∈V
Bien entendu une compréhension complète des variables aléatoires τcov (jusqu’aux fluctua-
tions) est plus informative que celle de tcov ; néanmoins, le calcul de tcov est un premier pas
important. Un premier lien simple entre thit et tcov est :
49
50 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE
Notons tout d’abord que même dans le cas de marches réversibles, on ne peut espérer avoir
l’égalité Ea [τb ] = Eb [τa ] : il suffit en effet de considérer un graphe G connexe avec au moins
3 sommets, dont deux sommets a et b tels que a ait pour seul voisin b et des conductances
unitaires et sans boucle (par exemple). Alors 1 = Ea [τb ] < Eb [τa ].
En revanche, si l’on démarre la chaı̂ne sous sa mesure stationnaire (par rapport à laquelle
elle est réversible), des propriétés intéressantes peuvent être énoncées en toute généralité.
On généralise la notion de temps d’atteinte définie en 2.16 à une suite finie de sommets :
Définition 4.3. Soit x1 , . . . , x` ∈ V ` . On note τx1 ,...,x` et on appelle temps d’atteinte de
x1 , . . . , x` (dans cet ordre) le temps aléatoire :
τx1 ,...,x` = min{t` ∈ N : ∃0 ≤ t1 < t2 < . . . < t` , (i ∈ {1, . . . , `} ⇒ Xti = xi )}
Ayant défini le temps d’atteinte d’un sommet, on aurait aussi pu adopter la définition
récursive suivante, à l’aide de l’opérateur θ de translation en temps défini en 2.8 :
τx1 ,...,x` = τx1 + θτx1 ◦ τx2 ,...,x` et τx = min{t ∈ N, Xt = x}
Il s’agit du premier instant où x1 , x2 , . . . , x` ont été visités dans cet ordre par la trajectoire.
(Noter qu’on a droit aux répétitions parmi les xi .) Par exemple, τabc (cbbaccbacb...) = 8 (le
c souligné apparaı̂t en neuvième position, mais on initialise le compteur à 0). Une propriété
importante des marches aléatoires sur réseau est la suivante
Proposition 4.4. Soit un réseau transitif {G, c}, soit x1 , . . . , x` ∈ V ` , et soit (Xt )t∈N la marche
aléatoire associée. On a l’identité
Eπ [τx1 ,...,x` ] = Eπ [τx` ,...,x1 ].
On en déduit immédiatement l’identité suivante, pour les cycles.
Corollaire 4.5 (Lemme cyclique). Sous les hypothèses précédentes, et si de plus x1 = x` ,
c’est-à-dire si la suite de sommets forme un cycle alors :
Ex1 [τx2 ,...,x` ] = Ex` [τx`−1 ,...,x1 ].
Le Corollaire se déduit directement de la Proposition.
Démonstration du Corollaire. Il suffit d’observer que la Proposition 4.4 s’écrit aussi du fait de
la propriété de Markov forte :
Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]
ce qui implique, en soustrayant le premier terme de chaque membre (puisque x1 = x` ),
Ex1 [τx2 ,...,x` ] = Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ] = Ex` [τx`−1 ,...,x1 ]
Démonstration de la Proposition. On définit un ordre partiel sur l’ensemble des mots finis à
valeurs dans V : m m0 si m est sous-mot de m0 , c’est-à-dire que m = (x1 . . . xk ) et m0 =
(x01 . . . x0k0 ) et il existe x0i0 = xπ(i) pour 1 ≤ i ≤ k et π strictement croissante. Notons maintenant
que, pour k ≥ ` − 1,
Pπ (τx1 ,...,x` ≤ k) =Pπ ((x1 , . . . , x` ) (X0 , . . . , Xk ))
=Pπ ((x1 , . . . , x` ) (Xk , . . . , X0 )) par réversibilité
=Pπ ((x` , . . . , x1 ) (X0 , . . . , Xk )) par définition
=Pπ (τx` ,...,x1 ≤ k)
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)51
Il s’ensuit
X X
Eπ [τx1 ,...,x` ] = Pπ (τx1 ,...,x` ≥ k) = Pπ (τx` ,...,x1 ≥ k) = Eπ [τx` ,...,x1 ].
k≥1 k≥1
Pour se débarasser la mesure initiale stationnaire dans la Proposition 4.4, et pouvoir considérer
une mesure initiale arbitraire, une hypothèse supplémentaire est nécessaire. l’hypothèse de tran-
sitivité est une hypothèse de symétrie qui énonce que le graphe vu depuis n’importe lequel de
ses sommets est identique.
Définition 4.6. Un réseau est transitif si pour tout sommets (a, b) ∈ V 2 , il existe une bijection
φ : V → V telle que φ(a) = φ(b) et φ préserve les conductances :
ayant étendu la conductance c à une application sur l’ensemble des paires de sommets (et non
les seules arêtes), en posant c(x, y) = ∞ si {x, y} ∈
/ E.
Corollaire 4.7. Sous les hypothèses de la Proposition 4.4, et si de plus le réseau {G, c} est
transitif, alors on a l’identité :
Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]
Eπ [τx1 ] = Eπ [τx` ].
(décomposer selon π si besoin). La différence des deux égalités précédentes fournit le résultat
cherché.
Corollaire 4.8. Soit un réseau transitif irréductible {G, c}, et a, b ∈ V , et (Xt )t∈N la marche
aléatoire associée. On a l’identité
Ea [τb,a ] cG R(a ↔ b)
Ea [τb ] = = .
2 2
Theorème 4.9 (Borne supérieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω de
cardinal n. Alors
1 1
tcov ≤ thit 1 + + · · · + .
2 n
52 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE
n
X
Ex [τcov ] = Ex [Tn ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2
X X 1 X1
Ex [T1 ] = Ex [T1 | σ(1) = y] P(σ(1) = y) = Ex [τy ] ≤ thit = thit
y x
n y
n
Puis, notant que Ti − Ti−1 est non nul ssi σ(i) est le dernier des sommets visités parmi
σ(1), σ(2), . . . , σ(i), événement dont la probabilité s’évalue à 1i par échangeabilité, on a :
Il est utile de se demander dans quels cas la borne a des chances d’être précise. On note
ensuite qu’une simple adaptation de la démonstration permet de donner un minorant de tcov
en fonction des quantités
tA
min : = min Ea [τb ] où A ⊂ Ω.
a,b∈A,a6=b
Theorème 4.10 (Borne inférieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω
de cardinal n. Alors
A 1 1
tcov ≥ max tmin · 1 + + · · · + .
A⊂Ω 2 |A| − 1
Par rapport à la borne supérieure de Matthews, on notera que dans le membre de droite, le
dénominateur est A − 1 et non pas A. Surtout tA min remplace thit . Si tout choix de A donne une
borne inférieure, mais la qualité de la borne obtenue réside dans le choix du A.
|A|−1
X
Ex [τcov ] ≥ Ex [TA ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)53
On a que :
Ex [Ti ] − Ex [Ti−1 ] = Ex [Ti − Ti−1 ]
= Ex [τσ(i) ◦ θTi−1 1{τσ(i) >maxj≤i−1 τσ(j) }] de la propriété de Markov forte
= Ex [EXTi−1 [τσ(i) ]1{τσ(i) >maxj≤i−1 τσ(j)} ]
≥ Ex [tA
min 1{τσ(i) >maxj≤i−1 τσ(j) } ]
≥ tA
min Px (τσ(i) > max τσ(j) )
j≤i−1
1
= thit
i
Regardons ce que donnent les bornes de Matthews sur l’exemple du tore de dimension 1.
Theorème 4.11 (Bornes de Matthews pour le temps de couverture du n-cycle). Le temps de
couverture du n-cycle vérifie
n2 n2
≤ tcov ≤ log(n)(1 + o(1)).
4 4
Démonstration. On prend pour A un ensemble composé de deux sommets opposés à distance
maximale. Les temps d’atteinte sont calculés en utilisant la formule du temps de transport et
le lemme concernant les graphes transitifs.
Les bornes précédentes sont données à titre d’exemple seulement, puisque dans ce cas précis
il est possible de faire un calcul exact : on montre qu’on se ramène à un problème de ruine du
joueur.
Theorème 4.12 (Temps de couverture exact du n-cycle). Le temps de couverture du tore du
n-cycle vérifie
n(n − 1)
tcov = ·
2
On voit donc que la borne inférieure était ici plus proche de la verité.
Démonstration. On appelle ”range” à l’instant t l’ensemble image {Xs , s ≤ t}. Notons que le
range forme un processus croissant pour l’inclusion, le cardinal du range a des incréments égaux
à 0 ou 1 á chaque instant. Lorsque la taille du range vaut k pour la première fois, alors le range
correspond à un intervalle de longueur k et la marche se trouve a l’une des extrémités de ce
range. Le temps d’attente du moment où le range vaudra k + 1 est alors le temps d’atteinte
de {0, k + 1} par la marche simple issue de 1, ce temps peut être évalué à l’aide du temps de
transport, il vaut
1 1 1
E[τ{0,k+1} ] = cG R(1 ↔ {0, k + 1}) = · 2(k + 1) · 1 =k
2 2 1+ k
Ainsi
X n(n − 1)
tcov = k= .
1≤k≤n−1
2
Un autre graphe très simple où le calcul du temps de recouvrement est possible est le graphe
complet (on a déjà étudié cette quantité en TD, sans mentionner alors qu’on calculait le temps
de recouvrement du graphe complet, saurez-vous retrouver cet exercice ?).
Le chapitre suivant, le dernier, est dévolu aux calculs nécessaires pour passer au tore de
dimension supérieure, nettement plus délicats que dans le cas 1 dimensionnel.
54 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE
Chapitre 5
Nous avons maintenant tous les éléments en place d’un point de vue théorique pour com-
prendre les temps de couverture du tore d-dimensionnels de côté n − 1, généralisation du
n-cycle en dimension d. Un obstacle de taille demeure néanmoins : des bornes quantitatives sur
les résistances entre deux points arbitraires de ces graphes. Nous calculons ici de telles bornes,
puis les estimées sur les temps d’atteinte et temps de couverture suivront. On notera que la
précision des estimées concernant les résistances conditionne la précision des résultats suivants.
Tout d’abord la définition de graphe induit.
Ainsi on ne conserve dans G0 que les arêtes dont les deux extrémités sont dans V 0 . Il peut
être utile d’attacher aux arêtes une grandeur scalaire.
Définition 5.2 (tore et cube d-dimensionnel). On appelle tore d-dimensionnel (de côté n−1) le
graphe d’ensemble de sommets V = {1, . . . , n}d où deux sommets x = (xi )1≤i≤d et y = (yi )1≤i≤d
sont adjacents ssi
X
|xi − yi | = 1 (5.1)
1≤i≤d
avec la différence calculée dans Z/nZ. On appelle cube d-dimensionnel (de côté n − 1) le graphe
induit par Zd sur l’ensemble de sommets {1, . . . , n}d .
Dans le cas du cube, la définition de l’ensemble des arêtes est donc analogue à 5.1 mais la
différence est prise dans Z est pas n’est pas prise dans Z/nZ. Si le tore d-dimensionnel est un
graphe transitif, ce n’est pas le cas du cube d-dimensionnel. Notre objectif est d’étudier le tore
mais nous aurons aussi besoin en chemin du cube.
Theorème 5.3 (Tores : temps d’atteinte). Soient x, y deux sommets du tore d-dimensionnel
à distance k ≥ 1 dans le tore de dimension d à nd points. Le temps d’atteinte τy satisfait la
propriété suivante : il existe des constantes 0 < cd ≤ Cd < +∞ telles que
55
56 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE
Pour une borne inférieure sur le résistance équivalente, on construit des cutsets d’arêtes deux
à deux disjoints pour isoler x de y. On rappelle que kxk∞ = max{|xi |, 1 ≤ i ≤ d} définit la
norme infinie.
Πj = {{v, w} ∈ V 2 , kv − xk∞ = j, kw − xk∞ = j + 1}.
Alors, pour 0 ≤ j ≤ ky − xk∞ − 1 ≤ k − 1, Πj est un cutset d’arêtes qui sépare x de y,
et qui est de cardinal 2d(2j + 1)d−1 . De plus, ces cutsets sont deux à deux disjoints, donc, par
Nash-Williams,
−1
k−1
X X
R(x ↔ y) ≥ c(e)
j=0 e∈Πj
k−1
X 1
≥
j=0
2d(2j + 1)d−1
c2 log(k) si d = 2
≥
cd si d ≥ 3.
La borne supérieure est plus délicate, elle nécessite la construction de flots, qui eux mêmes
nécessitent de comprendre l’urne de Polya tout d’abord 1
Proposition 5.4 (Urne de Polya à d couleurs). Soit une urne composée à l’instant t = 0 de
d boules, dont 1 boule de chacune des d couleurs possibles. À chaque instant t ≥ 1, on tire une
boule choisie uniformément au hasard dans l’urne à l’instant t − 1, qu’on replace dans l’urne
avec une boule de même couleur. La composition de l’urne forme alors une chaı̂ne de Markov
(Xt )t∈N = (Xt (i), 1 ≤ i ≤ d)t∈N à valeurs dans (N? )d , et pour chaque t ∈ N, la loi de Xt est
uniforme dans l’ensemble :
( )
X
(yi )1≤i≤d ∈ (N? )d : yi = d + t
1≤i≤d
t+d−1
et le cardinal de cet ensemble vaut d−1
.
1. Cette méthode de preuve du théorème de Polya (qui concerne la récurrence/transience des graphes Zd )
au moyen d’urnes de Polya est relativement récente : voir David A. Levin and Yuval Peres. ”Pólya’s theorem
on random walks via Pólya’s urn.” The American Mathematical Monthly 117.3 (2010) : 220-231)
57
d
X
P(Xt = x) = P(Xt−1 = xi , Xt = x)
i=1
d
X xi (i)
= P(Xt−1 = xi ) P i
i=1 j x (j)
d
1 X xi (i)
= t−1+d−1
P i
d−1 i=1 j x (j)
(d − 1)!(t − 2)! t − 1
=
(t − 1 + d − 1)! t + d − 1
(d − 1)!(t − 1)!
=
(t + d − 1)!
t−1+d
=
d−1
Noter que la démonstration par récurrence donne aussi la valeur du cardinal (on peut
néanmoins obtenir ceci de manière directe, en notant qu’à chaque d-uplet y est associé de façon
unique un chemin dit nord-est de (0, 0) à (d − 1, t) dans Z2 , c’est-à-dire un chemin de longueur
minimale d − 1 + t).
On propose dans le lemme suivant une borne supérieure sur la résistance entre des coins
opposés d’un cube d-dimensionnel (et non d’un tore). Ce graphe n’est plus transitif en particu-
lier.
Lemme 5.5. Soit le cube d-dimensionnel (de côté n−1), et notons 1 le sommet de coordonnées
(1, . . . , 1), et k · 1 celui de coordonnées (k, . . . , k). Soit k tel que kd < n − 1. Alors
2 log(k) si d = 2
R(1↔ k · 1) ≤
C̃d si d ≥ 3.
Ensuite, la règle d’antisymétrie définit le flot sur les arêtes dirigées opposées. Enfin,
Or, la résistance équivalente de deux points, qui sont dans le même hyperplan, à distance paire
valant 2s, est majorée, par l’inégalité triangulaire, par 2 fois la résistance équivalente entre les
deux extrémités d’un Gds .
Donc,
d
X
1 + 2R a ↔ z, où a et z sont les extrémités d’un Gdsi
R(x ↔ y) ≤
i=1
P2
1 + 4 log(si ) si d = 2
≤ Pi=1 d
1 + 2C̃d si d ≥ 3.
i=1
2(1 + 4 log(k + 1)) si d = 2
≤
d(1 + 2C̃d ) si d ≥ 3.
C
22 log(k + 1) si d = 2
≤
Cd
d
si d ≥ 3.
Donc, si d = 2,
Ex [τy ] ≤ C2 n2 log(k + 1)
et si
Ex [τy ] ≤ Cd nd .
5.1. ANNEXE 59
Nous en venons finalement au théorème sur les temps de couverture du tore d-dimensionnel,
qui conclut ce cours.
Pour d = 2 maintenant, il existe des constantes 0 < c2 ≤ C2 < +∞ telles que pour x, y ∈ V , si
l’on note k = d(x, y), on a
On doit être cette fois plus fin dans notre choix de A. Considérons d’abord le cas où n est un
carré
√ parfait, alors prenant pour A l’ensemble des sommets dont les coordoneées sont multiples
de n, on trouve :
A 1 1
tcov ≥ tmin 1 + + . . . +
2 |A| − 1
√
2 1 1
≥ c2 n log( n) 1 + + . . . +
2 n−1
c2 2
≥ n (log(n))2 (1 + o(1)).
2
Si n n’est pas un carré √
parfait, alors on observe
√ que le plus grand √
carré parfait inférieur
√ à
n est √minoré par n − 2 n : en effet m ≤ n < m + 1 implique n − 1 < m ≤ n et
n − 2 n + 1 < m2 ≤ n et le même résultat vaut donc.
5.1 Annexe
5.1.1 Vocabulaire des graphes
Un graphe simple, non-dirigé 2 G = (V, E) est la donnée d’un ensemble V et d’une partie
E des paires d’éléments de V . V est traditionnellement appeé l’ensemble des sommets et E
l’ensemble des arêtes. Une arête est génériquement notée {x, y}, avec x, y ∈ V , et l’ordre des
éléments de la paire n’a pas d’importance : {x, y} = {y, x} (une paire est un ensemble à deux
éléments) : le graphe est dit non-dirigé.
2. on dit aussi non-orienté, le mot dirigé est plus proche de l’anglais ”directed”
60 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE
Un arête du type {x, x} où x ∈ V est appelé une boucle. On précise en général au cas par
cas si on autorise ou non les boucles dans la définition d’un graphe.
Notons que la donnée de l’ensemble E des arêtes équivaut à la donnée d’une fonction ϕ de
l’ensemble des paires de sommets dans {0, 1} :
ϕ({x, y}) = 1E ({x, y})).
Si maintenant on autorise ϕ à prendre des valeurs entières (dans N) quelconques, alors on
définit la notion de graphe non-simple plus couramment appelé multigraphe : le ”multi” renvoie
au fait que les arêtes peuvent être multiples. La valeur de ϕ({x, y}) précise combien de fois
apparaı̂t l’arête {u, v}, et si ϕ({x, y}) ≥ 2, on dit que l’arête est une arête multiple. De façon
équivalente, on peut encore noter G = (V, E) un multigraphe, mais alors E est un ”multiset”,
c’est-à-dire un ensemble dans lequel on autorise les répétition, de paires d’éléments de V .
Une autre direction de gńéralisation de la notion de graphe simple non-dirigé est la suivante :
un graphe dirigé G = (V, E), ~ est la donnée d’un sous-ensemble E ~ du produit cartésien V × V
~ ∈E
d’arêtes dirigées, génériquement notées xy ~ si x, y ∈ V ; à la différence du cas non-dirigé,
on n’a plus cette fois xy ~ ∈ E~ sans pour autant avoir yx ~ ∈ E. ~ La matrice d’adjacence A =
(Ax,y )x,y∈V est alors définie par
Axy = 1xy∈E
~
On pourrait bien sûr définir une notion de multigraphe dirigé en ajoutant la donnée d’une
~ → N, mais nous n’aurons pas ici besoin de ces graphes.
fonction ϕ : E
La matrice d’adjacence A = (A(x, y))x,y∈V d’un graphe simple non-dirigé G = (V, E) est la
matrice symétrique indicée par les éléments de V × V :
A(x, y) = 1{x,y}∈E dans le cas non-dirigé, A(x, y) = 1x,y∈
~ E ~ dans le cas dirigé
Dans le cas où toutes les lignes de la matrice sont non nulles, on peut bien sûr normaliser
les
P lignes de cette matrice P de façon à en faire une matrice stochastique. On pose deg(x) =
1
y {x,y}∈E ou deg(x) = y 1x,y∈E
~ selon le cas de figure, puis :
1{x,y}∈E 1x,y∈
~ E ~
P (x, y) = dans le cas non-dirigé, P (x, y) = dans le cas dirigé
deg(x) deg(x)
Il s’agit de la matrice de transition de la marche aléatoire simple sur le graphe G.
Bien entendu, si X admet des moments d’ordre supérieur, c’est-à-dire si E[X p ] < ∞, alors
en remplaçant X par X p dans l’énoncé ci dessus, p > 1, on obtient des décroissances meilleures
de la queue de distribution, en t−p . Un autre lemme clef fait un lien exact entre espérance et
queue de distribution :
Lemme 5.8. Si N est une variable aléatoire à valeurs dans N∪{∞} p.s. (i.e. P(X ∈ N∪{∞}) =
1), alors :
X ∞ X∞
E[N ] = P(N ≥ t) = P(N > t)
t=1 t=0
On notera bien que l’égalité dans ce lemme est une égalité dans [0, ∞], c’est--̀dire que les
deux membres peuvent être simultanément égaux à +∞. On a pas besoin de vérifier qu’on a
affaire à des variables aléatoires finies avant d’utiliser ce lemme.
Démonstration. Pour tout n ∈ N, on peut écrire n = ∞
P P∞
t=1 1n≥t = t=0 1n>t . Il suffit alors de
prendre l’espérance des deux membres et d’utiliser Fubini-Tonnelli.