Chain Es Demarkov

1
Chaı̂nes de Markov
Olivier Hénard
9 octobre 2019
1. Notes du cours Chaı̂nes de Markov (PRB201) du master M1 MA

2
Ces notes de cours reprennent dans un seul ensemble (supposé cohérent) une toute petite
partie des notions présentées dans le livre de Levin Peres (et Wilmer) :
Levin, D. A., & Peres, Y. Markov chains and mixing times Second Edition (Vol. 107).
American Mathematical Soc. (2017)
qui est la référence choisie pour ce cours. Notre ambition en proposant ce texte complémentaire
n’est pas de nous substituer à cette référence, mais plutôt d’aider le lecteur novice à trouver
son chemin dans cet ouvrage dont l’ambition excède très largement le cadre d’un cours de 6
séances d’une heure.
Notre délicat travail d’élagage a été dicté cette année par un principe simple : parvenir à
aborder, au terme des six séances, le problème des temps de recouvrement d’une chaı̂ne de
Markov ; le choix de ce problème a lui-même répondu à plusieurs critères : confronter le plus
rapidement possible les étudiants à une problématique de recherche récente et abordable 1 ,
sans trop de technicité, et qui offre un panorama des méthodes utilisées dans les probabilités
modernes.
Le chemin que nous avons tracé dans l’ouvrage est le plus court chemin qui a pour point
de départ la définition d’une chaı̂ne de Markov et pour point d’arrivée le calcul effectif des
temps de recouvrement des tores d-dimensionnels. Le contenu de quasiment toutes ces notes
découle de ces deux impératifs, comme pourra le constater un lecteur qui pour comprendre le
résultat final sur les temps de recouvrement, déroulerait patiemment la bobine des résultats
intermédiaires nécessaires à la compréhension du résultat final.
Le problème des temps de recouvrement fournit un exemple caractéristique de la théorie dite
”moderne” des chaı̂nes de Markov. Alors que la théorie dite classique des chaı̂nes de Markov
était centrée sur la vitesse de convergence en temps long d’une chaı̂ne donnée vers sa mesure
stationnaire, la théorie moderne consiste plutôt à considérer des familles de chaı̂nes de Markov
dont l’espace d’état croit, et à estimer pour ces familles des quantités caractéristiques (ici le
temps de recouvrement, c’est-à-dire le temps mis par un marcheur aléatoire sur un graphe pour
visiter chaque sommet du graphe) lorsque la taille de l’espace d’état tend vers l’infini. Cette
théorie moderne est développée depuis les années 80 et elle est motivée par des applications en
algorithmique et physique statistique.
Mentionnons les quelques résultats essentiels contenus dans ce cours :
— tout d’abord, le théorème de convergence des chaı̂nes de Markov (et sa démonstration
en particulier, hautement généralisable),
— la représentation des mesures stationnaires par les fonctions de Green (attribuée à
Aldous-Fill), qui justifie l’approche probabiliste,
— la représentation probabiliste des extensions harmoniques au moyen des chaı̂nes de Mar-
kov stoppées en un temps d’arrêt (problème de Dirichlet),
— l’équivalence entre les chaı̂nes réversibles et les réseaux électriques, qui culmine avec le
principe de Thomson (une description énergétique/variationnelle des fonctions harmo-
niques),
— l’identité du temps de transport (qui motive pour beaucoup l’intérêt de la résistance
équivalente) et la borne de Matthews.
L’objectif de ces notes est d’aider l’élève à délimiter les notions du livre dont nous ferons
usage plutôt que de se substituer à la lecture du dit ouvrage ; Nous conseillons la lecture parallèle
des chapitres 1, 2, 9, 10 et 11 de l’ouvrage de Levin Peres pour approfondir les notions du cours.
Mes remerciements aux étudiants de L3 MFA d’Orsay promotion 2017-2018, Damien Gi-
1. le calcul du temps de recouvrement du tore fait l’objet d’une publication en 2004, Dembo, A., Y. Peres,
J. Rosen, and O. Zeitouni. 2004. Cover times for Brownian motion and random walk in two dimensions, Ann.
Math. 160, 433-464
3
rault et Léo Hahn-Leclerc, dont le mémoire ”Chaı̂nes de Markov et Arbres couvrants aléatoires”
a fourni une base solide à ces notes et stimulé l’écriture de celles-ci.
Notations :
N = {0, 1, 2, 3, . . .}, N? = N \ {0}, Z = {. . . , −2, −2, 0, 1, 2, . . .}, R =] − ∞, +∞[ ont leur
signification traditionnelle (française), et l’ordre total ≤ dont ces ensembles sont munis (ainsi
que sa version stricte <) également ; en revanche, le symbole d’inclusion ⊂ fera toujours référence
à une inclusion large d’ensembles, c’est-à-dire avec égalité possible (et on précisera en toute
lettre le cas d’une inclusion stricte). Aussi, par souci de légèreté, la probabilité conditionnelle
P(B∩C) sera quelquefois abrégée en P(B, C), de même pour les probabilités conditionnnelles où
P(A|B, C) pourra remplacer P(A|B ∩ C). Si S est un ensemble, #S et |S| sont deux notations
pour son cardinal.
Enfin, par souci de concision et de clarté, on ne précisera pas en général l’espace sur lequel
sont définies nos variables aléatoires (Ω ayant déjà un rôle autre), ni la tribu dont on munit cet
espace : dans le cas d’un espace d’état discret, ces notions n’ont que peut d’intérêt et ne posent
pas de difficultés.
4
Table des matières
1 Matrices stochastiques 7
1.1 Le semi-groupe des matrices stochastiques. . . . . . . . . . . . . . . . . . . . . . 7
1.2 L’ensemble des mesures stationnaires . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définition et existence d’une mesure stationnaire . . . . . . . . . . . . . . 8
1.2.2 Unicité de la mesure stationnaire et irréductibilité . . . . . . . . . . . . . 10
1.3 Convergence et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Matrices stochastiques et réversibilité . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Spectre et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Irréductibilité et matrice triangulaire par blocs. . . . . . . . . . . . . . . 16
2 Les chaı̂nes associées aux matrices 19

2.1 Construction des chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Loi marginale de la chaine . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 La propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Représentation de la mesure stationnaire par des temps d’arrêt . . . . . . . . . 27
2.4 L’exemple de la ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Quelques mots sur la propriété de Markov forte . . . . . . . . . . . . . . . . . . 33
3 Réseaux électriques (a.k.a. chaı̂nes réversibles) 35

3.1 Chaı̂nes de Markov réversibles et réseau. . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Principe de Dirichlet pour les fonctions harmoniques . . . . . . . . . . . . . . . 36
3.3 Tension, flot et flot courant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Résistance équivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Temps de transport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6 Énergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7 Réduction de réseaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.8 En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4 Temps d’atteinte et temps de couverture 49

4.1 Cas réversible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Borne de Matthews (de l’aléa pour construire une borne supérieure) . . . . . . . 51
5 Application : temps de couverture du tore 55

5.1 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1 Vocabulaire des graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.2 Queue de distribution et espérance . . . . . . . . . . . . . . . . . . . . . 60
5
6 TABLE DES MATIÈRES
Chapitre 1
Matrices stochastiques
C’est un jour pluvieux sur le plateau de Saclay. Et on se prend à regretter le bon vieux
temps des khôlles quotidiennes. Et si l’on multipliait des matrices ? Mais pas n’importe quelles
matrices, des matrices...stochastiques 1 .
1.1 Le semi-groupe des matrices stochastiques.

Soit Ω un ensemble fini, et P = (P (x, y))x,y∈Ω une matrice à coefficients réels indicée par Ω.
On notera que P est une matrice carrée. Noter qu’on pourrait sans perte de généralité prendre
Ω = {1, 2, . . . , n}, mais il n’est pas plus gênant de travailler avec un ensemble Ω quelconque,
sans compter que cela peut éviter des confusions entre les entrées des matrices (des nombres)
et les éléments qui indicent ces entrées (des éléments de Ω). Aussi, dans les applications à
venir, nous prendrons souvent pour Ω les sommets d’un graphe, et il n’est pas toujours naturel
d’étiquetter par {1, . . . , n} les sommets d’un graphe.
Définition 1.1. On appelle matrice stochastique sur Ω une matrice P = (P (x, y))x,y∈Ω carrée
dont les entrées sont positives et dont les lignes somment à 1 c’est-à-dire :
1. Pour tout x, y ∈ Ω, P (x, y) ≥ 0.
P
2. Pour tout x ∈ Ω, y∈Ω P (x, y) = 1.
Remarque 1.2. Noter qu’une matrice stochastique n’a rien d’aléatoire, contrairement à ce que
son nom peut laisser penser. Le lien avec l’aléa sera explicité en Section 2.
Si Q = Q(x, y)x,y∈Ω est une autre matrice indicée par Ω, on rappelle que le produit matriciel
P Q est défini par X
P Q(x, z) = P (x, y)Q(y, z),
y∈Ω
il possède notamment la propriéte d’associativité, et on note, dans ce cadre, le
Lemme 1.3. Si P et Q sont deux matrices stochastiques sur Ω, alors P Q est encore une
matrice stochastique.
P P P P P
Démonstration.
P La positivité est immédiate, et z P Q(x, z) = z ( y P (x, y)Q(y, z)) = y P (x, y)( zQ
y P (x, y) = 1.
En conséquence, la famille obtenue en considérant les produits successifs de P par elle-même,
c’est-à-dire la famille (P t )t∈N , est une famille de matrices stochastiques. (Pour t = 0, on obtient
P 0 , par convention la matrice identité, qui est aussi stochastique). L’ensemble des matrices
1. Attention, ces matrices dites stochastiques n’ont rien d’aléatoire !
7
8 CHAPITRE 1. MATRICES STOCHASTIQUES
stochastiques forme un ensemble compact (en tant que sous-ensemble fermé borné d’un espace
euclidien - on rappelle l’hypothèse clef que Ω est fini), donc la suite (P t )t∈N admet des points
d’accumulation. (La dimension étant finie, le choix de la norme n’est pas important). On se
demande dans la suite de ce chapitre quand l’ensemble des points d’accumulation est réduit à
un point, c’est-à-dire quand la suite converge.
1.2 L’ensemble des mesures stationnaires

On rappelle qu’on peut faire le produit d’une matrice par un vecteur (colonne) par la droite
ou par un vecteur (ligne) par la gauche. Si f = (f (y))y∈Ω et π = (π(x))x∈Ω , on pose pour tout
x, y ∈ Ω, X X
P f (x) = P (x, y)f (y) et πP (y) = π(x)P (x, y).
y∈Ω x
P
On peut aussi former des quantités scalaires comme la quantité πP f = x,y∈Ω π(x)P (x, y)f (y).
Si l’on munit l’ensemble des fonctions f : Ω → R de la norme infinie, alors P est une contraction :
kP f k∞ ≤ kf k∞ ; aussi, si π est une mesure de probabilité, alors πP est encore une mesure de
probabilité. Les quantités les plus importantes associées à une matrice sont ses valeurs propres
et ses vecteurs propres. Dans les cas des matrices stochastiques, on note que, par définition,
P 1= 1,
avec 1= (1)x∈Ω , d’où :

Lemme 1.4. 1 est valeur propre à droite, et pour le sous-espace propre associé, on a Ker(P −I)
⊃ Vect(1).
Nous verrons plus loin une condition qui assure l’égalité entre ces deux ensembles.
1.2.1 Définition et existence d’une mesure stationnaire

Définition 1.5. Soit P matrice stochastique. Une mesure de probabilité π = (π(x))x∈Ω sur
Ω est stationnaire pour P si π est un vecteur propre à gauche de P pour la valeur propre 1,
c’est-à-dire que,
πP = π. (1.1)
P Il s’agit d’une égalité entre vecteurs lignes : pour tout y ∈ Ω, πP (y) = π(y), avec (πP )(y) =
x π(x)P (x, y).
Définition 1.6. Soit P matrice stochastique. On note

X
IP = {π = (π(x))x∈Ω : π(x) = 1 et πP = π}
x
l’ensemble des mesures de probabilité stationnaires de P .

Remarque 1.7. On rencontre aussi la terminologie ”mesure invariante”.
Il s’agit d’un sous-ensemble convexe de l’ensemble des mesures de probabilité sur Ω. Notons
que, pour tout t ∈ N, IP ⊂ IP t , c’est-à-dire qu’une mesure de probabilité stationnaire pour
P l’est aussi pour P t , puisque π = πP implique πP = πP 2 , πP 2 = πP 3 , . . . , πP t−1 = πP t en
multipliant par la droite par P, . . . , P t−1 , et partant π = πP t .
Maintenant, sous quelles conditions IP est-il non vide ? réduit à un seul élément ? Nous
commençons par répondre par l’affirmative à la première question, au moyen d’un argument de
type Césaro.
1.2. L’ENSEMBLE DES MESURES STATIONNAIRES 9
Proposition 1.8 (Existence). Soit P matrice stochastique. Alors IP 6= ∅.
Insistons sur le fait que notre espace d’état est fini. Quand ce n’est pas le cas, IP peut être
vide, il peut ne pas exister de mesure de probabilité stationnaire : considérer l’exemple de la
matrice stochastique associée au shift vers la droite sur Z (infini), donné par P (x, y) = 1y=x+1
pour tout x, y ∈ Z, est à cet égard instructif : seule la mesure de comptage et ses multiples sont
des mesures stationnaires, mais elles ne sont pas de probabilité.
Première preuve de la Proposition 1.8. Soit µ mesure de probabilité sur Ω. Posons, pour t ∈ N,
Pt−1
1
νt = t s=0 µP s . L’intérêt de cette expression est que la différence fait apparaı̂tre une somme
télescopique :
t t−1
1X s 1X 1
νt P − νt = µP − µP i = (µP t − µ).
t s=1 t s=0 t
Soit x ∈ Ω. On a
1 1 2
|νt P (x) − νt (x)| = |µP t (x) − µ(x)| ≤ (|µP t (x)| + |µ(x)|) ≤ .
t t t
De plus, la suite (νt )t∈N est à valeurs dans [0, 1]Ω qui est un compact. On peut donc extraire
une sous-suite (νtk ) qui converge vers une limite ν, avec tk → ∞ avec k par définition. On a
alors |νtk P (x) − νtk (x)| ≤ t2k , et l’on conclut par continuité que νP (x) = ν(x).
Il existe également une preuve algébrique, basée sur le :
Lemme 1.9 (Lemme de Perron Frobenius). Soit P matrice stochastique sur Ω qui admet
un vecteur propre à gauche µ pour une valeur propre α de module 1. Alors le vecteur |µ| =
(|µ(x)|)x∈Ω est un vecteur propre à gauche pour la valeur propre 1.
P
Démonstration. Notons que α · µ(y) = x µ(x)P (x, y) implique, pour chaque y ∈ Ω,
X X
|µ(y)| = |α| · |µ(y)| = |αµ(y)| = | µ(x)P (x, y)| ≤ |µ(x)|P (x, y)
x x
tandis qu’on a égalité des sommes de ces mêmes quantités sur y :

X XX
|µ(y)| = ( |µ(x)|P (x, y))
y y x
P
Partant, |µ(y)| = x |µ(x)|P (x, y) vaut pour tout y ∈ Ω.
Deuxième preuve de la Proposition 1.8. P 1 = 1 donc 1 valeur propre de P − In (In la matrice

identité de dimension n = |Ω|), c’est-à-dire dim Ker(P − In ) ≥ 1, donc par le théorème du
rang, dim Ker(P − In ) ≥ 1, or cette quantité vaut aussi dim Ker((P − In )| ), (la transposée,
pas la puissance t-ième de la matrice), c’est-à-dire que (P − In )| admet un vecteur propre
µ| associé à la valeur propre 1 ; le lemme de Perron-Frobenius garantit alors que le vecteur
colonne |µ|| est encore un vecteur propre pour la valeur propre 1, et on peut le normaliser en
mesure P de probabilité pour obtenir une mesure de probabilité stationnaire : le vecteur ligne
|µ(x)|/ y |µ(y)|
1.2.2 Unicité de la mesure stationnaire et irréductibilité

Il n’y a aucune raison pour que la mesure stationnaire soit unique : il suffit pour cela de
considérer le cas par exemple de P1 et P2 deux matrices stochastiques sur Ω1 et Ω2 respective-
ment, et deux mesures invariantes π1 et π2 pour ces matrices stochastiques. Alors on forme sur
la réunion disjointe Ω = Ω1 ∪ Ω2 une matrice stochastique

P1 0
P = (1.2)
0 P2
alors les mesures π1 et π2 se prolongent sur Ω (en attachant la mesure nulle aux ensembles
sur lesquelles elles ne sont pas définies) et ces deux mesures sont deux mesures de probabilité
stationnaires distinctes. La question de l’unicité de la mesure invariante réclame donc une
nouvelle définition.
Définition 1.10. On dit que P est irréductible lorsque, pour tout x, y ∈ Ω, il existe t =
t(x, y) ∈ N tel que P t (x, y) > 0.
Si une matrice (stochastique) qui ne comporte que des coefficients strictement positifs est
évidemment irréductible (prendre t = 1 pour chaque couple x, y), les matrices stochastiques
qui nous intéressent en pratique comprennent beaucoup de 0, ce sont typiquement des matrices
d’adjacence de graphes dits dilués (sparses
en anglais), c’est-à-dire des graphes à n sommets qui
comptent O(n) arêtes (à comparer aux n2 = O(n2 ) arêtes possibles dans un tel graphe) : penser
aux matrices d’adjacence de n-cycles, ou du produit cartésien d’un nombre fini de n-cycles.
La définition suivante introduit la notion de fonction harmonique, qui ”précise” de façon
plus locale la notion de vecteur propre à droite pour la valeur propre 1.
Définition 1.11. Soit P stochastique, h : Ω → R, x ∈ Ω et Ω0 ⊂ Ω.

— On dit que est h est harmonique en x si P h(x) = h(x).
— On dit que h est harmonique sur Ω0 si h est harmonique en tout point de Ω0 .
En particulier, h harmonique sur Ω est donc un vecteur propre à droite pour P . L’irréductibilité
a une implication immédiate sur l’espace propre associé à la valeur propre 1, et permet de
préciser le lemme 1.4.
Proposition 1.12. Soit P irréductible. Si h est harmonique sur Ω entier, alors h est constante.
En d’autres termes,
Ker(P − I) = Vect(1) .
Démonstration. Soit x ∈ Ω qui maximise h, et y ∈ Ω. Il existe t ∈ N tel que P t (x, y) > 0. Ainsi :
h(x) = P t h(x) = z P t (x, z)h(z) implique, pour tout z tel que P t (x, z) > 0, h(z) = h(x). Ceci
P
vaut en particulier pour y.
Lemme 1.13 (Positivité). Soit P irréductible. Si π ∈ IP , alors pour tout x ∈ Ω, π(x) > 0.
P
Démonstration. Puisque π est une mesure de probabilité, z∈Ω π(z) = 1 donc il existe y ∈ V
tel que π(y) > 0. Soit maintenant x ∈ Ω. P est irréductible donc il existe t = t(y, x) ∈ N tel
que P t (y, x) > 0. Donc
X
π(x) = π(z)P t (z, x) ≥ π(y)P t (y, x) > 0.
z∈V
La question de l’unicité de la mesure stationnaire est dès lors très vite tranchée.
1.3. CONVERGENCE ET PÉRIODICITÉ 11
Proposition 1.14 (Unicité). Soit P irréductible. #IP = 1

Démonstration. Il suffit au vu de la proposition 1.8 de prouver l’unicité. Nous proposons deux
démonstrations, chacune basée sur un des deux résultats précédents.
1. Soient π1 , π2 ∈ IP . L’application z 7→ π1 (z)/π2 (z) est bien définie par le lemme de
positivité 1.13, et on note x un élément en lequel cette application atteint un minimum.
Il existe y ∈ V tel que π1 (x)/π2 (x) ≤ π1 (y)/π2 (y). P est irréductible donc il existe t ∈ N
tel que P t (y, x) > 0. Puisque π1 ∈ IP ⊂ IP t , on a :
X π1 (z)
π1 (x) = π2 (z)P t (z, x) en forçant l’apparition du terme π2 (z)
z∈V
π2 (z)
X π1 (x)
≥ π2 (z)P t (z, x)
z∈V
π2 (x)
π1 (x)
= π2 (x) car π2 ∈ IP ⊂ IP t
π2 (x)
= π1 (x),
d’où l’on tire qu’il y a en fait égalité dans l’inégalité : pour tout z ∈ Ω, π1 (z)/π2 (z)P t (z, x) =
π1 (x)/π2 (x)P t (z, x) et dans le cas de y, on peut simplifier pour obtenir π1 (y)/π2 (y) =
π1 (x)/π2 (x). Ceci étant valable pour tout y, l’application z 7→ π1 (z)/π2 (z) est constante
et donc π1 et π2 sont deux mesures de probabilité proportionnelles, c’est-à-dire égales.
2. Le résultat sur les fonctions harmoniques implique Ker(P − I)=Vect(1) (alors qu’on
savait seulement dans la deuxième preuve de la Proposition 1.8 que dim Ker(P −In ) ≥ 1),
et les mêmes arguments (théorème du rang et transposée) impliquent que dim(Ker((P −
I)| ))= 1, donc il y a au plus une mesure de probabilité stationnaire (il faut encore que
les coordonnées soient positives ou nulles, et c’est Perron-Frobenius qui garantit ce fait).
Une obstruction claire à l’irréductibilité est par exemple la présence d’etats absorbants au
sens suivant :
Définition 1.15. Soit P matrice stochastique sur Ω. Un état x ∈ Ω est dit absorbant pour P
si P (x, x) = 1.
Lemme 1.16. S’il existe un état absorbant pour P , alors P n’est pas irréductible.
Démonstration. En effet, puisque P (x, x) = 1, et si y 6= x, alors pour tout t ∈ N, P t (x, y) ≤
t t
P
z6=x P (x, z) = 1 − P (x, x) = 1 − 1 = 0.
1.3 Convergence et périodicité

Nous revenons maintenant à la question de la convergence de la suite (P t )t∈N - a priori
sans lien avec l’unicité de la mesure stationnaire. Une obstruction claire à la convergence est
un phénomène de périodicité, dont l’exemple le plus simple est sans doute celui de la matrice
(irréductible suivante) :
0 1
P = (1.3)
1 0
qui vérifie P 2t+1 = P , tandis que P 2t = I pour t ∈ N. En particulier, on ne peut avoir
convergence des coefficients de la matrice. La description de ces phénomènes nous amène à
poser une nouvelle définition.
Définition 1.17. Soit x ∈ Ω. On pose T (x) : ={t ∈ N, P t (x, x) > 0} et on appelle période de
x l’entier pgcd(T (x)).
Le pgcd d’un sous-ensemble non vide S de N est le plus grand des diviseurs communs de S
(qui existe bien puisque cet ensemble est non vide - il contient 1 - et majoré - par le plus petit
élément de S), c’est-à-dire le maximum de l’ensemble AS = {a ∈ N? , S ⊂ aN}. Par le théorème
de Bachet Bézout, si Z[S] désigne l’ensemble des combinaisons linéaires à coefficients entiers
relatifs d’éléments de S, alors
Z[S] = g.Z, où g = pgcd(S).
Proposition 1.18. Soit P stochastique irréductible. Les éléments de Ω ont tous la même
période.
Démonstration. Soient x, y ∈ Ω. Il suffit de démontrer que pgcd(T (x)) = pgcd(T (y)). P est
irréductible donc il existe t1 , t2 ∈ N tels que P t1 (y, x) > 0 et P t2 (x, y) > 0. On pose t0 = t1 + t2 .
Alors, si t ∈ T (x).
X
P t0 +t (y, y) = P t1 (y, z)P t (z, z)P t2 (z, y) ≥ P t1 (y, x)P t (x, x)P t2 (x, y) > 0,
z∈Ω
d’où t + t0 ∈ T (y), et en particulier, en prenant t = 0 dans l’expression ci-dessus t0 ∈ T (y).

En terme de pgcd, cela signifie que pgcd(T (y)) divise t0 et t + t0 et donc aussi leur différence
t. Mais puisque cela vaut pour tout t ∈ T (x), ceci implique pgcd(T (y)) ≤ pgcd(T (x)). Par
symétrie, pgcd(T (x)) ≤ pgcd(T (y)) vaut également. Et finalement pgcd(T (x)) = pgcd(T (y)),
comme attendu.
Cette proposition rend licite la définition suivante :
Définition 1.19. Soit P matrice stochastique irréductible. On appelle période de P la période
d’un élément quelconque de Ω . Dans le cas où cette période vaut 1 on dit que P est irréductible.
On peut rencontrer la définition suivante : ”P apériodique si tous ses éléments sont de
période 1”, qui ne requiert pas explicitement l’irréductibilité de la chaı̂ne pour parler de période.
Ne connaissant pas d’énoncés au sujet des matrices apériodiques en ce sens, on conserve notre
définition plus restrictive.
Exemple 1.20. Pour n entier ≥ 3, considérons la matrice n × n définie sur l’espace d’état
{1, . . . , n} par :
 
0 1/2 1/2
1/2 0 1/2 
. ..
 
P = 1/2 . . .
 

 .. .. 
 . . 1/2
1/2 1/2 0
Les éléments non spécifiés ce cette matrice sont égaux à 0 de manière à obtenir une matrice
stochastique. Cette matrice peut être vue comme une généralisation de la matrice (1.3), qui
correspond en une sens au cas n = 2 (sommer les deux coefficients 1/2 qui se trouvent affectés
à chacune des deux entrées non diagonales).
La périodicité de cette matrice dépend alors de la parité de n ; s’il est clair que la période
est plus petite que 2 (partant de x, on peut toujours revenir a x en 2 pas), elle peut aussi
valoir 1 ; cela dépend en fait de la parité de n, qui correspond au nombre de pas nécessaires
pour parcourir le n-cycle : on pourra trouver des t impairs tels que P t (x, x) > 0 ssi la longueur
du cycle est impaire en effet. On verra plus tard que cette matrice est associée à la marche
aléatoire simple sur Z/nZ.
1.3. CONVERGENCE ET PÉRIODICITÉ 13
La proposition clef qu’on montre sous l’hypothèse d’apériodicité est la suivante.
Proposition 1.21. Si P est irréductible apériodique, alors il existe ε > 0 et t0 ∈ N tel que
pour tout x, y ∈ Ω, P t0 (x, y) ≥ ε. (1.4)
Attention, l’ordre des quantificateurs est clef dans cette proposition ! La preuve de la pro-
position nécessite un lemme d’arithmétique, que nous ne démontrerons pas (voir par exemple
le livre de Levin Peres) :
Lemme 1.22 (Lemme de Schur). Un sous-ensemble S ⊂ N stable par somme (t, s ∈ S ⇒

t + s ∈ S) tel que pgcd(S) = 1 vérifie :
#(N \ S) < ∞,
c’est-à-dire que S contient tous les entiers sauf un nombre fini.
Démonstration de la Proposition 1.21. Soit x ∈ Ω. Observons que T (x) est stable par somme
et que pgcd(T (x)) = 1 par apériodicité. Le lemme de Schur assure alors qu’il existe t(x) tel que
pour tout t ≥ t(x), t ∈ T (x). De plus, pour tout y ∈ Ω, toujours par irréductibilité, il existe
t(x, y) ∈ N tel que P t(x,y) (x, y) > 0. Donc, pour tout t ≥ t(x) + t(x, y), P t (x, y) > 0. Ainsi,
pour t0 := maxx∈Ω (t(x) + maxy∈Ω t(x, y)), on a pour tout x, y, P t0 (x, y) > minx,y P t0 (x, y) > 0
en utilisant que l’espace d’état est fini.
Il reste maintenant un petit pas pour arriver au théorème de convergence, qui est le résultat
fondamental de ce chapitre, sinon du cours. On note btc la partie entière de t (définie de façon
unique par les deux propriétés : btc ≤ t < btc + 1 et btc ∈ Z).
Theorème 1.23. Soit P matrice stochastique irréductible apériodique, et π son unique mesure
stationnaire. Pour ε et t0 qui satisfont (1.4), on a pour tout (x, y) ∈ Ω2 ,
X
|P t (x, y) − π(y)| ≤ 2(1 − ε)bt/t0 c .
y
Ce résultat implique que P t (x, y) admet quand t → ∞ une limite π(y) qui ne dépend pas
de l’entrée x. En termes de matrice, P t converge donc vers la matrice de rang 1 (on rappelle
que le rang d’une matrice est la dimension de l’image de l’application linéaire associée) dont
les lignes sont toutes égales à π. Cette matrice est bien sûr encore une matrice stochastique,
puisque cet ensemble est fermé. Si l’on sait que t0 et ε existent de la propriété d’apériodicité, il
importe en pratique de trouver des valeurs numériques de façon à maximiser (1 − ε)1/t0 : c’est
ce qui est difficile. Le fait que la vitesse de convergence soit toujours exponentielle est encore
une simplification liée à notre espace d’état fini.
Démonstration d’après Aldous–Diaconis. On pose Π la matrice carrée dont toutes les lignes
sont égales à π, et on vérifie immédiatement que P Π = ΠP = Π (seule la deuxieme identité
requiert π ∈ IP ). Pour ε et t0 fournis par la relation 1.21, on définit par la relation :
P t0 = εΠ + (1 − ε)Q
une matrice Q à coefficients positifs ou nuls, dont on vérifie sans souci qu’elle est stochastique.
De plus, multipliant à gauche par Π, on a Π = εΠ + (1 − ε)QΠ d’où QΠ = Π. Et multipliant
à droite par Π, on a : Π = εΠ + (1 − ε)QΠ d’où ΠQ = Π. Soit k ∈ N. Ces deux relations
conduisent aux simplifications suivantes lorsqu’on applique la formule du binôme de Netwon

(valables dans tout anneau commutatif) :
P t0 k = ((1 − ε)Q + εΠ)k

k−1
k
X
k k
= (1 − ε) Q + (1 − ε)j εk−j Π car ΠQ = QΠ = Π et Π2 = Π
j
j=0
k
X k
k
= (1 − ε) Q + k
(1 − ε)j εk−j Π − (1 − ε)k Π
j
j=0
= (1 − ε) Q + Π − (1 − ε)k Π
k k
= (1 − ε)k (Qk − Π) + Π.
Il faut aussi prendre en compte le reste que peut laisser la division euclidienne d’un entier
arbitraire par t0 . Pour r ∈ {0, . . . , t0 − 1}, on forme donc la différence
P t0 k+r − Π = (P t0 k − Π)P r car Π = ΠP r

= (1 − ε)k Qk − Π P r

du calcul précédent
k
Qk P r − Π

= (1 − ε)
Ainsi y |P t0 k+r (x, y) − π(y)| ≤ (1 − ε)k y |Qk P r (x, y) − π(y)| ≤ 2(1 − ε)k en notant que
P P
Qk P r est stochastique.
Une analyse de la démonstration montre que la propriété clef est la minoration ”pour tout
x, y ∈ Ω, P t0 (x, y) ≥ ε ≥ επ(y).” C’est l’inégalité entre les membres extrêmaux que l’on utilise
dans la preuve, c’est aussi celle qui s’étend aux espaces d’états infinis (en effet, la première de
ces deux inégalités ne peut avoir lieu lorsque Ω est infini pour une probabilité (sommer sur y)).
Nous verrons enfin en TD que les itérées successives (P t )t∈N convergent toujours au sens de
Césaro, et ceci sans faire aucune hypothèse d’apériodicité en particulier, c’est -à-dire que :
s
P
0≤s<t P
−→ Π quand t → ∞.
t
De plus, chaque ligne de la matrice limite Π fournit une mesure stationnaire de P (mais si l’on
ne suppose pas l’irréductibilité de P , ces mesures ne sont pas forcément égales).
1.4 Matrices stochastiques et réversibilité

Finissons ce chapitre en introduisant une dernière notion : la réversibilité. On peut voir
cette notion sous deux aspects : d’une part elle exprime une forme d’invariance en loi par
renversement du temps, d’autre part, lorsqu’elle est vérifiée, elle permet de trouver de façon
économique une mesure invariante.
Définition 1.24. Soit P stochastique et π une mesure sur Ω. P est dite réversible par rapport
à π si pour tout x, y ∈ Ω
π(x)P (x, y) = π(y)P (y, x). (1.5)
Par extension, on dira simplement que P est réversible s’il existe une mesure de probabilité π
tel que P soit réversible par rapport à π.
1.4. MATRICES STOCHASTIQUES ET RÉVERSIBILITÉ 15
Noter que l’équation (1.5) est automatiquement vérifiée sur la diagonale {x = y} : il suffit
donc de la vérifier pour x 6= y. Noter que la réversibilité de P par rapport à π est équivalente
à l’énoncé : pour tout x1 , . . . , xn ∈ Ωn ,
π(x1 )P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = π(xn )P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 )
qui implique, si P est irréductible (à l’aide du lemme 1.13) et si x1 = xn , que
P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 ) (1.6)
Réciproquement, on peut vérifier que si tout suite x1 . . . xn ∈ Ωn avec x1 = xn satisfait (2.1),
alors P est réversible. C’est le critère dit de Kolmogorov, qui permet de vérifier la réversibilité
sans connaı̂tre π. C’est un exercice intéressant (non trivial) que de prouver ce critère.
L’intérêt de la réversibilité est exprimée par la proposition ci dessous :
Proposition 1.25. Si P est réversible par rapport à π, alors π est une mesure stationnaire
pour P .
Démonstration. Soit x ∈ Ω. Il suffit d’appliquer la définition :
X X
πP (x) = π(y)P (y, x) = π(x)P (x, y) = π(x)
y∈V y∈V
Au vu de la simplification que constitue la réversibilité dans la recherche des mesures sta-

tionnaires, il importe de comprendre quand une matrice stochastique P a des chances d’être
réversible (et donc de développer son intuition sur ce qu’est la réversibilité pour ne chercher
à l’obtenir que quand elle a des chances d’être vérifiée). Nous proposons plusieurs pistes en ce
sens.
D’abord, on peut formuler une condition suffisante de réversibilité à l’aide des seules entrées
non nulles de la matrice P , c’est-à-dire à l’aide du seul graphe dirigé induit par la matrice
stochastique, voir l’annexe 5.1.1
Lemme 1.26. Soit P stochastique irréductible tel que P (x, y) > 0 ≡ P (y, x) > 0, et soit G le
graphe non dirigé associé à P . Si G est un arbre, c’est-à-dire un graphe sans cycle 2 alors P est
réversible.
La démonstration, omise, prend la forme suivante : s’étant donné un sommet x ∈ Ω, il suffit
de déterminer π(y) en fonction de π(x) pour tout sommet y ∈ Ω de proche en proche, ce qui est
toujours possible du fait de l’absence
P de cycles (on peut formaliser ce raisonnement en exercice).
La condition de normalisation z π(z) = 1 permet finalement π(x). Nous verrons plus loin, à
la proposition 3.4, une caractérisation (CNS) des matrices stochastiques réversibles, formulée
en terme de toute la matrice stochastique cette fois, et s’applique à des graphes plus généraux.
Enfin, il est bon de noter qu’une matrice symétrique est réversible (quelle mesure π choisir
alors ?), comme on le verra en exercice.
Notons pour terminer la conséquence suivante facile de la réversibilité sur la période.
Lemme 1.27. — Soit x tel que π(x) > 0 et P réversible. Alors la période de x est au plus
2.
— Si P est de plus irréductible, alors la période de P est au plus 2.
Démonstration. Soit x comme dans le premier énoncé. Il existe y tels que P (x, y) > 0. Ensuite
π(x)P (x, y) = π(y)P (y, x) implique, puisque π(x) > 0 que P (y, x) et partant P (x, y)P (y, x)
sont des quantités strictement positives. Mais P 2 (x, x) ≥ P (x, y)P (y, x) donc 2 ∈ T (x).
2. pour un graphe G = (V, E), on appelle cycle une suite d’arêtes {x1 , x2 }, {x2 , x3 }, . . . , {xn−1 , xn } ∈ E n−1
deux à deux distinctes telles que x1 = xn
1.5 Compléments
1.5.1 Spectre et périodicité
La périodicité d’une matrice stochastique a une traduction spectrale simple en terme des
valeurs propres de module 1. On rappelle que, pour a ∈ N? , ω ∈ C une racine a-ième de l’unité
si ω a = 1. L’ensemble des racines a-ièmes de l’unité est explicite, il s’agit de
2ikπ
{e a , k ∈ {0, . . . , a − 1}}.
Proposition 1.28 (Condition nécessaire d’apériodicité). Soit P stochastique irréductible et ω

une racine a-ième de l’unité. Alors T (x) ⊂ aN si et seulement si ω est une valeur propre de P .
Démonstration. Supposons T (x) ⊂ aN et soit ω une racine a-ième de l’unité. Soit x0 ∈ Ω et,
pour k ∈ {0, . . . , a − 1},
Ωk = {y ∈ Ω : ∃t ∈ aN + k, P t (x0 , y) > 0}.
On a alors par irréductibilité la décomposition Ω = Ω0 ∪ ... ∪ Ωa−1 , et nous affirmons que la

réunion est disjointe. Supposons en effet qu’il existe y ∈ Ω avec y ∈ Ωi ∩Ωj , 0 ≤ i 6= j ≤ a−1. Il
existe alors s ∈ aN + i et t ∈ aN + j tels que P s (x0 , y), P t (x0 , y) > 0. De plus, par irréductibilité
de P , il existe r ∈ N avec P r (y, x0 ) > 0 et donc s + r, t + r ∈ T (x0 ), et donc a divise ces deux
éléments ainsi que leur différence t − s et donc j − i, ce qui est absurde car |j − i| < a. Notons
aussi que, si x, y ∈ Ω vérifient P (x, y) > 0 et x ∈ Ωk alors y ∈ Ωk+1 mod a . Partant le vecteur
v = 1Ω0 + ω1Ω1 + ... + ω a−1 1Ωa−1 satisfait P v(x) = ωv(x) pour tout x ∈ Ω.
Supposons réciproquement ω valeur propre de P et montrons que T (x) ⊂ aN. Soit v vecteur
propre associé à la valeur propre ω, et choisissons x0 tel que |v(x0 )| = maxy |v(y)|. Soit k ∈
{0, . . . , a − 1}. Quitte à multiplier la vecteur par un complexe, on peut supposer v(x0 ) = ω −k
et alors, pour tout y ∈ Ω, |v(y)| ≤ |v(x0 )| = 1. Soit alors t ∈ aN + k ,
X
1 = ω k v(x0 ) = ω t v(x0 ) = P t v(x0 ) = P t (x0 , y)v(y)
y∈V
Maintenant une somme pondérée (par une mesure de probabilité) de complexes de module
inférieurs ou égal à 1 ne peut valoir 1 que si tous les complexes valent, c’est-à-dire que P t (x0 , y) >
0 implique v(y) = 1. En particulier, P t (x0 , x0 ) = 0. Comme ceci vaut pour tout t ∈ aN + k, on
en déduit bien T (x0 ) ⊂ aN.
1.5.2 Irréductibilité et matrice triangulaire par blocs.

Notons pour finir une obstruction simple à l’irréductibilité, en introduisant les matrices
triangulaires par blocs.
Définition 1.29. On dit qu’une matrice M indicée par Ω est triangulaire par blocs s’il existe
k ≥ 2 et Ω1 , . . . , Ωk une partition de Ω 3 telle que :
∀i, j ∈ {1, . . . , k}, i 6= j ⇒ Mx,y = 0, si x ∈ Ωi , y ∈ Ωj
Si M est triangulaire par blocs, alors toute puissance de M est encore triangulaire par blocs.
Dès lors :
3. collectionSd’ensembles deux à deux disjoints dont la réunion est égale à l’ensemble Ω entier : i 6= j ⇒
Ωi ∩ Ωj = ∅ et i Ωi = Ω
1.5. COMPLÉMENTS 17
Remarque 1.30. Si P matrice stochastique est triangulaire par blocs, alors P n’est pas
irréductible.
La réciproque est fausse en général : il est possible de trouver des matrices non triangulaires
par bloc et qui ne sont pas irréductibles, considérer par exemple la matrice stochastique

1/2 1/2
P =
0 1
En revanche (preuve laissée au lecteur), sous une hypothèse naturelle, on a la réciproque :
Remarque 1.31. Soit P matrice stochastique qui vérifie :
∀x, y ∈ Ω, (∃t ∈ N : P t (x, y) > 0) ⇒ (∃s ∈ N : P s (y, x) > 0)

Alors P n’est pas irréductible ssi P est triangulaire par blocs.
La condition est par exemple vérifiée par les matrices symétriques (donc les matrices de
transition sur des graphes non dirigés), puisqu’alors P t (x, y) = P t (y, x). Noter que l’implication
au coeur de l’hypothèse ne dit surtout pas( !) que P est irréductible.
Chapitre 2
Les chaı̂nes associées aux matrices
On se propose dans ce chapitre d’explorer le lien entre les evolutions aléatoires connues sous
le nom de chaı̂nes de Markov et les matrices stochastiques étudiées dans le chapitre 1. L’ap-
proche classique des chaı̂nes de Markov commence par énoncer une propriété d’indépendance
conditionnelle, dite propriété de Markov, puis de montrer que cette propriété définit des suites
de variables aléatoires dont l’évolution à un pas est décrite par une matrice stochastique. Nous
prenons la chose à revers en définissant les chaı̂nes de Markov par leur loi exprimée au moyen
d’une matrice stochastique.
Un cas d’étude important sera l’étude des marches aléatoires sur des graphes finis, qui se
trouve relié aux matrices stochastiques réversibles.
2.1 Construction des chaı̂nes

Une probabilité sur un ensemble fini (ou dénombrable) Ω est une collection de nombres
positifs ou nuls qui somment à 1, et sur un tel ensemble, on prend en général la tribu discrète
engendrée par les singletons, qui est égale à l’ensemble des parties de Ω : tout ensemble est alors
mesurable ; pas besoin donc de développer une théorie de la mesure dans ce cadre. En revanche,
dès qu’on travaille sur un espace non dénombrable, la précision de la tribu a son importance.
L’ensemble d’intérêt sera ici ΩN , l’ensemble des suites à valeurs dans Ω, qu’on prendra ici
fini ou plus généralement dénombrable. Intuitivement l’enjeu de la théorie de la mesure est de
constituer des ”paquets de trajectoire” qu’on sera en droit de mesurer, c’est-à-dire auxquels on
pourra associer des probabilités qui satisferont aux axiomes, notamment l’axiome selon lequel a
probabilité d’une réunion dénombrable d’ensembles disjoints est la somme de ces probabilités.
L’approche naı̈ve consistant à associer d’abord des probabilités aux singletons, c’est-à-dire
aux éléments de l’ensemble (en tant que partie : les singletons), en vue d’en déduire ensuite
les probabiltés des parties est mise en défaut dès que l’ensemble des parties de ΩN n’est plus
dénombrable. Pire : bien souvent les singletons sont de probabilité nulle, et donc la donnée de
la probabilité en restriction à ces éléments est peu informative ( !) : c’est une situation que nous
avons déjà rencontrée dans un autre contexte, celui de la construction de la mesure de Lebesgue
sur [0, 1] : les singletons sont de mesure de Lebesgue nulle, et ne caractérisent certainement pas
cette mesure.
On considère donc l’ensemble ΩN des suites à valeurs dans Ω. Excepté le cas trivial où Ω
est réduit à un point, cet ensemble n’est pas dénombrable (on le montre par l’argument de
diagonalisation de Cantor : il suffi de considérer le cas où Ω contient deux points, mettons
Ω = {0, 1} ; supposons qu’il existe une surjection φ : N → {0, 1}N , n 7→ un = (un (m), m ∈ N).
Posons alors v(m) = 1 − um (m), m ∈ N ; v est alors un élément de {0, 1}N qui n’est pas dans
l’image de φ.)
Le premier point est de munir cet ensemble d’une tribu (famille de parties stable par passage
19
20 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES
au complémentaire, par réunion dénombrable, et qui contient l’ensemble entier). La tribu de

toutes les parties de ΩN est trop grosse en général. Deux projections seront importantes dans
ce cadre :
πs : ΩN → Ω, (xt )t∈N → xs et également π≤s : ΩN → Ωs+1 , (xt )t∈N → (xt )0≤t≤s .
Les tribus associées, notées :
σ{πs , s ∈ N} et σ{π≤s , s ∈ N},
sont par définition les plus petite tribus sur ΩN qui rende chacune des projections mesurables.
Ces deux tribus sont égales (le montrer), et sont appelées la tribu cylindrique. Celle-ci n’est pas
la tribu de toutes les parties de ΩN . Notons que, pour s fixé, la tribu σ{π≤s } est explicite :
A ∈ σ{π≤s } ssi il existe B ∈ Ωs+1 tel que A = (π≤s )−1 (B) = {x = (xt )t≥0 , π≤s (x) ∈ B}.
Bien sûr, les cylindres suivants

\
πs−1 ({ys }) = {(xt )t≥0 , ∀0 ≤ s ≤ t, xs = ys } ∈ σ{πs , s ∈ N}.
0≤s≤t
sont dans la tribu cylindrique. Par exemple, l’événement
{(xt )t∈N est constant à partir d’un certain rang }
est dans la tribu cylindrique puisqu’il admet l’expression suivante, en terme de réunions et
d’intersections dénombrables :
{(xt )t∈N constant à partir d’un certain rang} = {∃x ∈ Ω, ∃t ∈ N : ∀s ∈ N, (s ≥ t ⇒ xs = x)}}

[ [ \
= {xs = x}
x∈Ω t∈N s≥t
Maintenant, le modèle probabiliste depuis Kolmogorov est le suivant. On suppose qu’il existe
un espace probabilisé (bien souvent non explicite), (E, F , P), appelé l’espace des événements,
et une application mesurable
(E, F , P) → ΩN , ω 7→ (Xt (ω))t∈N (2.1)
Ce qu’on appelle alors loi de X1 est la mesure image de P par l’application ω 7→ X1 (ω),
c’est une mesure de probabilité sur Ω, notée P(X1 ∈ ·) = P({ω : X1 (ω) ∈ ·}). En tant que
mesure de probabilité sur un espace fini, cette mesure est tout simplement caractérisée par la
collection des nombres (P(X1 = k))k∈N . Dire que l’application (2.1) est mesurable, c’est dire
que pour tout ensemble A de la tribu cylindrique sur ΩN ,
{ω : (Xt )t (ω) ∈ A} ∈ F ,
mais aussi, par définition de la tribu cylindrique, que pour tout t ∈ N, x ∈ Ω, {ω : Xt = x} =

{Xt = x} ∈ F . Maintenant, on peut considérer la plus petite sous-tribu de F qui rend les
applications X0 , X1 , . . . , Xt mesurables :
Définition 2.1. Pour tout t ∈ N, on pose Ft = σ{X0 , X1 , . . . , Xt } la plus petite sous tribu
qui rend mesurable les applications coordonnées X0 , X1 , . . . , Xt , et F∞ la plus petite tribu qui
comprend tous les Ft pour t ∈ N.
2.1. CONSTRUCTION DES CHAÎNES 21
(Point de détail : F∞ n’est pas nécessairement égal à ∪t≥0 Ft ; en effet, une réunion de tribus
n’est pas en gńéral une tribu). Pour chaque t, Ft est une sous tribu de F , et la suite (Ft )t∈N
est une suite croissante de sous-tribus de F . On peut alors montrer le résultat fondamental
suivante : dire qu’une fonction F : E → R est une fonction Ft -mesurable signifie alors qu’il
existe une fonction mesurable de G : Ωt+1 → R telle que
F (ω) = G(X0 (ω), . . . , Xt (ω)).
On définit la loi d’une chaı̂ne de Markov en définissant une mesure de probabilité sur (Ft ).
Pour cela il suffit de définir la mesure des cylindres. Le théorème suivant est aussi une définition.
Nous omettons sa démonstration 1 .
Theorème 2.2. Soit µ mesure de probabilité sur Ω et P matrice stochastique sur Ω. La pro-
priété
t
!
\
∀t ∈ N, (xs )0≤s≤t ∈ Ωt+1 , P {Xs = xs } = µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt ) (2.2)
s=0
définit de façon unique la loi d’une suite de variables aléatoires (Xt )t∈N . Cette suite est la chaı̂ne
de Markov de distribution initiale µ et de matrice de transition P .
Rappelons la notation δx pour la masse de Dirac en x, définie par
δx (A) = 1A (x) pour tout x ∈ Ω, A ⊂ Ω.
Si la chaı̂ne de Markov est définie sur un espace probabilisé dont la mesure de probabilité est
notée P, on notera Pµ par un léger abus 2 la loi de la chaı̂ne de Markov issue de µ, et si µ = δx ,
on note simplement Px = Pδx la loi de la chaı̂ne issue de x,
Lemme 2.3. Soit µ mesure de probabilité sur Ω. On a la décomposition :
X
Pµ = µ(x)Px
x∈Ω
Tt
Démonstration. Il suffit de le vérifier pour un événement A = s=0 {Xs = xs }
X X t
\
µ(x)Px (A) = µ(x)Px ( {Xs = xs })
x∈Ω x∈Ω s=0
X
= µ(x)1{x} (x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
x∈Ω
= µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
t
\
= Pµ ( {Xs = xs })
s=0
= Pµ (A).
Au sujet du vocabulaire, la chaı̂ne de Markov hérite des propriétés de sa matrice de tran-

sition : si celle-ci est irréductible ou apériodique, on dira que la chaı̂ne est irréductible ou
apériodique. Une mesure de probabilité stationnaire de la matrice de transition sera encore
appelée mesure de probabilité stationnaire de la chaı̂ne de Markov.
1. le lecteur intéressé pourra googler ”théorème de Daniell-Kolmogorov” ou ”théorème d’extension de Kol-
mogorov”
2. plusieurs chaı̂nes pourraient être définies sous P en effet, il faut donc veiller à ce que le contexte soit clair,
et savoir de quelle suite de variables aléatoires µ est la loi initiale
2.1.1 Examples
Variables aléatoires iid Il est utile de comparer la forme de la loi des chaı̂nes de Markov à
celle de la loi d’une suite de variables aléatoires indépendantes de loi µ :
t
!
\ Y
t+1
∀t ∈ N, (xs )0≤s≤t ∈ Ω , P {Xs = xs } = µ(xs ),
s=0 0≤s≤t
on voit ainsi, en comparant avec (2.2), que les chaı̂nes de Markov introduisent une première
forme de dépendance entre les différentes coordonnées de la suite. On note aussi que cette suite
définit une chaı̂ne de Markov (certes peu intéressante du point de vue de ce cours) de mesure
initiale et de matrice de transition respectivement données par :
P(X0 = x) = µ(x) et P (x, y) = µ(y).
Untuitivement, une fois en x, on saute en y avec probabilité µ(y) indépendante de x : le

mot de ”chaı̂ne” semble alors un peu fort, tant les maillons de la chaı̂ne entretiennent peu de
liens.
Marche aléatoire simple sur un graphe non dirigé Un autre exemple est fourni par
une la marche aléatoire (simple) sur un graphe non dirigé 3 G = (V, E). L’ensemble de sommets
est V et d’ensemble d’arêtes est E (un sous-ensemble des parties de V à deux éléments). Pour
alléger les notations on note x ∼ y si {x, y} ∈ E. On suppose que le graphe G est sans sommet
isolé, c’est à dire que pour tout x ∈ V , il existe y ∈ V tel que x ∼ y. Notons qu’on peut avoir
x ∼ x : cela signifie que la boucle {x, x} appartient à l’ensemble des arêtes. Alors la matrice de
transition de la marche aléatoire sur le graphe est définie par :
1x∼y X
P (x, y) = avec deg(x) = 1x∼y
deg(x) y∈V
Alors !
t
\ 1 1
P {Xs = xs } = P(X0 = x0 ) · ... · 1x ∼x ∼...xt−1 ∼xt
s=0
deg(x0 ) deg(xt−1 ) 0 1
Marche aléatoire sur Ω Cela concerne la cas où Ω est un groupe additif, de sorte qu’on
puisse faire des additions d’éléments de Ω (pour les cas finis, on peut penser à Z/nZ =
{0, 1, . . . , n − 1} ou même (Z/n/Z)d ; le cas le plus naturel est bien sûr celui de Zd , qui n’est
pas un graphe fini, mais poser la définition suivante ne pose cependant aucun problème). On
pose alors la matrice de transition :
∀x, y ∈ Ω, P (x, y) = η(y − x), η mesure de probabilité sur Ω,
Alors !
t
\
P {Xs = xs } = P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 ) (2.3)
s=0
La variable aléatoire X0 étant donnée, on peut construire comme suit cette chaı̂ne à partir
d’une suite de variables aléatoires i.i.d. (Yt )t∈N de loi η, indépendante de X0 . On pose pour tout
t∈N
Xt+1 = Xt + Yt .
3. l’adjectif ”non dirigé” a son importance, car toute chaı̂ne de Markov peut être vue comme une marche
aléatoire sur un graphe dirigé
2.1. CONSTRUCTION DES CHAÎNES 23
Alors 2.3 vaut en t = 0 par hypothèse, et si elle vaut en t, on la montre comme suit en t + 1 :
t+1
! t
!
\ \
P {Xs = xs } =P {Xs = xs } ∩ {Xt + Yt = xt+1 } par définition de Xt+1
s=0 s=0
t
!
\
=P {Xs = xs } ∩ {xt + Yt = xt+1 }
s=0
t
!
\
=P {Xs = xs } P(Yt = xt+1 − xt ) par indépendance
s=0
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 )η(xt+1 − xt ) par la récurrence
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt+1 − xt )
2.1.2 Loi marginale de la chaine

Le lien crucial entre loi de la chaı̂ne et produit matriciel est exprimé dans le lemme suivant,
qui donne les lois marginales de la chaı̂ne :
Lemme 2.4 (Loi marginale et produit matriciel). On a
∀x, y ∈ Ω, Px (Xt = y) = P t (x, y).
Plus généralement, pour µ une probabilité sur Ω et f : Ω → R, et x ∈ Ω,
Eµ [f (Xt )] = µP t f, et en particulier Ex [f (Xt )] = P t f (x).
Démonstration. On pose la convention xt = x On commence par exprimer l’événement {Xt =

y} comme une réunion sur des chemins dont on évalue ensuite la probabilité en explicitant la
loi de la chaı̂ne de Markov :
 
[ t
\
Px (Xt = y) = Px  {Xs = xs }
(xs )0≤s≤t−1 ∈Ωt s=1
X t
\
= Px {Xs = xs } car la réunion est disjointe
(xs )0≤s≤t−1 ∈Ωt s=1
X t−1
Y
= P(X0 = x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0
X t−1
Y
= δx (x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0
X
= P (x, x1 )P (x1 , x2 ) . . . P (xt−1 , y)
(xs )1≤s≤t−1 ∈Ωt
= P t (x, y) par définition du produit matriciel

Il s’ensuit que
X
µP t f (x) = µ(x)P t (x, y)f (y) par définition de µP t f
x,y∈Ω
X
= µ(x)Px (Xt = y)f (y) vu le résultat précédent
x,y∈Ω
X
= µ(x)Ex [f (Xt )]
x∈Ω
= Eµ [f (Xt )].
Le cas particulier où µ = δx la mesure de Dirac en x donne la dernière identité de l’énoncé.
On reformulera en guise d’exercice la version probabiliste des résultats vus pour les ma-
trices stochastiques, en particulier du théorème de convergence (on connaı̂t plusieurs modes de
convergence pour les suites de variables aléatoires, convergence p.s., convergence en probabilité,
convergence en loi : à quel type de convergence correspond-il ?).
2.2 La propriété de Markov

Définition 2.5. La suite de variables aléatoires (Xt )t∈N satisfait la propriété de Markov lorsque
pour tout t ∈ N, pour tout (xs )0≤s≤t−1 ∈ Ωt tel que P(Xt = x ∩ Ht−1 ) > 0 où Ht−1 =
T
0≤s≤t−1 {Xs = xs }, on a
P (Xt+1 = y | Xt = x, Ht−1 ) = P (X1 = y | X0 = x) . (2.4)
Notons que la relation 2.4 peut encore s’écrire :
P (Xt+1 = y, Xt = x, Ht−1 ) = P (X1 = y | X0 = x) P (Xt = x, Ht−1 ) . (2.5)
ce qui a l’avantage de ne pas demander à ce que P(Xt = x ∩ Ht−1 ) > 0, c’est-à-dire que le
conditonnement soit bien défini. Intuitivement, la propriété de Markov énonce une propriété
d’indépendance conditionnelle parfois ainsi formulée : ”le futur est indépendant du passé condi-
tionnellement au présent”.
Remarque 2.6. Pour être précis, c’est la propriété de Markov dite homogène que nous ve-
nons de présenter. La propriété de Markov inhomogène autorise de plus une dépendance
des transitions en t, dans le sens où le membre de droite de (2.4) se trouve remplacé par :
P(Xt+1 = y | Xt = x).
Notons d’ors et déjà que si (X0 , X1 ) est un couple de variables aléatoires, alors
P (x, y) : = P(X1 = y | X0 = x)
définit une matrice stochastique. On obtient directement le lien entre chaı̂ne de Markov et
propriété de Markov, exprimé dans le théorème suivant :
Theorème 2.7. — Si une suite de variables aléatoires (Xt )t∈N satisfait la propriété de
Markov, alors c’est une chaı̂ne de Markov de matrice de transition P (x, y) = P(X1 =
y|X0 = x).
— Réciproquement, une chaı̂ne de Markov satisfait la propriété de Markov.
Seule la mesure initiale est laissée indéterminée dans l’énoncé de la propriété de Markov.
2.2. LA PROPRIÉTÉ DE MARKOV 25
Démonstration. Soit t ∈ N, (xs )0≤s≤t ∈ Ωt+1 . Supposons la propriété de Markov vérifiée dans
un premier temps.
t
! t−1
! t−1
!
\ \ \
P {Xs = xs } = P Xt = xt | {Xs = xs } P {Xs = xs }
s=0 s=0 s=0
t−1
!
\
= P (X1 = xt |X0 = xt−1 ) P {Xs = xs }
s=0
t
Y
= P (X1 = xs |X0 = xs−1 ) · P(X0 = x0 ) par récurrence
s=1
Tt−1
Réciproquement si l’on dispose d’une chaı̂ne de Markov, alors si l’on pose Ht−1 = s=0 {Xs =
xs } et xt = x et xt+1 = y, on a :
t+1
!
\
P ({Xt+1 = y} ∩ {Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0
tandis que
t+1
!
\
P ({Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0
de sorte que la probabilité conditionnelle vaut, comme attendu,
P (Xt+1 = y|{Xt = x} ∩ Ht−1 ) = P (xt , xt+1 ) = P (x, y)
On peut facilement obtenir des énoncés plus généraux de la propriété de Markov, d’abord en
étendant le futur de la trajectoire après l’instant t + 1 : la suite de variables aléatoires (Xt )t∈N
satisfait la propriété de Markov ssi pour tout t, r ∈ N, et pour tout (xs )0≤s≤t+r ∈ Ωt+r
r t
! r
!
\ \ \
P {Xt+s = xt+s }| {Xs = xs } = P {Xs = xt+s }|X0 = xt (2.6)
s=1 s=0 s=1
Il peut être commode d’utiliser l’opérateur de translation, ”shift” en anglais.

Définition 2.8. Pour s ∈ N, l’opérateur de translation en temps de s unités est défini par :
θs : V N → V N , (Xt )t≥0 7→ (Xt+s )t≥0 .
On note que θs ◦ θt = θt ◦ θs = θt+s . Aussi, on notera simplement θ1 pour θ.

Proposition 2.9. Pour toutes applications F : ΩN → R, G : Ωt+1 → R mesurables bornées :

E F ((Xs )0≤s≤t )1{Xt =x} G(θt (X)) = E[F ((Xs )0≤s≤t )1{Xt =x} ] Ex G(X) (2.7)
Cela signifie que la loi de θt (X) conditionnellement à {Xt = x} et à un autre événement

quelconque de Ft , (Xs )0≤s≤t ∈ A, coı̈ncide avec la loi de X conditionnellement à {X0 = x},
c’est-à dire avec la loi de X sous Px . En particulier, (prendre F = 1A et G(X) = 1X1 =y 0,
P((Xs )0≤s≤t ∈ A, Xt = x, Xt+1 = y) = P((Xs )0≤s≤t ∈ A, Xt = x)P (x, y) (2.8)
Notons que l’on n’est pas forcé de fixer la valeur de Xt dans (2.7).
Corollaire 2.10. Pour toutes applications F : Ωt+1 → R, G : ΩN → R mesurables bornées :

h i
E [F ((Xs )0≤s≤t )G(θt (X))] = E F ((Xs )0≤s≤t )ϕ(Xt ) , avec ϕ(x) = Ex G(X)
Et on peut encore écrire cette dernière expression, avec un léger abus de notation :
h i
E F ((Xs )0≤s≤t )EXt G(X)
En particulier, si l’on prend F ((Xs )0≤s≤1 ) = 1, on obtient, pour toute application G : ΩN →

R mesurable bornée : X
Ex [G(θ(X))] = P (x, y)Ey [G(X)] (2.9)
y
Dans les applications de la méthode dite à un pas, où on décompose selon les valeurs du premier
pas de la chaı̂ne de Markov, cette égalité est particulièrement utile.
Démonstration du Corollaire. Il suffit de distinguer selon les valeurs de Xt puis d’appliquer
(2.7) :
X
E [F ((Xs )0≤s≤t )G(θt (X))] = E F ((Xs )0≤s≤t )1{Xt =x} G(θt (X))
x∈Ω
X
= E[F ((Xs )0≤s≤t )1{Xt =x} ] Ex G(X)
x∈Ω
h i
= E F ((Xs )0≤s≤t )ϕ(Xt ) , avec ϕ(x) = Ex G(X)
Exemple 2.11. Présentons à titre d’exemple, le calcul, pour t1 < t2 et f1 , f2 : Ω → R, de la

valeur de Ex [f1 (Xt1 )f2 (Xt2 )] en fonction des éléments caractéristiques de la chaı̂ne, à savoir P
et µ :
X
Eµ [f1 (Xt1 )f2 (Xt2 )] = Pµ (Xt1 = x1 , Xt2 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= Pµ (Xt1 = x1 , (θt1 X)t2 −t1 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= Pµ (Xt1 = x1 )Px1 (Xt2 −t1 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= µ(x) · P t1 (x, x1 )P t2 −t1 (x2 )f1 (x1 )f2 (x2 )
x,x1 ,x2
X X
= µ(x)P t1 (x, x1 )f1 (x1 ) P t2 −t1 (x2 )f2 (x2 )
x,x1 x2
X
= µ(x)P t1 (x, x1 )f1 (x1 )P t2 −t1 f2 (x1 )
x,x1
X
= µ(x)P t1 (x, x1 )f1 (x1 )P t2 −t1 f2 (x1 )
x,x1
= µP t1 (f1 · P t2 −t1 f2 )
Le produit · désigne le produit usuel des fonctions, c’est-à-dire ici le produit terme à terme des
vecteurs colonnes. Le lecteur pourra s’amuser à titre d’exercice à calculer, pour t1 < t2 < t3 et
f1 , f2 , f3 : Ω → R, la valeur de Eµ [f1 (Xt1 )f2 (Xt2 )f3 (Xt3 )].
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 27
2.3 Représentation de la mesure stationnaire par des

temps d’arrêt
Avant d’attaquer cette section, on pourra se reporter à l’annexe pour des rappels de L3 sur
les liens entre queue de distribution et espérance de variables aléatoires positives ou nulles p.s.,
5.1.2.
Pour l’instant nous avons donné un cadre qui permet de reformuler/d’interpréter les résultats
sur les matrices stochastiques en terme de suite de variables aléatoires appelées chaı̂nes de
Markov. Si l’on s’arrêtait là cependant, l’intérêt serait minime. On va maintenant voir des
énoncés de saveur probabiliste sans contrepartie immédiate dans le monde des matrices. On
va notamment obtenir un lien entre des temps d’arrêt particuliers, les temps de retour, et les
mesures stationnaires.
Définition 2.12. On appelle temps d’arrêt une variable aléatoire τ à valeurs dans N telle que
∀t ∈ N, {τ ≤ t} ∈ Ft (2.10)
Noter que notre cadre où le temps est discret, il est équivalent de demander que ∀t ∈ N, {τ =
t} ∈ Ft , ou encore {τ > t} ∈ Ft . Pratiquement, {τ ≤ t} ∈ Ft signifie que, pour tout t ∈ N,
1{τ ≤t} est une fonction mesurable de (Xs , 0 ≤ s ≤ t). On peut exprimer cela sans parler de
tribu engendrée ; cela signifie encore que, pour tout t ∈ N, il existe A ∈ Ωt+1 tel que :
{τ ≤ t} = {(Xs )0≤s≤t ∈ A}
L’interprétation en terme d’information est la suivante : on sait à tout instant t ∈ N si la valeur

du temps d’arrêt est déja passée simplement en suivant le cours de la trajectoire jusqu’à cet
instant t.
Définition 2.13. On considère une chaı̂ne de Markov (Xt )t∈N , un temps d’arrêt τ et deux
sommets a, x ∈ V . On appelle fonction de Green la fonction définie de la manière suivante
+∞
X
Gτ (a, x) = Pa (Xt = x, τ > t)
t=0
On notera l’inégalité stricte dans {τ > t}. Par Fubini positif, on a l’identité
" +∞ #
X
Gτ (a, x) = Ea 1{Xt =x,τ >t} ,
t=0
c’est-à-dire que la fonction de Green mesure l’espérance du temps passé en x strictement avant
l’instant τ partant de a.
Theorème 2.14 (Théorème du temps d’occupation de Aldous-Fill). Soit (Xt )t∈N une chaı̂ne
de Markov irréductible, et τ un temps d’arrêt qui vérifie
Pa (Xτ = a, 0 < τ < ∞) = 1, (2.11)
et soit π l’unique distribution stationnaire de la chaı̂ne de Markov. On a alors
Gτ (a, x)
∀x ∈ Ω, = π(x). (2.12)
Ea [τ ]
En toutes lettres : la proportion du temps passé en x avant l’instant τ est égal à la mesure
stationnaire en a, qui quantifie également le temps moyen passé en a par la chaı̂ne dans son
état stationnaire. Le théorème d’Aldous-Fill s’écrit encore :
" τ −1 #
X
Ea 1{Xt =x} = Ea [τ ] Eπ [1{X1 =x} ]
t=0
Remarque 2.15. Ceci peut évoquer le lemme de Wald : si les (Xt , t ∈ N) sont des variables
aléatoires intégrables de même espérance (pas besoin d’indépendance, ni même d’identique
distribution) et N est une variable aléatoire entière intégrable indépendante de la famille des
(Xt )t∈N , alors :
N
X
E[ Xt ] = E[N ] E[X1 ]
t=1
PN P
Pour le prouver, il suffit d’écrire t=1 Xt = t∈N Xt 1t≤N puis de sommer comme suit :
N
X X
E[ Xt ] = E[ Xt 1t≤N ]
t=1 t∈N
X
= E[Xt 1t≤N ]
t∈N
X
= E[Xt ]P(t ≤ N ) par indépendance
t∈N
X
= E[X1 ] P(t ≤ N )
t∈N
= E[X1 ] E[N ]
La différence avec le lemme de Wald est qu’on a à droite Eπ [1{X1 =x} ] et non Ea [1{X1 =x} ] ;
quand aux hypothèses elles sont complètement différentes bien sûr ; en particulier, τ n’est pas
indépendant de la suite de variables aléatoires Xt , bien au contraire.
Nous verrons qu’un exemple de tel temps d’arrêt τ est le temps de retour en a dont la
définition est donnée en 2.16.
Démonstration du théorème. Soit x, y ∈ Ω. On note tout d’abord que
Pa (Xt = x, Xt+1 = y, τ > t) = Ea [1Xt =x,τ >t 1Xt+1 =y ]

= Pa (Xt = x, τ > t)P (x, y)
découle de (2.8) avec A = {τ > t} ∈ σ{(Xs )0≤s≤t } par définition d’un temps d’arrêt (c’est ici
qu’on utilise cette propriété de façon cruciale). Soit maintenant y ∈ Ω. C’est un calcul, long
mais transparent, qui donne le résultat.

X +∞
XX
Gτ (a, x)P (x, y) = Pa (Xt = x, τ > t)P (x, y)
x∈Ω x∈Ω t=0
+∞ X
X
= Pa (Xt = x, τ > t)P (x, y) par Fubini positif
t=0 x∈Ω
+∞
XX
= Pa (Xt = x, Xt+1 = y, τ > t) de la propriété de Markov
t=0 x∈Ω
+∞
X
= Pa (Xt+1 = y, τ > t)
t=0
+∞
X
= Pa (Xt = y, τ ≥ t)
t=1
+∞
X +∞
X
= Pa (Xt = y, τ > t) + Pa (Xt = y, τ = t)
t=1 t=1
+∞
X +∞
X
= Pa (Xt = y, τ > t) − Pa (X0 = y, τ > 0) + Pa (Xτ = y)
t=0 t=1
+∞
X
= Pa (Xt = y, τ > t) − 1{y=a} + 1{y=a} de l’hypothèse sur τ
t=0
= Gτ (a, y)
On calcule la normalisation nécessaire pour obtenir une mesure de probabilité.

X +∞
XX +∞
X +∞
X
Gτ (a, y) = Pa (Xt = y, τ > t) = Pa (τ > t) = Ea [ 1τ >t ] = Ea [τ ]
y∈Ω y∈Ω t=0 t=0 t=0
Ainsi
X Gτ (a, x) Gτ (a, y)
P (x, y) = ,
x∈Ω
Ea [τ ] Ea [τ ]
et l’unicité de la mesure de probabilité stationnaire, qui découle d’après la proposition 1.14 de
l’hypothèse d’irréductibilité, permet de déduire (2.12).
Voici les deux exemples canoniques de temps d’arrêt (vérifier qu’il s’agit effectivement de
tels temps) :
Définition 2.16. Soit A ⊂ Ω, et x ∈ Ω. Le temps d’atteinte de A et le temps de retour en A
sont respectivement définis par
τA = min{t ≥ 0, Xt ∈ A} et τA+ = min{t ≥ 1, Xt ∈ A},

+
et on écrira simplement τx := τ{x} et τx+ := τ{x} dans le cas de singletons.
Nous énoncons dès maintenant le corollaire du théorème précédent.
Corollaire 2.17. Soit (Xt )t∈N une chaı̂ne de Markov irréductible, soit a ∈ Ω, et τa+ le premier
temps de retour en a, τa+ = min{t ≥ 1, Xt = a}. Alors :
1
π(a) = ·
Ea [τa+ ]
Ce résultat est d’autant plus remarquable qu’il n’existe pas de façon simple d’obtenir Ea [τb ]
pour a 6= b en général (on verra plus tard une approche dans le cas des graphes réversibles et
transitifs). On notera aussi que cette représentation est purement probabiliste (essayer d’expri-
mer la quantité Ea [τa+ ] à l’aide du semigroupe P t pour s’en persuader).
Démonstration du corollaire. On applique le théorème en observant que la condition de finitude

des temps d’atteinte (2.11) découle de la Proposition 2.18 à venir. Ensuite, on fait le calcul :
" +∞ #
X
Gτa+ (a, z) = Ea 1{Xt =a,τa+ >t} = 1.
t=0
puisque seul le terme t = 0 contribue dans cette somme.
Cette représentation de π au moyen de τ + est des plus satisfaisantes. Elle permet notamment
d’avoir accès au calcul de Ea [τa+ ] lorsque la mesure stationnaire est connue ; cependant, pour
calculer Ea [τb+ ] dans le cas où a 6= b, il va nous falloir développer une autre stratégie. De
façon peut-être surprenante, c’est en mobilisant nos connaissances en électricité que nous allons
pouvoir répondre à cette question dans le chapitre suivant.
Proposition 2.18. Si la matrice de transition P de la chaı̂ne de Markov (Xt )t≥0 est irréductible
sur Ω, alors quelque soit x, y ∈ Ω
Ex [τy ] ≤ Ex [τy+ ] < ∞
Notons que la preuve ci-dessous donne en fait des bornes pour le majorant..
Démonstration. On commence par montrer la propriété sur les temps d’atteinte. La propriété
sur les temps de retour en découlera ensuite. Notons t(x, y) l’entier tel que P t (x, y) > 0, dont
l’existence nous est assurée par la définition de l’irréductibilité. On fixe alors y et on choisit
t = maxx t(x, y) de sorte que
t
[
Px (τy ≤ t) = Px ( {Xs = y}) ≥ Px (Xt(x,y) = y)
s=0
Prenant le minimum sur x, on obtient :
Px (τy ≤ t) ≥ min Px (Xt(x,y) = y) =: δ > 0

x
Toujours à y fixé, on montre par récurrence sur l’entier k ∈ N la propriété :
∀x ∈ Ω, Px (τy > kt) ≤ (1 − δ)k .
(Noter que le quantificateur ”∀x” est dans la propriété de récurrence). Pour k = 0 et k = 1, on

l’a déjà vérifiée ; si la propriété vaut en k, alors on peut écrire, en notant τy ◦ θt := τy (θt (X)) le
temps d’atteinte de la chaı̂ne shiftée :
Px (τy > (k + 1)t) = Px ({τy ◦ θt > kt} ∩ {τy > t})

= Ex [1{τy ◦ θt >kt} 1{τy >t} ]

= Ex EXt [1τy >kt ]1τy >t
≤ (1 − δ)k Ex [1τy >t ] en appliquant la propriété de récurrence
≤ (1 − δ)k+1
Mais alors, puisque τy ∈ N, appliquant le lemme 5.8 on obtient

X X X t
Ex [τy ] = Px (τy > k) ≤ tPx (τy > kt) ≤ t (1 − δ)k = < ∞
k∈N k∈N k∈N
δ
conclut la preuve. Pour ce qui est des temps de retour on note que si x 6= y, alors Px (τy+ = τy ) = 1
d’où Ex [τy+ ] = Ex [τy ] < ∞ dans ce cas. Ensuite, pour le cas restant, on a, à l’aide de la
proposition 2.19 ci-dessous, que :
X
Ey [τy+ ] = 1 + P (y, x)Ex [τy ] ≤ 1 + max Ex [τy ] < ∞
x
x
Proposition 2.19. Soit A ⊂ Ω. Le temps de retour τA+ en A d’une chaı̂ne de Markov (Xt )t∈N
de matrice de transition P = (P (x, y))x,y∈Ω satisfait :
X
Ex [τA+ ] = 1 + P (x, y)Ey [τA ].
y
Notons que la proposition ne suppose pas l’irréductibilité, mais il est alors possible que les
deux termes soient simultanément infinis.
Démonstration. On note que τA+ = τA ◦ θ + 1 puis
Ex [τA+ ] = Ex [τA ◦ θ + 1]
X
= Ex [τA ◦ θ + 1, X1 = y]
y
X
= P (x, y)Ey [τA + 1] par 2.9
y
Notons aussi la proposition suivante, dans la même veine :

Proposition 2.20. Soit A ⊂ Ω. Le temps de retour τA+ en A d’une chaı̂ne de Markov (Xt )t∈N
de matrice de transition P = (P (x, y))x,y∈Ω satisfait, pout tout x, z ∈ Ω,
X
Px (Xτ + = z) = P (x, y) Py (XτA = z).
A
y
En particulier, pour toute fonction f : Ω → R, on a :

X
Ex [f (Xτ + )] = P (x, y) Ey [f (XτA )].
A
y
Démonstration. En effet, de la définition de τA+ et τA , on a l’égalité des deux événements :

{Xτ + = z} = {(θ ◦ X)τA = z},
A
où (θ ◦ X)τA signifie (X ◦ θ)τA (θ◦X) , puis il en découle, si l’on pose F (X) = 1{XτA =z} :
Px (Xτ + = z) = Ex [F (θ ◦ X)]
A
X
= P (x, y)Ey [F (X)] de 2.9
y
X
= P (x, y)Py (XτA = z),
y
P
et l’égalité avec les espérances découle de l’expression générale E[f (Y )] = y∈Ω P(Y = y)f (y).
2.4 L’exemple de la ruine du joueur

Il s’agit de la chaı̂ne de Markov (Xt )t∈N sur Ω = {0, . . . , n} de matrice de transition
(
1
1{|j−i|=1} si i ∈ {1, . . . , n − 1}
P (i, j) = 2
1i=j si i ∈ {0, n}.
C’est la marche aléatoire des gains d’un joueur qui joue à un jeu équilibré, gagne ou perd 1 à
chaque tour de jeu et s’arrête lorsqu’il atteint un gain de n ou lorsqu’il atteint 0 et n’a plus
d’argent à parier. On s’intéresse au temps aléatoire τ = min{t ≥ 0, Xt ∈ {0, n}} ∈ N ∪ {∞}
qui est le premier temps où le joueur atteint la fortune 0 (il a perdu) ou n (il a gagné).
1. Le temps aléatoire τ est-il fini p.s. ?
2. Dans ce cas, admet-il une espérance finie ?
3. Toujours dans ce cas, quelle est la loi de la variable aléatoire Xτ (définie sur l’événement
{τ < ∞}), qui rend compte du gain final ?
La méthode présentée ci dessous, dite méthode à un pas, est une méthode récursive sur la
position initiale de la chaı̂ne. L’opérateur de shift θ = θ1 défini par (θ ◦ X)t = Xt+1 , peut être
composé avec τ = τ (X) pour donner
(τ ◦ θ)(X) = inf{t ≥ 0, Xt+1 ∈ {0, n}} ∈ N ∪ {∞}.
On écrit l’identité suivante dans N ∪ {∞} :
τ = τ ◦ θ + 1 sur l’événement {τ 6= 0},
et donc, puisque l’événement {τ 6= 0} est p.s. sous Pk dès lors que k ∈

/ {0, n}, on peut écrire,
pour un tel k,
Ek [τ ] = Ek [τ ◦ θ + 1]
= Ek [τ ◦ θ + 1, X1 = k + 1] + Ek [τ ◦ θ + 1, X1 = k − 1]
= P (k, k + 1)Ek+1 [τ + 1] + P (k, k − 1)Ek−1 [τ + 1]
1
= (h(k + 1) + h(k − 1)) + 1
2
identité qui vaut dans [0, ∞]. Les conditions au bord sont h(0) = h(n) = 0. Si `(k) = h(k +
1) − h(k), alors pour k ∈ {1, . . . , n − 1},
`(k) = h(k + 1) − h(k) = 2h(k) − 2 − h(k − 1) − h(k) = `(k − 1) − 2.
On a donc `(k) = `(0) − 2k, et par ailleurs la somme des `(k) est nulle, donc
n−1
X
0= `(k) = n`(0) − n(n − 1),
k=0
soit `(0) = n − 1 et `(k) = n − 1 − 2k. On en déduit que

k−1
X
h(k) = h(k) − h(0) = `(j) = (n − 1)k − (k − 1)k = (n − k)k.
j=0
Les quantités k et n − k jouent bien un rôle symétrique dans cette expression comme attendu.
2.5. QUELQUES MOTS SUR LA PROPRIÉTÉ DE MARKOV FORTE 33
En particulier, Ek [τ ] < ∞ et donc {τ < ∞} est un événement presque sûr sous Pk quelque
soit k ∈ Ω. Pour calculer Pk (Xτ = n | X1 = k + 1), on commence par observer que
{Xτ = n} ∩ {τ 6= 0} ∩ {τ < ∞} = {(θ ◦ X)τ ◦θ = n} ∩ {τ 6= 0} ∩ {τ < ∞}
ce qui entraı̂ne (ayant déjà établi que Pk (τ < ∞) = 1) :
Pk (Xτ = n | X1 = k + 1) = Pk (Xτ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n| X1 = k + 1)
= Pk+1 ((θ ◦ X)τ ◦θ = n | X1 = k + 1)
= Pk+1 (Xτ = n)
On en tire comme précédemment une équation de récurrence sur la quantité suivante : pour
k∈
/ {0, n},
g(k) := Pk (Xτ = n)
= Pk (Xτ = n | X1 = k + 1) Pk (X1 = k + 1) + Pk (Xτ = n | X1 = k − 1) Pk (X1 = k − 1)
1
= (Pk+1 (Xτ = n) + Pk−1 (Xτ = n))
2
g(k + 1) + g(k − 1)
= ,
2
avec les conditions au bord g(0) = 0 et g(n) = 1. Pour résoudre cette équation, notons qu’elle
peut se réécrire g(k + 1) − g(k) = g(k) − g(k − 1) ; la fonction g a donc des accroissements
constants et c’est la fonction affine g(k) = nk .
Quelques commentaires sur les spécificités de cette chaı̂ne de Markov sont nécessaires :
Noter que la présence d’états absorbants (au sens de la définition 1.15) empêche la chaı̂ne
d’être irréductible ; ici, la chaı̂ne compte deux états absorbants. On n’a pas unicité de la mesure
de probabilité stationnaire, et toute combinaison linéaire des masses de Dirac en les deux états
absorbants pδ0 + (1 − p)δn est une mesure de probabilité stationnaire (soit encore tout vecteur
t
ligne π avec S π(0) = p, et π(n) = 1 − p). On a aussi limt→∞ P (k, n) = limt→∞ P(Xt = n) =
limt→∞ P( t∈N {Xt = n}) = P(Xτ = n) on a :
k n−k
lim P t (k, n) = , et lim P t (k, 0) = ,
t→∞ n t→∞ n
ce qui implique aussi, pour tout k 0 ∈ Ω \ {0, n}, limt→∞ P t (k, k 0 ) = 0. En particulier,
lim P t (k, n) + P t (k, 0) = 1.

t→∞
2.5 Quelques mots sur la propriété de Markov forte

Cette section est un supplément au cours, et n’est pas exigible : en pratique, lorsqu’on
voudra appliquer la propriété de Markov en un temps aléatoire τ qui est un temps d’arrêt, on
décomposera simplement S suivant la valeur de ce temps d’arrêt, c’est à dire selon la réunion
d’événements disjoints t∈N {τ = t}, et on se ramènera à la propriété de Markov simple.
On peut décréter que l’espace de probabilité (E, F ) est l’espace ΩN lui-même (ce qu’on
appelle le choix canonique) ; alors ω → Xt (ω) dans (2.1) est simplement l’application coor-
donnée : Xt (ω) = ωt . L’avantage de cette opération est qu’on peut alors faire agir l’opérateur
de translation θ directement sur E, et changer légèrement de point de vue sur la propriété de

Markov simple : pour F : E → R F∞ -mesurable bornée, et G : E → R Ft -mesurable bornée :

E F ◦ θt · G 1{Xt =x} = Ex F E[G 1{Xt =x} ]
Pour le moment il n’y a pas vraiment de gain par rapport à (2.7). Si l’on essaie d’ecrire
une relation similaire à (2.7) pour un temps d’arrêt, on voit que le domaine de définition de
G (disons le nombre d’arguments que cette fonction doit prendre) n’est pas bien défini. Pour
contourner cet obstacle on pose pour τ un temps d’arrêt, la tribu Fτ :
A ∈ Fτ ssi ∀t ∈ N, A ∩ {τ ≤ t} ∈ Ft
On considère ensuite directement des fonctions F et G définies directement sur (E, F ) (et non
plus des fonctions F et G définies sur ΩN et Ωt+1 ), ce qui permet d’écrire la propriéte suivante,
appelée propriété de Markov forte par oppoisition à la propriété de Markov simple :
Proposition 2.21 (Propriété de Markov forte). Soit τ un temps d’arrêt presque sûrement fini,
et (Xt )t∈N une chaı̂ne de Markov. Alors pour tout F F∞ -mesurable bornée, et G Fτ -mesurable
bornée,
E[F ◦ θτ · G 1Xτ =x ] = Ex [F ] E[G 1Xτ =x ]
Démonstration. L’idée est de décomposer suivant les valeurs prises par le temps d’arrêt, puis
d’utiliser la propriété 2.6, en notant que par définition de la filtration Fτ , G 1Xt =x 1τ =t est Ft
mesurable,
X
E[F ◦ θτ · G 1Xτ =x ] = E[F ◦ θτ · G 1Xτ =x 1τ =t ]
t∈N
X
= E[F ◦ θt · G 1Xt =x 1τ =t ]
t∈N
X
= Ex [F ]E[G 1Xt =x 1τ =t ]
t∈N
= Ex [F ]E[G 1Xτ =x ]
Chapitre 3
Réseaux électriques (a.k.a. chaı̂nes

réversibles)
On étudie dans ce chapitre les temps d’atteinte de chaı̂nes de Markov réversibles au moyen de
calculs de résistance dans des réseaux électriques, les mêmes réseaux que ceux qu’on a pu rencon-
trer en cours d’électricité. La tension aux sommets du graphe lorsqu’on branche un générateur
entre deux sommets quelconque d’une part, et la probabilité d’atteindre un de ces deux som-
mets avant l’autre sont des quantités étroitement liées : cela découle de la propriété d’unicité
du prolongement harmonique d’une fonction. De cette observation fondamentale découlent un
certain nombre de propriétés surprenantes, entre autre le calcul de fonctions harmoniques au
moyen de la réduction de réseaux électriques.
3.1 Chaı̂nes de Markov réversibles et réseau.

On renvoie à l’annexe 5.1.1 pour plus de détail au sujet du vocabulaire des graphes.
Définition 3.1. Un graphe simple non-dirigé G = (V, E) est la donnée d’un ensemble V ,
appelé ensemble de sommets et d’un sous-ensemble E des paires non ordonnées de sommets
de V , appelé ensemble d’arêtes 1 . On appelle boucle une arête de type {x, x}. Un graphe sans
boucles est un graphe où E ⊂ {{x, y} : x, y ∈ V 2 , x 6= y}
Le formalisme de paires est naturel pour les graphes non-dirigés : les deux paires {x, y} et
{y, x} étant égales, elle représentent la même arête. À ensemble de sommets V fixé de cardinal
n, le plus gros graphe possible (au sens de l’inclusion des ensembles d’arêtes) est celui où les
n
2
arêtes sont retenues dans E, on l’appelle le graphe complet. A l’inverse on peut considérer
le graphe vide (sans arêtes) de peu d’intérêt...
Définition 3.2. Un réseau {G, c} est la donnée un graphe fini G = (V, E) non orienté et
connexe et d’une collection de conductances c = (c(e))e∈E ∈ (R+ \ {0})E 2 , d’inverses r(e) =
1/c(e) appelés résistances.
Si e = {x, y} ∈ E, on écrira parfois x ∼ y pour alléger les notations et on notera in-

différemment
c(x, y) = c(y, x) := c(e).
1. On appelle multigraphe un graphe ou les répétitions de mêmes arêtes sont autorisées dans E ; technique-
ment E est alors un ”multiset”.
2. on peut aussi travailler avec le graphe complet quitte à mettre des conductances nulles là où il n y a pas
d’arêtes
35
36 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
Définition 3.3. Soit {G, c} un réseau. La chaı̂ne de Markov sur V associée à ce réseau de
matrice de transition P = (P (x, y))x,y∈V 2 donnée par
c(x, y) X
P (x, y) = 1{x,y}∈E avec c(x) = c(x, y) (3.1)
c(x)
y,{x,y}∈E
sera simplement appelée marche aléatoire sur le réseau {G, c}.

Posons X X X
cG := c(x) = 2 c(e) + c(e) (3.2)
x∈V e:e={x,y},x6=y e:e={x,x}
où l’on distingue à la deuxième égalité les arêtes qui forment des boucles ou non : si une arête
n’est pas une boucle, elle est comptée deux fois, s’il s’agit d’une boucle, c’est-à-dire d’une arête
du type {x, x}, elle est comptée une seule fois. L’intérêt qu’on porte aux réseaux est justifié par
la proposition suivante.
Proposition 3.4. La marche aléatoire sur le réseau {G, c} est réversible par rapport à la
mesure de probabilité π donnée par
c(x)
π(x) = , x ∈ V.
cG
Réciproquement, à toute chaı̂ne de Markov irréductible et réversible (Xt )t∈N sur Ω, on peut
associer un réseau (unique à isomorphisme près, ou si l’on impose le choix de V = Ω) tel que
que la chaı̂ne (Xt )t∈N soit la marche aléatoire sur le réseau.
En conséquence, le calcul de la mesure stationnaire sur un réseau (unique dès lors que la
chaı̂ne est irréductible, c’est-à-dire le graphe sous-jacent connexe) ne pose aucune difficulté,
puisqu’il suffit de faire des sommes sur les conductances, qui correspondent aux données du
réseau.
Démonstration. Le sens direct est aisé, il suffit d’observer P est réversible par rapport à π en
reportant la définition de P :
c(x) c(x, y) c(x, y) c(y, x) c(y) c(y, x)
π(x)P (x, y) = = = = = π(y)P (y, x) :
cG c(x) cG cG cG c(y)
Dans l’autre sens, il suffit de poser, si π est la mesure par rapport à laquelle X est réversible,
c(x, y) := π(x)P (x, y) dès lors que cette quantité est non nulle (formellement, on définit V = Ω
et E = {{x, y} ∈ V 2 , π(x)P (x, y) 6= 0}). C’est la propriété de réversibilité qui garantit que
la définition de c(x, y)P
n’est pas ambigüe. P Le graphe est bien connexe par irréductibilité. En
outre, le calcul c(x) = y:{x,y}∈E c(x, y) = y:{x,y}∈E π(x)P (x, y) = π(x) assure que, pour tout
x, y ∈ Ω
c(x, y) π(x)P (x, y)
= = P (x, y).
c(x) c(x)
3.2 Principe de Dirichlet pour les fonctions harmoniques

On va maintenant approfondir notre étude des fonctions harmoniques, introduites à la
définition 1.11. La proposition suivante généralise la proposition 1.12, selon laquelle une fonc-
tion harmonique sur l’espace entier pour P stochastique irréductible est constante. Voici un
renforcement de cette propriété.
3.2. PRINCIPE DE DIRICHLET POUR LES FONCTIONS HARMONIQUES 37
Proposition 3.5 (Principe du maximum). Soit P stochastique irréductible, et B ⊂ V . Si h

est harmonique sur V \ B alors h atteint son maximum en un point de B.
Démonstration. Soit x0 tel que h(x0 ) = maxy∈V h(y). Si x0 ∈ B il n’y a rien à prouver. Sinon,
si x0 ∈/ B, soit b ∈ B. On peut trouver une suite finie (xi )1≤i≤r tel que P (xi , xi+1 ) > 0 pour
tout 0 ≤ i ≤ r − 1 et xr = b. On note s le plus petit entier tel que xs ∈ B. On montre alors
que h(xi ) = h(x0 ) pour tout i ≤ s par récurrence (finie) sur l’entier i. C’est vrai en i = 0.
Si h(xi ) = h(x0P) et i < s alors, puisque xi ∈ / B par définition, h est encore harmonique en
xi , et h(xi ) = P (xi , y)h(y) implique h(y) = h(xi ) pour tout y tel que P (xi , y) > 0, en
particulier pour y = xi+1 . Ainsi h(xs ) = h(x0 ) et xs ∈ B est un élément en lequel h atteint son
maximum.
Il en découle qu’une fonction définie sur un sous-ensemble arbitraire de sommets s’étend de

façon unique en une fonction harmonique sur le complémentaire de cet ensemble, ainsi qu’une
représentation probabiliste simple de cette extension à l’aide des temps d’atteinte.
Proposition 3.6 (Principe de Dirichlet). Soit P stochastique irréductible. Soient B ⊂ V et

hB : B → R une fonction définie sur B. Alors, la fonction h : V → R définie par
h(x) = Ex [hB (XτB )]
est l’unique extension de hB telle que h(x) = hB (x) pour tout x ∈ B et h est harmonique pour
P sur V \ B.
On appelle la fonction h de l’énoncé précédent l’extension harmonique de hB .
Démonstration. Vérifions d’abord que h donnée dans l’intitulé est bien une extension. Si x ∈ B,
alors τB = 0 et donc h(x) = Ex [hB (XτB )] = hB (x). Cette extension est de plus harmonique.
Soit x ∈
/ B. On a alors, sous Px , p.s.,
hB (XτB ) = hB ((θ ◦ X)τB ),
où τB = τB (θ ◦ X), et donc de la propriété de Markov,
h(x) = Ex [hB (XτB )]

= Ex [hB ((θ ◦ X)τB )] avec
X
= Ex [hB ((θ ◦ X)τB ), X1 = y]
y∈V
X
= Ey [hB (XτB )]P (x, y)
y∈V
Montrons maintenant l’unicité. Pour cela considérons g : V → R harmonique sur V \ B et

nulle sur B. Le principe du maximum appliqué à g assure que g ≤ 0. Appliqué à −g, il assure
que g ≥ 0. Ainsi g = 0. Si maintenant h et h̃ sont deux extensions harmoniques de hB , alors
g = h − h̃ est harmonique sur V \ B, nulle sur B, et donc nulle partout.
Si ce principe fournit un résultat d’existence et d’unicité très utile d’un point de vue
théorique, nous utiliserons en pratique d’autres méthodes pour calculer les extensions har-
monique dans le cas de graphes concrets (réduction de réseaux). Ces méthodes seront basées
sur les concepts que nous introduisons maintenant.
3.3 Tension, flot et flot courant

On rappelle la définition de la marche aléatoire sur le réseau (Xt )t∈N dont la matrice de
transition est définie au début de ce chapitre en fonction des conductances par la relation 3.1.
Les quantités probabilistes du type temps d’atteinte ou temps de retour, τz ou τz+ , font référence
à cette marche aléatoire.
Lemme 3.7 (Probabilités d’atteinte comme tension). Pour tout a, z ∈ V , l’application
x 7→ Px (τa < τz )
est une fonction harmonique sur V \ {a, z}, de valeurs au bord 1 en a et 0 en z.

Noter que la fonction x 7→ Px (τa < τz ) satisfait aux mêmes prorpiété, avec seulement des
valeurs aux bords sont modifiées.
Démonstration.
Px (τa < τz ) = Px [Xτ{a,z} = z]

= Ex [1{a} (Xτ{a,z} )]
= Ex [h(Xτa,z )]
où h : {a, z} → {0, 1}, x 7→ 1{a} (x).

L’abstraction de cette propriété donne lieu à la définition suivante :
Définition 3.8. Soient a, z ∈ V deux sommets distingués de V , appelés respectivement source
et puits du réseau. On appelle tension sur le réseau {G, c} (relativement à a et z) une fonction
harmonique sur V \ {a, z}.
D’après le principe de Dirichlet, une tension W est entièrement déterminée par ses valeurs
W (a) et W (z) en les points source et puits. À une tension est associée une fonction courant
définie sur les arêtes orientées : la définition du courant associée à une tension est tout simple-
ment la loi d’Ohm :
Définition 3.9. Soit W une tension sur {G, c}. Le courant I associé à W est défini par
∀xy ~ I(xy)
~ ∈ E, ~ = c(x, y)(W (x) − W (y)).
On pose r(x, y) = 1/c(x, y) dès lors que c(x, y) 6= 0 et on appelle r(x, y) résistance de l’arête
{x, y}, de sorte que’on peut réécrire la relation précédente sous la forme plus classique :
W (x) − W (y) = r(x, y)I(xy).

~
Pour éviter tout problème de signe, on retiendra que le courant va des sommets de potentiel
maximal (proches de la source) à ceux de potentiel minimal (proches du puits). I ainsi définie
est antisymétrique, et puisque W est une tension, elle satisfait également la loi des noeuds
suivante : X
div I(x) := ~ = 0, x ∈ V \ {a, z} (loi des noeuds)
I(xy)
y:{xy}∈E
De même, on peut abstraire la notion de courant en la notion de flot : on ne requiert alors

que la loi des noeuds :
Définition 3.10 (Flot). Soit {G, c} un réseau et a, z ∈ V . On appelle flot de a à z toute
~ → R qui vérifie les propriétés suivantes :
fonction θ : E
3.3. TENSION, FLOT ET FLOT COURANT 39
— ∀xy ~ θ(xy)
~ ∈ E, ~ + θ(yx)
~ = 0 (antisymétrie).
— ∀x ∈
/ {a, z},
X
div θ(x) := θ(xy)
~ = 0 (loi des noeuds)
y:{xy}∈E
— div θ(a) ≥ 0.
Si θ est un flot, l’intensité du flot θ de a à z est définie par
X
kθk = div θ(a) := θ(ax).
~
x:{a,x}∈E
et on appelle flot unitaire un flot d’intensité 1.
Attention, contrairement à ce que la notation peut suggérer, l’intensité n’est pas une norme
sur l’ensemble des flots (dessiner un flot non nul le long d’une boucle fermée qui ne rencontre ni
a ni z). Noter aussi que dans un flot, le rôle des points source a et puits z n’est pas symétrique
du fait de l’inégalité div θ(a) ≥ 0 dans la définition d’un flot : on a un flot de a à z. Notons
que pour un flot θ, l’antisymétrie et la loi des noeuds assure que :
X X X X
div θ(a) + div θ(z) = div θ(x) = θ(xy)
~ = (θ(xy)
~ + θ(yx))
~ = 0.
x∈V x∈V y:{x,y}∈E {x,y}∈E
On note alors le lemme :
Lemme 3.11. Si W (a) ≥ W (z), alors le courant I est un flot de a à z.
Parmi tous les flots, le flot courant possède une propriété caractéristique de ”découler d’un
potentiel”, ce qui motive la définition suivante :
Définition 3.12. On dit qu’un flot θ : E ~ → R vérifie la loi des cycles si, pour toute suite de
sommets e~1 , e~2 , . . . , e~m qui forme un cycle orienté, on a
m
X
r(~
ei )θ(~
ei ) = 0.
i=1
La proposition suivante justifie le mot ”caractéristique” employé précédemment :
Proposition 3.13. Le flot courant I vérifie la loi des cycles. De plus, si θ est un flot de a à z
qui vérifie :
— la loi des cycles pour tout cycle e~1 , e~2 , . . . , e~m
— la normalisation kθk = kIk,
alors θ = I.
Démonstration. Posons f = θ − I. Alors f satisfait la loi des nœuds et la loi des cycles.
Supposons par l’absurde que f 6= 0, et par exemple f (e~1 ) > 0 pour e~1 une arête du réseau.
Alors, par la loi des nœuds, il existe e~2 tel que f (e~2 ) > 0. On construit ainsi une suite d’arêtes
sur lesquelles f est strictement positive. Or, V est fini donc cette suite va passer 2 fois sur un
même nœud, et en sommant, on contredit la loi des cycles (rappelons que la loi des cycles est
vérifiée même en les cycles qui comprennent a ou z). Donc f = 0 et θ = I.
3.4 Résistance équivalente

Définition 3.14 (Résistance équivalente). Soit un réseau {G, c} irréductible, et a, z ∈ V . Il
existe une unique extension harmonique W telle que W (a) = 1 et W (z) = 0. On appelle
résistance équivalente entre a et z le rapport :
1
R(a ↔ z) = ,
kIk
avec I le flot courant associé à la tension W . La conductance équivalente est définie comme
l’inverse de la résistance équivalente, par C(a ↔ z)R(a ↔ z) = 1.
Il est bien sûr possible de définir la résistance équivalente entre a et z sans préciser la valeur
de la tension en a et z.
Proposition 3.15. Soit un réseau {G, c} irréductible, et a, z ∈ V . Si W est harmonique sur
V \ {a, z}, et W (a) 6= W (z), alors
W (a) − W (z)
R(a ↔ z) = ,
kIk
avec I le flot courant associé à la tension W .
Démonstration. On pose
W (x) − W (z)
x 7→ W̄ (x) : =
W (a) − W (z)
et on note que la fonction W̄ ainsi définie est encore harmonique sur V \ {a, z}, avec les
conditions au bord W̄ (a) = 1 et W̄ (z) = 0 (c’est donc encore une tension, mais les valeurs aux
bornes sont différentes) donc, si I 0 désigne le flot courant associé à W 0 :
1
R(a ↔ z) =
I¯
1
=P ¯ ax)
I(
x:{a,x}∈E ~
1
=P
x:{a,x}∈E c(ax)W̄ (a) − W̄ (x)
1
=P W (a)−W (x)
x:{a,x}∈E c(ax) W (a)−W (z)
W (a) − W (z)
=P
x:{a,x}∈E c(ax)(W (a) − W (x))
W (a) − W (z)
=
kIk
L’interprétation est la suivante : si l’on remplace le réseau {G, c} entre a et z par une
seule arête, quelle résistance/conductance lui attribuer pour que, à tension fixée, l’intensité du
courant soit identique ou, à courant d’intensité fixée, la différence de tension entre a et z soit
identique : la réponse est dans les deux cas donnée par la résistance/conductance équivalente.
On en tire une représentation intéressante de la conductance équivalente qui fait apparaı̂tre
Pa (τz < τa+ ) comme le facteur d’amortissement entre c(a) et C(a ↔ z). Notons qu’on pourrait
aussi bien prendre cette propriété comme définition.
3.4. RÉSISTANCE ÉQUIVALENTE 41
Proposition 3.16. Pour tout a, z ∈ V ,

C(a ↔ z) = c(a)Pa (τz < τa+ )
En particulier,
0 ≤ C(a ↔ z) ≤ c(a).
On tire de cette proposition (par exemple) la linéarité des conductances équivalentes en les
conductances : si l’on multiplie toutes les conductances des arêtes c(e) par un même facteur,
alors pour tout a ∈ V , c(a) est multiplié par ce même facteur tandis les probabilités de transition
restent inchangées.
Aussi, puisque C(a ↔ z) est une fonction symétrique de a et de z, on peut compléter la
second inégalité par C(a ↔ z) ≤ c(z). Ces deux inégalités peuvent être vues comme un cas
particulier très simple de l’inégalité de Nash-Williams à venir, proposition 3.25.
Démonstration. Il suit du lemme 3.7 que
X
Pa {τz < τa+ } = P (a, x)Px {τz < τa }
x,{a,x}∈E
X c(a, x) W (a) − W (x)
=
c(a) W (a) − W (z)
x,{a,x}∈E
X I(ax)
~
=
c(a)(W (a) − W (z))
x,{a,x}∈E
kIk
=
c(a)(W (a) − W (z))
C(a ↔ z)
= par la définition 3.14
c(a)
Proposition 3.17 (Fonction de Green et résistance équivalente). Pour tout a 6= z ∈ V , la

résistance équivalente admet l’expression suivante en fonction de la fonction de de Green :
Gτz (a, a) = c(a)R(a ↔ z)
Démonstration. POn rappelle (voir Lemme 5.8) que pour toute variable aléatoire N à valeurs
dans N, E[N ] = ∞ t=0 P(N > t). On a donc
" #
X
Gτz (a, a) = Ea 1{Xs =a,s<τz }
s≥0
+∞
!
X X
= Pa 1{Xs =a,s<τz } > t
t=0 s≥0
+∞
X
= Pa (τa+ < τz )t par la propriété de Markov forte
t=0
1
=
1 − Pa (τz > τa+ )
1
=
Pa (τz ≤ τa+ )
1
=
Pa (τz < τa+ )
= c(a)R(a ↔ z) par la Proposition 3.16
On a alors une deuxième interprétation probabiliste des tensions.
Proposition 3.18 (Fonction de Green comme tension). Pour tout a, z ∈ V , l’application
Gτz (a, x)
x 7→
c(x)
est une tension, et c’est l’unique tension associée à un courant unitaire, nul en z.
Démonstration. Par réversibilité, le poids π(a)P (a, x1 )P (x1 , x2 ) . . . P (xt−1 , x) de chaque trajec-
toire de a à x en t temps pas qui ne rencontre pas z et égal au poids de la trajectoire renversée
en temps π(x)P (x, xt−1 )P (x1 , x2 ) . . . P (x1 , a) et sommant sur toutes ces trajectoires on obtient
alors
π(a)Pa (Xt = x, t < τz ) = π(x)Px (Xt = a, t < τz ) :
Maintenant, π étant proportionnel à c, si l’on fait la somme sur t on obtient :
Gτz (a, x) Gτ (x, a)

= z ·
c(x) c(a)
P
Maintenant, Gτz (x, a) = t≥0 Px (Xt = a, t < τz ) est harmonique en tout point x distinct de a,
puisque :
X
Gτz (x, a) = Px (Xt = a, t < τz )
t≥0
XX
= P (x, y)Py (Xt = a, t < τz ) car x 6= a
t≥0 y
X X
= P (x, y) Py (Xt = a, t < τz )
y t≥0
X
= P (x, y)Gτz (y, a)
y
Maintenant, on sait de plus que la tension en a vaut R(a ↔ z) du lemme 3.17. Il en découle
que I = R(a ↔ z). L’unicité est conséquence du principe de Dirichlet.
3.5 Temps de transport

Il est temps de tirer les fruits de l’introduction de la résistance équivalente. On rappelle que
θ désigne l’opérateur de translation en temps, défini en 2.8.
Définition 3.19. Soit a, b ∈ V et (Xt )t∈N ∈ V N une trajectoire issue de a. On note τb,a la
variable aléatoire :
τb,a : = min{t ≥ τb , Xt = a} = min{t ∈ N|∃s < t, Xs = b, Xt = a} = τa ◦ θτb + τb .
où l’on rappelle la convention que le minimum d’un ensemble vide est égal à +∞ On note ta↔b
et on appelle temps de transport entre a et b :
ta↔b : = Ea [τb,a ].
3.6. ÉNERGIE 43
On suppose maintenant (Xt )t∈N marche aléatoire sur un réseau fini irréductible. Ainsi le
temps de transport est le temps espéré, partant de a, pour revenir en a après avoir visité b (ce
qui correspond bien au temps de transport quotidien si a=”maison” et b=”bureau”). Notons
que la propriété de Markov forte implique :
Ea [τb,a ] = Ea [τa ◦ θτb + τb ] = Ea [τa ◦ θτb ] + Ea [τb ]
Mais
X
Ea [τa ◦ θτb ] = Ea [τa ◦ θτb , τb = t] car Pa (τb < ∞) = 1
t∈N
X
= Ea [τa ◦ θt , τb = t]
t∈N
X
= Eb [τa ]Pa (τb = t) de la propriété de Markov
t∈N
= Eb [τa ] car Pa (τb < ∞) = 1
et donc
ta↔b = Ea [τb ] + Eb [τa ]
est bien une expression symétrique en a et b, comme le laissait présager son écriture. L’identité
suivante sera notre outil principal pour évaluer des espérances de temps d’atteinte. Elle nécessite
le calcul préalable de la résistance équivalente et justifie au passage l’intérêt de cette notion.
Proposition 3.20 (Identité du temps de transport). Soit P irréductible réversible. Pour tout
a, b ∈ V ,
ta↔b = cG R(a ↔ b).
On se rappelle que cG défini en (3.2) comptabilise la somme des conductances des sommets
(la conductance d’une arête qui n’est pas une boucle est comptée deux fois dans cette somme).
Nous verrons en TD que cette identité fondamentale combinée permet bien souvent de se passer
de la méthode à un pas (et de la résolution de la récurrence qui lui est souvent associée).
Démonstration. On note π la mesure par rapport à laquelle P est réversible. Par le théorème
du temps d’occupation de Aldous-Fill, Théorème 2.14, et l’unicité de la mesure stationnaire
sous l hypothèse d’irréductibilité, on a
Gτ (a, a) c(a)
P b,a = π(a) = .
x Gτb,a (a, x) cG
P P+∞
Ensuite, par définition, x Gτb,a (a, x) = Ea t=0 1{Xt ∈V,τb,a >t} = Ea [τb,a ] = ta↔b . De plus,
d’après la définition du temps d’arrêt τb,a , et une application de la proposition 3.17,
Gτb,a (a, a) = Gτb (a, a) = c(a)R(a ↔ b)
On obtient en remplaçant Gτa,b (a, a) et Gτa,b (a, V ) par leurs deux expressions l’identité du temps
de transport.
3.6 Énergie
Définition 3.21. Soit θ un flot sur {G, c}. On définit l’énergie du flot θ par
X
E(θ) = θ(e)2 r(e).
e∈E
Le principe variationnel suivant justifie l’introduction de l’énergie.

Theorème 3.22 (Principe de Thomson). Pour tout graphe fini connexe,
R(a ↔ z) = E(I) = inf{E(θ) : θ flot unitaire de a à z},
et la borne inférieure est atteinte en le seul flot courant unitaire I.

Ainsi donc, en principe, il suffit de calculer l’extension harmonique de la fonction de valeur
1 en a et 0 en z (c’est-à-dire la tension), de la normaliser, puis de calculer l’énergie du flot
associé. En pratique cependant, on ne calcule jamais une résistance équivalente de la sorte
( !), et l’intérêt de ce résultat réside dans les conséquences théoriques qu’on peut en tirer : le
principe de Thomson fournit des bornes supérieures sur la résistance équivalente (moyennant
la construction d’un ”bon” flot, ce qui, en pratique, nécessite déjà une bonne compréhension
du problème).
Il existe une version duale de ce principe où la conductance équivalente est exprimée comme
la solution d’un problème de minimisation (ce qui permet donc de calculer des bornes sup pour
la conductance équivalente, c’est-à-dire minorer la résistance équivalente.)
Démonstration. Comme l’ensemble des flot unitaires est un fermé borné de R|E| , c’est un com-
pact et il existe donc un flot θ qui minimise E. Il suffit de montrer que θ vérifie la loi des mailles
pour l’identifier avec le flot courant unitaire. P
ei − 1←
Soient e~1 , e~2 , . . . , e~n un cycle orienté. Soit γ défini par γ = i (1−
→ e−i ). Notons que γ
définit un flot.
Soit ε ∈ R, comme θ minimise E, on a
n
X
ei ) + ε)2 − θ(~
ei )2 r(~

0 ≤ E(θ + εγ) − E(θ) = (θ(~ ei )
i=1
n
X
= 2ε r(~ ei ) + O(ε2 ).
ei )θ(~
i=1
En divisant par ε > 0 et en faisant tendre ε vers 0, on obtient 0 ≤ ni=1Pr(~

P
ei )θ(~
ei ). De même,
n
en divisant par ε < 0 et en faisant tendre ε vers 0, on obtient 0 ≥ i=1 r(~ei )θ(~ei ). Donc,
P n
i=1 r(~
ei )θ(~
ei ) = 0, θ vérifie la loi des mailles. Il reste à montrer que E(I) = R(a ↔ z).
2
X
2 1 XX W (x) − W (y)
E(I) = r(e)I(e) = r(x, y)
e
2 x y r(x, y)
1 XX
= c(x, y) (W (x) − W (y))2
2 x y
1 XX
= ~ (W (x) − W (y))
I(xy)
2 x y
X X
= W (x) I(xy)
~ car I est antisymétrique
x y
X X
= W (a) I(ay)
~ + W (z) I(zy)
~ par la loi des nœuds
y y
= kIk(W (a) − W (z))

= R(a ↔ z)
3.7. RÉDUCTION DE RÉSEAUX 45
Une autre conséquence clef du principe de Thomson est le :
Proposition 3.23 (Principe de monotonie de Rayleigh). Soient {r(e)} et {r0 (e)} deux en-
sembles de résistances sur les arêtes du même graphe G, et R(a ↔ z; r) et R(a ↔; r0 ) les
résistances équivalentes associées. Montrer que si, pour tout e, r(e) ≤ r0 (e), alors
R(a ↔ z; r) ≤ R(a ↔; r0 ).
Démonstration. On a, pour tout flot θ,

X X
r(e)θ(e)2 ≤ r0 (e)θ(e)2 .
e e
On minimise alors sur les flots θ unitaire pour conclure à l’aide du principe de Thomson.
Définition 3.24. On appelle ensemble d’arêtes séparateur entre a et z un ensemble d’arêtes

tel que tout chemin de a à z emprunte au moins une des arêtes de cet ensemble.
Proposition 3.25 (Borne inférieure de Nash-Williams). Soit I un ensemble (nécessairement

fini puisque E l’est) et {Πk }k∈I une famille d’ensembles séparateurs entre a et z deux à deux
disjoints, alors !−1
X X
R(x ↔ y) ≥ c(e) .
k∈I e∈Πk
Démonstration. Soit θ un flot unitaire de a à z. Alors, pour tout k ∈ I, l’inégalité de Cauchy-

Schwarz donne
!2 !2
X X Xp p X
c(e) · r(e)θ(e)2 ≥ c(e) r(e)|θ(e)| = |θ(e)| ≥ 1,
e∈Πk e∈Πk e∈Πk e∈Πk
(on pourra chercher comment justifier la dernière inégalité). Ainsi,

!−1
X XX X X
r(e)θ(e)2 ≥ r(e)θ(e)2 ≥ c(e) .
e k∈I e∈Πk k∈I e∈Πk
3.7 Réduction de réseaux

Le problème est le suivant : on dispose d’un réseau dont on veut calculer la résistance
équivalente. Pour le moment, nos moyens d’attaque sont maigres : on peut bien sûr calculer
la tension en les points voisins du point source a, c’est-à-dire la valeur du prolongement har-
monique W d’une fonction arbitraire définie en les points source et puits (avec des valeurs
distinctes) par la donnée de W (a) et W (z), puis calculer l’intensité du courant kIk = divI(a)
pour en déduire la résistance équivalente au moyen de la relation de définition.
Calculer les valeurs d’une extension harmonique est un problème cependant très difficile.
On se base donc sur une autre méthode appelée méthode de réduction du réseau. L’idée est de
simplifier successivement le réseau au moyen des trois règles suivantes :
1. ajout des résistances en série.
2. ajout des conductances en parallèle.
3. transformation étoile-triangle
Le point crucial est que la résistance équivalente du réseau avant et après réduction est in-
changée. Maintenant, si le graphe associé au réseau est planaire (c’est-à-dire peut être dessiné
dans le plan sans que deux arêtes [pas forcément dessinées par des segments de droite] ne se
touchent sauf en leurs extremités), alors on est assuré que l’application de ces trois règles per-
met de réduire le réseau en une arête liant point source et point puits, soit le réseau le plus
simple possible : la résistance de cette seule arête est alors la résistance équivalente.
Nous détaillons maintenant trois transformations utiles, dont les deux premières ci-dessus
(nous ne ferons pas usage de la transformation étoile-triangle).
— Les résistances en série s’additionnent :
Si v est un sommet de degré 2 du graphe G, de voisins v1 et v2 , alors les arêtes {v1 , v}
et {v2 , v} peuvent être remplacées par une seule arête {v1 , v2 } de résistance
r({{v1 , v}) + r({v, v2 })
Une fois l’arête {v1 , v2 } affectée de cette nouvelle résistance, La fonction tension (res-
treinte aux sommets du nouveau réseau, c’est-à-dire V \ {v}) vérifie la loi d’Ohm et la loi
des cycles, c’est-à-dire que la fonction tension restreinte est la tension dans le nouveau
réseau ; on peut reformuler cet énoncé plus simplement en disant que la tension n’est
pas changée en les sommets non modifiés. Pour le courant associé, on voit que
I(v1~v2 ) = I(v~1 v) = I(vv

~ 2 ),
et les valeurs de I en les arêtes non modifiées est inchangé. En conséquence, la résistance
équivalente de l’ancien et du nouveau réseau sont identiques.
— Les conductances en parallèle s’additionnent :
Soit deux arêtes e1 et e2 , de conductances c(e1 ) et c(e2 ) qui partagent les mêmes extre-
mités v1 et v2 : e1 = e2 = {v1 , v2 }. Alors ces deux arêtes peuvent être remplacées par
une seule arête e de conductance
c(e) = c(e1 ) + c(e2 ).
A nouveau la fonction tension (cette fois-ci sans restriction) vérifie la loi d’Ohm et la
loi des cycles pour pour ces nouvelles conductances. Le courant associé vérifie : I(e) =
I(e1 ) + I(e2 ), et ses valeurs en les autres arêtes sont inchangées.
Comme précédemment, la résistance équivalente de l’ancien et du nouveau réseau sont
identiques.
— Identification de sommets :
L’opération consiste simplement à identifier deux sommets v1 et v2 en un seul sommet
v. En conséquence, les éventuelles arêtes qui existaient entre v1 et v2 deviennent des
boucles par exemple. Cette opération n’est pas neutre sur la tension et le courant dans
le réseau, à moins que la tension W (v1 ) et W (v2 ) en les deux sommets v1 et v2 ne soit
identique dans le réseau de départ : dans ce cas en effet, on peut vérifier que la tension
originale vérifie encore la loi d’Ohm et la loi des noeuds ; le courant associé est le même
que dans le réseau initial (notons aussi qu’aucun courant ne circulait dans l’arête {v1 , v2 }
dans le cas où W (v1 ) = W (v2 )).
NB : a priori on a défini un réseau à partir d’un graphe dont les arêtes sont des paires de
sommets, donc des arêtes simples : notre définition empêche la possibilité d’arêtes multiples
entre deux mêmes sommets, en conséquence l’entrée ci-dessus au sujet des conductances en
parallèle semble donc vide. C’est sans compter que la troisième entrée au sujet de l’identification
de sommets peut générer de tels graphes avec des arêtes multiplies, et nous fait donc sortir du
cadre des réseaux tels que définis ci-dessus.
3.8. EN CONCLUSION 47
3.8 En conclusion
Les réseaux, qui correspondent à la donnée d’un graphe et de conductances sur celui-ci,
fournissent une représentation commode des chaı̂nes de Markov réversibles. Sont associés aux
réseaux les quantités physiques de tension et d’intensité, et les résistances/conductances des
arêtes trouvent leur géneérlisation dans les notions de résistances/conductances équivalentes
entre sommets (ou sous-ensembles de sommets). La résistance équivalente est un invariant
essentiel du réseau et des deux sommets choisis ; son calcul est rendu possible par les méthodes
des réduction de réseau usuels vus en physique. L’étude de la résistance équivalence Zd en
restriction aux sommets de coordónnées toutes inférieures à n (une ”boı̂te”) permet d’avoir
une approche quantitative du thórème de Polya au sujet de la récurrence/transience de ces
réseaux. Surtout les bornes inférieures (Nash-Williams) et supérieures (Thomson) permettent
de comprendre si ces résultats sont sensibles aux déformations de ces réseaux. Les preuves
historiques du théorème de Polya reposent sur des calculs exacts très dépendant du choix
précis de ces réseaux.
Chapitre 4
Temps d’atteinte et temps de

couverture
Pour une chaı̂ne irréductible à espace d’état fini, on sait que les temps d’atteinte sont finis
p.s., et même d’espérance finie. Après ces temps d’atteinte, une des quantités les plus naturelles
à considérer est le plus grand de ces temps d’atteinte, qui correspond aussi au premier instant
où l espace entier a été visité. Il porte le nom de temps de couverture.
On prendra soin de distinguer, parmi les quantités définie dans ce chapitre, les quantités
aléatoires des quantités déterministes. Dans la mesure du possible, on utilisera τ pour une
quantité aléatoire et t pour une quantité déterministe.
On travaille dans cette section avec une chaı̂ne (Xt )t∈N définie sur Ω. On consultera la
définition 2.16 si besoin pour la définition du temps d’atteinte d’un sommet.
Définition 4.1. On note thit et on appelle temps d’atteinte de la chaı̂ne (Xt )t∈N le temps
déterministe :
thit = max Ex [τy ].
x,y∈V
Définition 4.2. On note τcov et on appelle temps de couverture de la trajectoire (Xt )t∈N la
variable aléatoire
τcov = min{t ≥ 0, {Xs }0≤s≤t = V } = max τx .
x∈V
On note tcov et on appelle temps de couverture le temps déterministe :
tcov = max Ex [τcov ]

x∈V
Bien entendu une compréhension complète des variables aléatoires τcov (jusqu’aux fluctua-
tions) est plus informative que celle de tcov ; néanmoins, le calcul de tcov est un premier pas
important. Un premier lien simple entre thit et tcov est :
thit = max Ex [τy ] ≤ max Ex [τcov ] ≤ tcov . (4.1)

x,y∈V x∈V
4.1 Cas réversible.

Commençons par glâner quelques informations supplémentaires sur les temps d’atteinte.
Notre résultat principal à ce sujet, l’identité du temps de transport, met en jeu la somme
de deux termes, les temps d’atteinte espérés ; pour connaı̂tre chacun de ces deux termes, on
a besoin d’une information supplémentaire. Un cas particulièrement pratique est celui où les
deux temps sont égaux. On aimerait formuler une condition sous laquelle ceci vaut.
49
50 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE
Notons tout d’abord que même dans le cas de marches réversibles, on ne peut espérer avoir
l’égalité Ea [τb ] = Eb [τa ] : il suffit en effet de considérer un graphe G connexe avec au moins
3 sommets, dont deux sommets a et b tels que a ait pour seul voisin b et des conductances
unitaires et sans boucle (par exemple). Alors 1 = Ea [τb ] < Eb [τa ].
En revanche, si l’on démarre la chaı̂ne sous sa mesure stationnaire (par rapport à laquelle
elle est réversible), des propriétés intéressantes peuvent être énoncées en toute généralité.
On généralise la notion de temps d’atteinte définie en 2.16 à une suite finie de sommets :
Définition 4.3. Soit x1 , . . . , x` ∈ V ` . On note τx1 ,...,x` et on appelle temps d’atteinte de
x1 , . . . , x` (dans cet ordre) le temps aléatoire :
τx1 ,...,x` = min{t` ∈ N : ∃0 ≤ t1 < t2 < . . . < t` , (i ∈ {1, . . . , `} ⇒ Xti = xi )}
Ayant défini le temps d’atteinte d’un sommet, on aurait aussi pu adopter la définition
récursive suivante, à l’aide de l’opérateur θ de translation en temps défini en 2.8 :
τx1 ,...,x` = τx1 + θτx1 ◦ τx2 ,...,x` et τx = min{t ∈ N, Xt = x}
Il s’agit du premier instant où x1 , x2 , . . . , x` ont été visités dans cet ordre par la trajectoire.
(Noter qu’on a droit aux répétitions parmi les xi .) Par exemple, τabc (cbbaccbacb...) = 8 (le
c souligné apparaı̂t en neuvième position, mais on initialise le compteur à 0). Une propriété
importante des marches aléatoires sur réseau est la suivante
Proposition 4.4. Soit un réseau transitif {G, c}, soit x1 , . . . , x` ∈ V ` , et soit (Xt )t∈N la marche
aléatoire associée. On a l’identité
Eπ [τx1 ,...,x` ] = Eπ [τx` ,...,x1 ].
On en déduit immédiatement l’identité suivante, pour les cycles.
Corollaire 4.5 (Lemme cyclique). Sous les hypothèses précédentes, et si de plus x1 = x` ,
c’est-à-dire si la suite de sommets forme un cycle alors :
Ex1 [τx2 ,...,x` ] = Ex` [τx`−1 ,...,x1 ].
Le Corollaire se déduit directement de la Proposition.
Démonstration du Corollaire. Il suffit d’observer que la Proposition 4.4 s’écrit aussi du fait de
la propriété de Markov forte :
Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]
ce qui implique, en soustrayant le premier terme de chaque membre (puisque x1 = x` ),
Ex1 [τx2 ,...,x` ] = Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ] = Ex` [τx`−1 ,...,x1 ]
Démonstration de la Proposition. On définit un ordre partiel sur l’ensemble des mots finis à
valeurs dans V : m m0 si m est sous-mot de m0 , c’est-à-dire que m = (x1 . . . xk ) et m0 =
(x01 . . . x0k0 ) et il existe x0i0 = xπ(i) pour 1 ≤ i ≤ k et π strictement croissante. Notons maintenant
que, pour k ≥ ` − 1,
Pπ (τx1 ,...,x` ≤ k) =Pπ ((x1 , . . . , x` ) (X0 , . . . , Xk ))
=Pπ ((x1 , . . . , x` ) (Xk , . . . , X0 )) par réversibilité
=Pπ ((x` , . . . , x1 ) (X0 , . . . , Xk )) par définition
=Pπ (τx` ,...,x1 ≤ k)
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)51
Il s’ensuit
X X
Eπ [τx1 ,...,x` ] = Pπ (τx1 ,...,x` ≥ k) = Pπ (τx` ,...,x1 ≥ k) = Eπ [τx` ,...,x1 ].
k≥1 k≥1
Pour se débarasser la mesure initiale stationnaire dans la Proposition 4.4, et pouvoir considérer
une mesure initiale arbitraire, une hypothèse supplémentaire est nécessaire. l’hypothèse de tran-
sitivité est une hypothèse de symétrie qui énonce que le graphe vu depuis n’importe lequel de
ses sommets est identique.
Définition 4.6. Un réseau est transitif si pour tout sommets (a, b) ∈ V 2 , il existe une bijection
φ : V → V telle que φ(a) = φ(b) et φ préserve les conductances :
c(φ(x), φ(y)) = c(x, y)
ayant étendu la conductance c à une application sur l’ensemble des paires de sommets (et non
les seules arêtes), en posant c(x, y) = ∞ si {x, y} ∈
/ E.
Corollaire 4.7. Sous les hypothèses de la Proposition 4.4, et si de plus le réseau {G, c} est
transitif, alors on a l’identité :
Ex1 [τx2 ,...,x` ] = Ex` [τx`−1 ,...,x1 ].
Démonstration. La proposition 4.4 s’écrit aussi :
Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]
Mais puisque le réseau est transitif, on sait que
Eπ [τx1 ] = Eπ [τx` ].
(décomposer selon π si besoin). La différence des deux égalités précédentes fournit le résultat
cherché.
Un corollaire immédiat est le suivant :
Corollaire 4.8. Soit un réseau transitif irréductible {G, c}, et a, b ∈ V , et (Xt )t∈N la marche
aléatoire associée. On a l’identité
Ea [τb,a ] cG R(a ↔ b)
Ea [τb ] = = .
2 2
4.2 Borne de Matthews (de l’aléa pour construire une

borne supérieure)
On peut compléter la borne inférieure sur tcov par une borne supérieure.
Theorème 4.9 (Borne supérieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω de
cardinal n. Alors
1 1
tcov ≤ thit 1 + + · · · + .
2 n
Démonstration. Soit σ une permutation uniforme de Ω, indépendante de la chaı̂ne de Markov

(Xt )t∈N . On note Tk le premier instant où les états σ(1), σ(2), . . . , σ(k) ont été visités et Lk =
XTk le dernier de ces états à avoir été visité. On remarque
n
X
Ex [τcov ] = Ex [Tn ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2
Il est clair que
X X 1 X1
Ex [T1 ] = Ex [T1 | σ(1) = y] P(σ(1) = y) = Ex [τy ] ≤ thit = thit
y x
n y
n
Puis, notant que Ti − Ti−1 est non nul ssi σ(i) est le dernier des sommets visités parmi
σ(1), σ(2), . . . , σ(i), événement dont la probabilité s’évalue à 1i par échangeabilité, on a :
Ex [Ti ] − Ex [Ti−1 ] = Ex [Ti − Ti−1 ]

= Ex [τσ(i) ◦ θTi−1 1{τσ(i) >maxj≤i−1 τσ(j) }] de la propriété de Markov forte
= Ex [EXTi−1 [τσ(i) ]1{τσ(i) >maxj≤i−1 τσ(j) }]
≤ Ex [thit 1{τσ(i) >maxj≤i−1 τσ(j) } ]
≤ thit Px (τσ(i) > max τσ(j) )
j≤i−1
1
= thit
i
On conclut en sommant les inégalités obtenues.
Il est utile de se demander dans quels cas la borne a des chances d’être précise. On note
ensuite qu’une simple adaptation de la démonstration permet de donner un minorant de tcov
en fonction des quantités
tA
min : = min Ea [τb ] où A ⊂ Ω.
a,b∈A,a6=b
Theorème 4.10 (Borne inférieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω
de cardinal n. Alors
A 1 1
tcov ≥ max tmin · 1 + + · · · + .
A⊂Ω 2 |A| − 1
Par rapport à la borne supérieure de Matthews, on notera que dans le membre de droite, le
dénominateur est A − 1 et non pas A. Surtout tA min remplace thit . Si tout choix de A donne une
borne inférieure, mais la qualité de la borne obtenue réside dans le choix du A.
Démonstration. Soit x ∈ A, et σ une permutation aléatoire uniforme de A \ {x}, indépendante

de la chaı̂ne de Markov. On note à nouveau Tk le premier instant où les états σ(1), σ(2), . . . , σ(k)
ont été visités et Lk = XTk le dernier des ces états à avoir été visité. On décompose
|A|−1
X
Ex [τcov ] ≥ Ex [TA ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)53
On a que :
Ex [Ti ] − Ex [Ti−1 ] = Ex [Ti − Ti−1 ]
= Ex [τσ(i) ◦ θTi−1 1{τσ(i) >maxj≤i−1 τσ(j) }] de la propriété de Markov forte
= Ex [EXTi−1 [τσ(i) ]1{τσ(i) >maxj≤i−1 τσ(j)} ]
≥ Ex [tA
min 1{τσ(i) >maxj≤i−1 τσ(j) } ]
≥ tA
min Px (τσ(i) > max τσ(j) )
j≤i−1
1
= thit
i
Regardons ce que donnent les bornes de Matthews sur l’exemple du tore de dimension 1.
Theorème 4.11 (Bornes de Matthews pour le temps de couverture du n-cycle). Le temps de
couverture du n-cycle vérifie
n2 n2
≤ tcov ≤ log(n)(1 + o(1)).
4 4
Démonstration. On prend pour A un ensemble composé de deux sommets opposés à distance
maximale. Les temps d’atteinte sont calculés en utilisant la formule du temps de transport et
le lemme concernant les graphes transitifs.
Les bornes précédentes sont données à titre d’exemple seulement, puisque dans ce cas précis
il est possible de faire un calcul exact : on montre qu’on se ramène à un problème de ruine du
joueur.
Theorème 4.12 (Temps de couverture exact du n-cycle). Le temps de couverture du tore du
n-cycle vérifie
n(n − 1)
tcov = ·
2
On voit donc que la borne inférieure était ici plus proche de la verité.
Démonstration. On appelle ”range” à l’instant t l’ensemble image {Xs , s ≤ t}. Notons que le
range forme un processus croissant pour l’inclusion, le cardinal du range a des incréments égaux
à 0 ou 1 á chaque instant. Lorsque la taille du range vaut k pour la première fois, alors le range
correspond à un intervalle de longueur k et la marche se trouve a l’une des extrémités de ce
range. Le temps d’attente du moment où le range vaudra k + 1 est alors le temps d’atteinte
de {0, k + 1} par la marche simple issue de 1, ce temps peut être évalué à l’aide du temps de
transport, il vaut
1 1 1
E[τ{0,k+1} ] = cG R(1 ↔ {0, k + 1}) = · 2(k + 1) · 1 =k
2 2 1+ k
Ainsi
X n(n − 1)
tcov = k= .
1≤k≤n−1
2
Un autre graphe très simple où le calcul du temps de recouvrement est possible est le graphe
complet (on a déjà étudié cette quantité en TD, sans mentionner alors qu’on calculait le temps
de recouvrement du graphe complet, saurez-vous retrouver cet exercice ?).
Le chapitre suivant, le dernier, est dévolu aux calculs nécessaires pour passer au tore de
dimension supérieure, nettement plus délicats que dans le cas 1 dimensionnel.
Chapitre 5
Application : temps de couverture du

tore
Nous avons maintenant tous les éléments en place d’un point de vue théorique pour com-
prendre les temps de couverture du tore d-dimensionnels de côté n − 1, généralisation du
n-cycle en dimension d. Un obstacle de taille demeure néanmoins : des bornes quantitatives sur
les résistances entre deux points arbitraires de ces graphes. Nous calculons ici de telles bornes,
puis les estimées sur les temps d’atteinte et temps de couverture suivront. On notera que la
précision des estimées concernant les résistances conditionne la précision des résultats suivants.
Tout d’abord la définition de graphe induit.
Définition 5.1. Le graphe induit par G sur V 0 ⊂ V est le graphe G0 = (V 0 , E 0 ) avec E 0 = {e ∈

E : e = {x, y}, (x, y) ∈ V 2 }
Ainsi on ne conserve dans G0 que les arêtes dont les deux extrémités sont dans V 0 . Il peut
être utile d’attacher aux arêtes une grandeur scalaire.
Définition 5.2 (tore et cube d-dimensionnel). On appelle tore d-dimensionnel (de côté n−1) le
graphe d’ensemble de sommets V = {1, . . . , n}d où deux sommets x = (xi )1≤i≤d et y = (yi )1≤i≤d
sont adjacents ssi
X
|xi − yi | = 1 (5.1)
1≤i≤d
avec la différence calculée dans Z/nZ. On appelle cube d-dimensionnel (de côté n − 1) le graphe
induit par Zd sur l’ensemble de sommets {1, . . . , n}d .
Dans le cas du cube, la définition de l’ensemble des arêtes est donc analogue à 5.1 mais la
différence est prise dans Z est pas n’est pas prise dans Z/nZ. Si le tore d-dimensionnel est un
graphe transitif, ce n’est pas le cas du cube d-dimensionnel. Notre objectif est d’étudier le tore
mais nous aurons aussi besoin en chemin du cube.
Theorème 5.3 (Tores : temps d’atteinte). Soient x, y deux sommets du tore d-dimensionnel
à distance k ≥ 1 dans le tore de dimension d à nd points. Le temps d’atteinte τy satisfait la
propriété suivante : il existe des constantes 0 < cd ≤ Cd < +∞ telles que
c2 n2 log(k) ≤ Ex [τy ] ≤ C2 n2 log(k) si d = 2

d d
cd n ≤ Ex [τy ] ≤ Cd n si d ≥ 3.
On notera que l’estimée ne dépend pas de d dans le cas de la dimension d ≥ 3.
55
56 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE
Démonstration. L’identité du temps de transport dans le cas transitif assure que
2Ex [τy ] = Ex [τy ] + Ey [τx ] = cG R(x ↔ y) = 2dnd R(x ↔ y).
Pour une borne inférieure sur le résistance équivalente, on construit des cutsets d’arêtes deux
à deux disjoints pour isoler x de y. On rappelle que kxk∞ = max{|xi |, 1 ≤ i ≤ d} définit la
norme infinie.
Πj = {{v, w} ∈ V 2 , kv − xk∞ = j, kw − xk∞ = j + 1}.
Alors, pour 0 ≤ j ≤ ky − xk∞ − 1 ≤ k − 1, Πj est un cutset d’arêtes qui sépare x de y,
et qui est de cardinal 2d(2j + 1)d−1 . De plus, ces cutsets sont deux à deux disjoints, donc, par
Nash-Williams,
 −1
k−1
X X
R(x ↔ y) ≥  c(e)
j=0 e∈Πj
k−1
X 1
≥
j=0
2d(2j + 1)d−1

 c2 log(k) si d = 2
≥
cd si d ≥ 3.

Ainsi, on a finalement, pour des constantes c1 et cd différentes :


 c2 n2 log(k) si d = 2
Ex [τy ] ≥
cd nd si d ≥ 3.

La borne supérieure est plus délicate, elle nécessite la construction de flots, qui eux mêmes
nécessitent de comprendre l’urne de Polya tout d’abord 1
Proposition 5.4 (Urne de Polya à d couleurs). Soit une urne composée à l’instant t = 0 de
d boules, dont 1 boule de chacune des d couleurs possibles. À chaque instant t ≥ 1, on tire une
boule choisie uniformément au hasard dans l’urne à l’instant t − 1, qu’on replace dans l’urne
avec une boule de même couleur. La composition de l’urne forme alors une chaı̂ne de Markov
(Xt )t∈N = (Xt (i), 1 ≤ i ≤ d)t∈N à valeurs dans (N? )d , et pour chaque t ∈ N, la loi de Xt est
uniforme dans l’ensemble :
( )
X
(yi )1≤i≤d ∈ (N? )d : yi = d + t
1≤i≤d
t+d−1

et le cardinal de cet ensemble vaut d−1
.
Démonstration. La démonstration se fait par exemple par récurrence. La propriété vaut en

t = 0. On notera pour x ∈ (N? )d xi = (xij )1≤j≤d le vecteur xij = xj − 1{i} (j). On suppose que la
1. Cette méthode de preuve du théorème de Polya (qui concerne la récurrence/transience des graphes Zd )
au moyen d’urnes de Polya est relativement récente : voir David A. Levin and Yuval Peres. ”Pólya’s theorem
on random walks via Pólya’s urn.” The American Mathematical Monthly 117.3 (2010) : 220-231)
57
propriété vaut à l’instant t − 1 et on calcule comme suit :
d
X
P(Xt = x) = P(Xt−1 = xi , Xt = x)
i=1
d
X xi (i)
= P(Xt−1 = xi ) P i
i=1 j x (j)
d
1 X xi (i)
= t−1+d−1
P i
d−1 i=1 j x (j)
(d − 1)!(t − 2)! t − 1
=
(t − 1 + d − 1)! t + d − 1
(d − 1)!(t − 1)!
=
(t + d − 1)!

t−1+d
=
d−1
Donc la propriété est vraie pour tout t ∈ N.
Noter que la démonstration par récurrence donne aussi la valeur du cardinal (on peut
néanmoins obtenir ceci de manière directe, en notant qu’à chaque d-uplet y est associé de façon
unique un chemin dit nord-est de (0, 0) à (d − 1, t) dans Z2 , c’est-à-dire un chemin de longueur
minimale d − 1 + t).
On propose dans le lemme suivant une borne supérieure sur la résistance entre des coins
opposés d’un cube d-dimensionnel (et non d’un tore). Ce graphe n’est plus transitif en particu-
lier.
Lemme 5.5. Soit le cube d-dimensionnel (de côté n−1), et notons 1 le sommet de coordonnées
(1, . . . , 1), et k · 1 celui de coordonnées (k, . . . , k). Soit k tel que kd < n − 1. Alors

2 log(k) si d = 2
R(1↔ k · 1) ≤
C̃d si d ≥ 3.
On notera l’hypothèse sur k dont a besoin dans la construction du flot.
Démonstration. On construit un flot unitaire θ de 1 à k · 1 sur ce graphe. Pour cela, on va

utiliser une urne de Polya (et le flot qui lui est naturellement associé P plus précisément). La
distance de 1 à n · 1 vaut (k − 1)d, et on considère l’hyperplan {x : xi = (k − 1)d/2}.
~ + ~ ~ (k−1)d/2 en posant
Posons : E` = {~e ∈ E, k~e− k1 − 1 = k~e+ k1 ≤ `}. On définit le flot sur E
!
[
θ(~e) = P ~e ∈ {Xt , Xt+1 } .
t≥0
Ensuite, la règle d’antisymétrie définit le flot sur les arêtes dirigées opposées. Enfin,
θ(k1 − ~e) = −θ(~e)

plus la règle d’antisymétrie achèvent de définir le flot. Maintenant,

X
E(θ) = r(e)θ(e)2
e
n−2
X X
=2 θ(e)2
k=0 e={x,y}∈E
x à distance k de a
y à distance k+1 de a
n−2 −1 !2
X k+d−1 k+d−1
≤2 ·
k=0
d−1 d−1
n−2
X −1
k+d−1
≤2
k=0
d−1

2 log(n) si d = 2
≤
C̃d si d ≥ 3.
x = (x1 , x2 , . . . , xd ) et y = (y1 , y2 , . . . , yd ) forment un pavé de dimension d tel que, pour

tout 1 ≥ i ≥ d, |yi − xi | ≥ k.
Pour tout 1 ≥ i ≥ d, il existe si tel que |yi − xi | = 2si ou 2si + 1 selon la parité de |yi − xi |.
Par l’inégalité triangulaire, on a
R(x ↔ y) ≤R((x1 , x2 , . . . , xd ) ↔ (y1 , x2 , . . . , xd ))

+ R((y1 , x2 , . . . , xd ) ↔ (y1 , y2 , . . . , xd ))
+ ...
+ R((y1 , y2 , . . . , xd ) ↔ (y1 , y2 , . . . , yd ))
Or, la résistance équivalente de deux points, qui sont dans le même hyperplan, à distance paire
valant 2s, est majorée, par l’inégalité triangulaire, par 2 fois la résistance équivalente entre les
deux extrémités d’un Gds .
Donc,
d
X
1 + 2R a ↔ z, où a et z sont les extrémités d’un Gdsi

R(x ↔ y) ≤
i=1
P2
1 + 4 log(si ) si d = 2
≤ Pi=1 d
1 + 2C̃d si d ≥ 3.
i=1
2(1 + 4 log(k + 1)) si d = 2
≤
d(1 + 2C̃d ) si d ≥ 3.
 C
 22 log(k + 1) si d = 2
≤
 Cd
d
si d ≥ 3.
Donc, si d = 2,
Ex [τy ] ≤ C2 n2 log(k + 1)
et si
Ex [τy ] ≤ Cd nd .

5.1. ANNEXE 59
Nous en venons finalement au théorème sur les temps de couverture du tore d-dimensionnel,
qui conclut ce cours.
Theorème 5.6 (Temps de couverture du tore d-dimensionnel). Le temps de couverture du tore

d-dimensionnel satisfait : il existe des constantes 0 < cd ≤ Cd < +∞ telles que
c2 2
n (log(n))2 (1 + o(1)) ≤ tcov ≤ 2C2 n2 (log(n))2 (1 + o(1)) si d = 2
2
cd dnd log(n)(1 + o(1)) ≤ tcov ≤ Cd dnd log(n)(1 + o(1)) si d ≥ 3.
Démonstration. Les bornes supérieures découlent directement de la borne supérieure de Mat-

thews, et des estimées sur les temps d’atteinte. Des précisions doivent en revanche être apportées
sur la borne inférieure : il s’agit de choisir un bon ensemble de sommets A d’après 4.10 et pour
d ≥ 3, on prend simplement pour A l’ensemble des sommets, A = V , et il suit :

A 1 1
tcov ≥ tmin 1 + + . . . +
2 |A| − 1

d 1 1
≥ cd n 1 + + . . . + d
2 n −1
d
≥ cd dn log(n)
Pour d = 2 maintenant, il existe des constantes 0 < c2 ≤ C2 < +∞ telles que pour x, y ∈ V , si
l’on note k = d(x, y), on a
c2 n2 log(k) ≤ Ex [τy ] ≤ C2 n2 log(k).
On doit être cette fois plus fin dans notre choix de A. Considérons d’abord le cas où n est un
carré
√ parfait, alors prenant pour A l’ensemble des sommets dont les coordoneées sont multiples
de n, on trouve :

A 1 1
tcov ≥ tmin 1 + + . . . +
2 |A| − 1
√

2 1 1
≥ c2 n log( n) 1 + + . . . +
2 n−1
c2 2
≥ n (log(n))2 (1 + o(1)).
2
Si n n’est pas un carré √
parfait, alors on observe
√ que le plus grand √
carré parfait inférieur
√ à
n est √minoré par n − 2 n : en effet m ≤ n < m + 1 implique n − 1 < m ≤ n et
n − 2 n + 1 < m2 ≤ n et le même résultat vaut donc.
5.1 Annexe
5.1.1 Vocabulaire des graphes
Un graphe simple, non-dirigé 2 G = (V, E) est la donnée d’un ensemble V et d’une partie
E des paires d’éléments de V . V est traditionnellement appeé l’ensemble des sommets et E
l’ensemble des arêtes. Une arête est génériquement notée {x, y}, avec x, y ∈ V , et l’ordre des
éléments de la paire n’a pas d’importance : {x, y} = {y, x} (une paire est un ensemble à deux
éléments) : le graphe est dit non-dirigé.
2. on dit aussi non-orienté, le mot dirigé est plus proche de l’anglais ”directed”
Un arête du type {x, x} où x ∈ V est appelé une boucle. On précise en général au cas par
cas si on autorise ou non les boucles dans la définition d’un graphe.
Notons que la donnée de l’ensemble E des arêtes équivaut à la donnée d’une fonction ϕ de
l’ensemble des paires de sommets dans {0, 1} :
ϕ({x, y}) = 1E ({x, y})).
Si maintenant on autorise ϕ à prendre des valeurs entières (dans N) quelconques, alors on
définit la notion de graphe non-simple plus couramment appelé multigraphe : le ”multi” renvoie
au fait que les arêtes peuvent être multiples. La valeur de ϕ({x, y}) précise combien de fois
apparaı̂t l’arête {u, v}, et si ϕ({x, y}) ≥ 2, on dit que l’arête est une arête multiple. De façon
équivalente, on peut encore noter G = (V, E) un multigraphe, mais alors E est un ”multiset”,
c’est-à-dire un ensemble dans lequel on autorise les répétition, de paires d’éléments de V .
Une autre direction de gńéralisation de la notion de graphe simple non-dirigé est la suivante :
un graphe dirigé G = (V, E), ~ est la donnée d’un sous-ensemble E ~ du produit cartésien V × V
~ ∈E
d’arêtes dirigées, génériquement notées xy ~ si x, y ∈ V ; à la différence du cas non-dirigé,
on n’a plus cette fois xy ~ ∈ E~ sans pour autant avoir yx ~ ∈ E. ~ La matrice d’adjacence A =
(Ax,y )x,y∈V est alors définie par
Axy = 1xy∈E
~
On pourrait bien sûr définir une notion de multigraphe dirigé en ajoutant la donnée d’une
~ → N, mais nous n’aurons pas ici besoin de ces graphes.
fonction ϕ : E
La matrice d’adjacence A = (A(x, y))x,y∈V d’un graphe simple non-dirigé G = (V, E) est la
matrice symétrique indicée par les éléments de V × V :
A(x, y) = 1{x,y}∈E dans le cas non-dirigé, A(x, y) = 1x,y∈
~ E ~ dans le cas dirigé
Dans le cas où toutes les lignes de la matrice sont non nulles, on peut bien sûr normaliser
les
P lignes de cette matrice P de façon à en faire une matrice stochastique. On pose deg(x) =
1
y {x,y}∈E ou deg(x) = y 1x,y∈E
~ selon le cas de figure, puis :
1{x,y}∈E 1x,y∈
~ E ~
P (x, y) = dans le cas non-dirigé, P (x, y) = dans le cas dirigé
deg(x) deg(x)
Il s’agit de la matrice de transition de la marche aléatoire simple sur le graphe G.
5.1.2 Queue de distribution et espérance

Pour étudier les temps de retour et d’atteinte, rappelons quelques lemmes au sujet de
l’espérance de variables aléatoires.
Lemme 5.7 (Inégalité de Markov). Soit X une variable aléatoire positive ou nulle p.s., et
t > 0. Alors :
E[X]
P(X ≥ t) ≤
t
En particulier, si X est une variable aléatoire intégrable alors P(X < ∞) = 1.
Démonstration. En effet, soit X une variable aléatoire intégrable,
E[X] = E[X1X≥t ] ≥ E[t1X≥t ] = tP(N ≥ t)
ou l’on utilise de manière cruciale que X ≥ 0 p.s. pour l’inégalité. Maintenant :
E[X]
P(X = ∞) = P(∩s∈N? {X ≥ s}) ≤ P(X ≥ t) ≤
t
vaut pour tout t donc le terme à gauche est nul.
5.1. ANNEXE 61
Bien entendu, si X admet des moments d’ordre supérieur, c’est-à-dire si E[X p ] < ∞, alors
en remplaçant X par X p dans l’énoncé ci dessus, p > 1, on obtient des décroissances meilleures
de la queue de distribution, en t−p . Un autre lemme clef fait un lien exact entre espérance et
queue de distribution :
Lemme 5.8. Si N est une variable aléatoire à valeurs dans N∪{∞} p.s. (i.e. P(X ∈ N∪{∞}) =
1), alors :
X ∞ X∞
E[N ] = P(N ≥ t) = P(N > t)
t=1 t=0
On notera bien que l’égalité dans ce lemme est une égalité dans [0, ∞], c’est--̀dire que les
deux membres peuvent être simultanément égaux à +∞. On a pas besoin de vérifier qu’on a
affaire à des variables aléatoires finies avant d’utiliser ce lemme.
Démonstration. Pour tout n ∈ N, on peut écrire n = ∞
P P∞
t=1 1n≥t = t=0 1n>t . Il suffit alors de
prendre l’espérance des deux membres et d’utiliser Fubini-Tonnelli.

Chain Es Demarkov

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chain Es Demarkov

Transféré par

Droits d'auteur :

Formats disponibles

1

1. Notes du cours  Chaı̂nes de Markov  (PRB201) du master M1 MA

2 Les chaı̂nes associées aux matrices 19

3 Réseaux électriques (a.k.a. chaı̂nes réversibles) 35

4 Temps d’atteinte et temps de couverture 49

5 Application : temps de couverture du tore 55

1.1 Le semi-groupe des matrices stochastiques.

il possède notamment la propriéte d’associativité, et on note, dans ce cadre, le

1.2 L’ensemble des mesures stationnaires

avec 1= (1)x∈Ω , d’où :

1.2.1 Définition et existence d’une mesure stationnaire

Définition 1.6. Soit P matrice stochastique. On note

l’ensemble des mesures de probabilité stationnaires de P .

Proposition 1.8 (Existence). Soit P matrice stochastique. Alors IP 6= ∅.

Il existe également une preuve algébrique, basée sur le :

tandis qu’on a égalité des sommes de ces mêmes quantités sur y :

Deuxième preuve de la Proposition 1.8. P 1 = 1 donc 1 valeur propre de P − In (In la matrice

1.2.2 Unicité de la mesure stationnaire et irréductibilité

Définition 1.11. Soit P stochastique, h : Ω → R, x ∈ Ω et Ω0 ⊂ Ω.

Proposition 1.14 (Unicité). Soit P irréductible. #IP = 1

1.3 Convergence et périodicité

d’où t + t0 ∈ T (y), et en particulier, en prenant t = 0 dans l’expression ci-dessus t0 ∈ T (y).

La proposition clef qu’on montre sous l’hypothèse d’apériodicité est la suivante.

pour tout x, y ∈ Ω, P t0 (x, y) ≥ ε. (1.4)

Lemme 1.22 (Lemme de Schur). Un sous-ensemble S ⊂ N stable par somme (t, s ∈ S ⇒

c’est-à-dire que S contient tous les entiers sauf un nombre fini.

conduisent aux simplifications suivantes lorsqu’on applique la formule du binôme de Netwon

P t0 k = ((1 − ε)Q + εΠ)k

P t0 k+r − Π = (P t0 k − Π)P r car Π = ΠP r

1.4 Matrices stochastiques et réversibilité

Au vu de la simplification que constitue la réversibilité dans la recherche des mesures sta-

Proposition 1.28 (Condition nécessaire d’apériodicité). Soit P stochastique irréductible et ω

Ωk = {y ∈ Ω : ∃t ∈ aN + k, P t (x0 , y) > 0}.

On a alors par irréductibilité la décomposition Ω = Ω0 ∪ ... ∪ Ωa−1 , et nous affirmons que la

1.5.2 Irréductibilité et matrice triangulaire par blocs.

∀i, j ∈ {1, . . . , k}, i 6= j ⇒ Mx,y = 0, si x ∈ Ωi , y ∈ Ωj

Remarque 1.31. Soit P matrice stochastique qui vérifie :

∀x, y ∈ Ω, (∃t ∈ N : P t (x, y) > 0) ⇒ (∃s ∈ N : P s (y, x) > 0)

Alors P n’est pas irréductible ssi P est triangulaire par blocs.

Les chaı̂nes associées aux matrices

2.1 Construction des chaı̂nes

au complémentaire, par réunion dénombrable, et qui contient l’ensemble entier). La tribu de

πs : ΩN → Ω, (xt )t∈N → xs et également π≤s : ΩN → Ωs+1 , (xt )t∈N → (xt )0≤t≤s .

Les tribus associées, notées :

σ{πs , s ∈ N} et σ{π≤s , s ∈ N},

Bien sûr, les cylindres suivants

sont dans la tribu cylindrique. Par exemple, l’événement

{(xt )t∈N est constant à partir d’un certain rang }

{(xt )t∈N constant à partir d’un certain rang} = {∃x ∈ Ω, ∃t ∈ N : ∀s ∈ N, (s ≥ t ⇒ xs = x)}}

(E, F , P) → ΩN , ω 7→ (Xt (ω))t∈N (2.1)

mais aussi, par définition de la tribu cylindrique, que pour tout t ∈ N, x ∈ Ω, {ω : Xt = x} =

Au sujet du vocabulaire, la chaı̂ne de Markov hérite des propriétés de sa matrice de tran-

P(X0 = x) = µ(x) et P (x, y) = µ(y).

Untuitivement, une fois en x, on saute en y avec probabilité µ(y) indépendante de x : le

∀x, y ∈ Ω, P (x, y) = η(y − x), η mesure de probabilité sur Ω,

2.1.2 Loi marginale de la chaine

Lemme 2.4 (Loi marginale et produit matriciel). On a

∀x, y ∈ Ω, Px (Xt = y) = P t (x, y).

Plus généralement, pour µ une probabilité sur Ω et f : Ω → R, et x ∈ Ω,

Eµ [f (Xt )] = µP t f, et en particulier Ex [f (Xt )] = P t f (x).

Démonstration. On pose la convention xt = x On commence par exprimer l’événement {Xt =

= P t (x, y) par définition du produit matriciel

Le cas particulier où µ = δx la mesure de Dirac en x donne la dernière identité de l’énoncé.

2.2 La propriété de Markov

1. Notes du cours Chaı̂nes de Markov (PRB201) du master M1 MA