Vous êtes sur la page 1sur 61

1

Chaı̂nes de Markov

Olivier Hénard

9 octobre 2019

1. Notes du cours  Chaı̂nes de Markov  (PRB201) du master M1 MA


2

Ces notes de cours reprennent dans un seul ensemble (supposé cohérent) une toute petite
partie des notions présentées dans le livre de Levin Peres (et Wilmer) :

Levin, D. A., & Peres, Y. Markov chains and mixing times Second Edition (Vol. 107).
American Mathematical Soc. (2017)

qui est la référence choisie pour ce cours. Notre ambition en proposant ce texte complémentaire
n’est pas de nous substituer à cette référence, mais plutôt d’aider le lecteur novice à trouver
son chemin dans cet ouvrage dont l’ambition excède très largement le cadre d’un cours de 6
séances d’une heure.
Notre délicat travail d’élagage a été dicté cette année par un principe simple : parvenir à
aborder, au terme des six séances, le problème des temps de recouvrement d’une chaı̂ne de
Markov ; le choix de ce problème a lui-même répondu à plusieurs critères : confronter le plus
rapidement possible les étudiants à une problématique de recherche récente et abordable 1 ,
sans trop de technicité, et qui offre un panorama des méthodes utilisées dans les probabilités
modernes.
Le chemin que nous avons tracé dans l’ouvrage est le plus court chemin qui a pour point
de départ la définition d’une chaı̂ne de Markov et pour point d’arrivée le calcul effectif des
temps de recouvrement des tores d-dimensionnels. Le contenu de quasiment toutes ces notes
découle de ces deux impératifs, comme pourra le constater un lecteur qui pour comprendre le
résultat final sur les temps de recouvrement, déroulerait patiemment la bobine des résultats
intermédiaires nécessaires à la compréhension du résultat final.
Le problème des temps de recouvrement fournit un exemple caractéristique de la théorie dite
”moderne” des chaı̂nes de Markov. Alors que la théorie dite classique des chaı̂nes de Markov
était centrée sur la vitesse de convergence en temps long d’une chaı̂ne donnée vers sa mesure
stationnaire, la théorie moderne consiste plutôt à considérer des familles de chaı̂nes de Markov
dont l’espace d’état croit, et à estimer pour ces familles des quantités caractéristiques (ici le
temps de recouvrement, c’est-à-dire le temps mis par un marcheur aléatoire sur un graphe pour
visiter chaque sommet du graphe) lorsque la taille de l’espace d’état tend vers l’infini. Cette
théorie moderne est développée depuis les années 80 et elle est motivée par des applications en
algorithmique et physique statistique.
Mentionnons les quelques résultats essentiels contenus dans ce cours :
— tout d’abord, le théorème de convergence des chaı̂nes de Markov (et sa démonstration
en particulier, hautement généralisable),
— la représentation des mesures stationnaires par les fonctions de Green (attribuée à
Aldous-Fill), qui justifie l’approche probabiliste,
— la représentation probabiliste des extensions harmoniques au moyen des chaı̂nes de Mar-
kov stoppées en un temps d’arrêt (problème de Dirichlet),
— l’équivalence entre les chaı̂nes réversibles et les réseaux électriques, qui culmine avec le
principe de Thomson (une description énergétique/variationnelle des fonctions harmo-
niques),
— l’identité du temps de transport (qui motive pour beaucoup l’intérêt de la résistance
équivalente) et la borne de Matthews.
L’objectif de ces notes est d’aider l’élève à délimiter les notions du livre dont nous ferons
usage plutôt que de se substituer à la lecture du dit ouvrage ; Nous conseillons la lecture parallèle
des chapitres 1, 2, 9, 10 et 11 de l’ouvrage de Levin Peres pour approfondir les notions du cours.
Mes remerciements aux étudiants de L3 MFA d’Orsay promotion 2017-2018, Damien Gi-
1. le calcul du temps de recouvrement du tore fait l’objet d’une publication en 2004, Dembo, A., Y. Peres,
J. Rosen, and O. Zeitouni. 2004. Cover times for Brownian motion and random walk in two dimensions, Ann.
Math. 160, 433-464
3

rault et Léo Hahn-Leclerc, dont le mémoire ”Chaı̂nes de Markov et Arbres couvrants aléatoires”
a fourni une base solide à ces notes et stimulé l’écriture de celles-ci.

Notations :
N = {0, 1, 2, 3, . . .}, N? = N \ {0}, Z = {. . . , −2, −2, 0, 1, 2, . . .}, R =] − ∞, +∞[ ont leur
signification traditionnelle (française), et l’ordre total ≤ dont ces ensembles sont munis (ainsi
que sa version stricte <) également ; en revanche, le symbole d’inclusion ⊂ fera toujours référence
à une inclusion large d’ensembles, c’est-à-dire avec égalité possible (et on précisera en toute
lettre le cas d’une inclusion stricte). Aussi, par souci de légèreté, la probabilité conditionnelle
P(B∩C) sera quelquefois abrégée en P(B, C), de même pour les probabilités conditionnnelles où
P(A|B, C) pourra remplacer P(A|B ∩ C). Si S est un ensemble, #S et |S| sont deux notations
pour son cardinal.
Enfin, par souci de concision et de clarté, on ne précisera pas en général l’espace sur lequel
sont définies nos variables aléatoires (Ω ayant déjà un rôle autre), ni la tribu dont on munit cet
espace : dans le cas d’un espace d’état discret, ces notions n’ont que peut d’intérêt et ne posent
pas de difficultés.
4
Table des matières

1 Matrices stochastiques 7
1.1 Le semi-groupe des matrices stochastiques. . . . . . . . . . . . . . . . . . . . . . 7
1.2 L’ensemble des mesures stationnaires . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définition et existence d’une mesure stationnaire . . . . . . . . . . . . . . 8
1.2.2 Unicité de la mesure stationnaire et irréductibilité . . . . . . . . . . . . . 10
1.3 Convergence et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Matrices stochastiques et réversibilité . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Spectre et périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Irréductibilité et matrice triangulaire par blocs. . . . . . . . . . . . . . . 16

2 Les chaı̂nes associées aux matrices 19


2.1 Construction des chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1 Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Loi marginale de la chaine . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 La propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Représentation de la mesure stationnaire par des temps d’arrêt . . . . . . . . . 27
2.4 L’exemple de la ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Quelques mots sur la propriété de Markov forte . . . . . . . . . . . . . . . . . . 33

3 Réseaux électriques (a.k.a. chaı̂nes réversibles) 35


3.1 Chaı̂nes de Markov réversibles et réseau. . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Principe de Dirichlet pour les fonctions harmoniques . . . . . . . . . . . . . . . 36
3.3 Tension, flot et flot courant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Résistance équivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Temps de transport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6 Énergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7 Réduction de réseaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.8 En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Temps d’atteinte et temps de couverture 49


4.1 Cas réversible. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Borne de Matthews (de l’aléa pour construire une borne supérieure) . . . . . . . 51

5 Application : temps de couverture du tore 55


5.1 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1 Vocabulaire des graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.2 Queue de distribution et espérance . . . . . . . . . . . . . . . . . . . . . 60

5
6 TABLE DES MATIÈRES
Chapitre 1

Matrices stochastiques

C’est un jour pluvieux sur le plateau de Saclay. Et on se prend à regretter le bon vieux
temps des khôlles quotidiennes. Et si l’on multipliait des matrices ? Mais pas n’importe quelles
matrices, des matrices...stochastiques 1 .

1.1 Le semi-groupe des matrices stochastiques.


Soit Ω un ensemble fini, et P = (P (x, y))x,y∈Ω une matrice à coefficients réels indicée par Ω.
On notera que P est une matrice carrée. Noter qu’on pourrait sans perte de généralité prendre
Ω = {1, 2, . . . , n}, mais il n’est pas plus gênant de travailler avec un ensemble Ω quelconque,
sans compter que cela peut éviter des confusions entre les entrées des matrices (des nombres)
et les éléments qui indicent ces entrées (des éléments de Ω). Aussi, dans les applications à
venir, nous prendrons souvent pour Ω les sommets d’un graphe, et il n’est pas toujours naturel
d’étiquetter par {1, . . . , n} les sommets d’un graphe.

Définition 1.1. On appelle matrice stochastique sur Ω une matrice P = (P (x, y))x,y∈Ω carrée
dont les entrées sont positives et dont les lignes somment à 1 c’est-à-dire :
1. Pour tout x, y ∈ Ω, P (x, y) ≥ 0.
P
2. Pour tout x ∈ Ω, y∈Ω P (x, y) = 1.

Remarque 1.2. Noter qu’une matrice stochastique n’a rien d’aléatoire, contrairement à ce que
son nom peut laisser penser. Le lien avec l’aléa sera explicité en Section 2.

Si Q = Q(x, y)x,y∈Ω est une autre matrice indicée par Ω, on rappelle que le produit matriciel
P Q est défini par X
P Q(x, z) = P (x, y)Q(y, z),
y∈Ω

il possède notamment la propriéte d’associativité, et on note, dans ce cadre, le

Lemme 1.3. Si P et Q sont deux matrices stochastiques sur Ω, alors P Q est encore une
matrice stochastique.
P P P P P
Démonstration.
P La positivité est immédiate, et z P Q(x, z) = z ( y P (x, y)Q(y, z)) = y P (x, y)( zQ
y P (x, y) = 1.
En conséquence, la famille obtenue en considérant les produits successifs de P par elle-même,
c’est-à-dire la famille (P t )t∈N , est une famille de matrices stochastiques. (Pour t = 0, on obtient
P 0 , par convention la matrice identité, qui est aussi stochastique). L’ensemble des matrices
1. Attention, ces matrices dites stochastiques n’ont rien d’aléatoire !

7
8 CHAPITRE 1. MATRICES STOCHASTIQUES

stochastiques forme un ensemble compact (en tant que sous-ensemble fermé borné d’un espace
euclidien - on rappelle l’hypothèse clef que Ω est fini), donc la suite (P t )t∈N admet des points
d’accumulation. (La dimension étant finie, le choix de la norme n’est pas important). On se
demande dans la suite de ce chapitre quand l’ensemble des points d’accumulation est réduit à
un point, c’est-à-dire quand la suite converge.

1.2 L’ensemble des mesures stationnaires


On rappelle qu’on peut faire le produit d’une matrice par un vecteur (colonne) par la droite
ou par un vecteur (ligne) par la gauche. Si f = (f (y))y∈Ω et π = (π(x))x∈Ω , on pose pour tout
x, y ∈ Ω, X X
P f (x) = P (x, y)f (y) et πP (y) = π(x)P (x, y).
y∈Ω x
P
On peut aussi former des quantités scalaires comme la quantité πP f = x,y∈Ω π(x)P (x, y)f (y).
Si l’on munit l’ensemble des fonctions f : Ω → R de la norme infinie, alors P est une contraction :
kP f k∞ ≤ kf k∞ ; aussi, si π est une mesure de probabilité, alors πP est encore une mesure de
probabilité. Les quantités les plus importantes associées à une matrice sont ses valeurs propres
et ses vecteurs propres. Dans les cas des matrices stochastiques, on note que, par définition,

P 1= 1,

avec 1= (1)x∈Ω , d’où :


Lemme 1.4. 1 est valeur propre à droite, et pour le sous-espace propre associé, on a Ker(P −I)
⊃ Vect(1).
Nous verrons plus loin une condition qui assure l’égalité entre ces deux ensembles.

1.2.1 Définition et existence d’une mesure stationnaire


Définition 1.5. Soit P matrice stochastique. Une mesure de probabilité π = (π(x))x∈Ω sur
Ω est stationnaire pour P si π est un vecteur propre à gauche de P pour la valeur propre 1,
c’est-à-dire que,
πP = π. (1.1)

P Il s’agit d’une égalité entre vecteurs lignes : pour tout y ∈ Ω, πP (y) = π(y), avec (πP )(y) =
x π(x)P (x, y).

Définition 1.6. Soit P matrice stochastique. On note


X
IP = {π = (π(x))x∈Ω : π(x) = 1 et πP = π}
x

l’ensemble des mesures de probabilité stationnaires de P .


Remarque 1.7. On rencontre aussi la terminologie ”mesure invariante”.
Il s’agit d’un sous-ensemble convexe de l’ensemble des mesures de probabilité sur Ω. Notons
que, pour tout t ∈ N, IP ⊂ IP t , c’est-à-dire qu’une mesure de probabilité stationnaire pour
P l’est aussi pour P t , puisque π = πP implique πP = πP 2 , πP 2 = πP 3 , . . . , πP t−1 = πP t en
multipliant par la droite par P, . . . , P t−1 , et partant π = πP t .
Maintenant, sous quelles conditions IP est-il non vide ? réduit à un seul élément ? Nous
commençons par répondre par l’affirmative à la première question, au moyen d’un argument de
type Césaro.
1.2. L’ENSEMBLE DES MESURES STATIONNAIRES 9

Proposition 1.8 (Existence). Soit P matrice stochastique. Alors IP 6= ∅.

Insistons sur le fait que notre espace d’état est fini. Quand ce n’est pas le cas, IP peut être
vide, il peut ne pas exister de mesure de probabilité stationnaire : considérer l’exemple de la
matrice stochastique associée au shift vers la droite sur Z (infini), donné par P (x, y) = 1y=x+1
pour tout x, y ∈ Z, est à cet égard instructif : seule la mesure de comptage et ses multiples sont
des mesures stationnaires, mais elles ne sont pas de probabilité.

Première preuve de la Proposition 1.8. Soit µ mesure de probabilité sur Ω. Posons, pour t ∈ N,
Pt−1
1
νt = t s=0 µP s . L’intérêt de cette expression est que la différence fait apparaı̂tre une somme
télescopique :
t t−1
1X s 1X 1
νt P − νt = µP − µP i = (µP t − µ).
t s=1 t s=0 t

Soit x ∈ Ω. On a

1 1 2
|νt P (x) − νt (x)| = |µP t (x) − µ(x)| ≤ (|µP t (x)| + |µ(x)|) ≤ .
t t t

De plus, la suite (νt )t∈N est à valeurs dans [0, 1]Ω qui est un compact. On peut donc extraire
une sous-suite (νtk ) qui converge vers une limite ν, avec tk → ∞ avec k par définition. On a
alors |νtk P (x) − νtk (x)| ≤ t2k , et l’on conclut par continuité que νP (x) = ν(x).

Il existe également une preuve algébrique, basée sur le :

Lemme 1.9 (Lemme de Perron Frobenius). Soit P matrice stochastique sur Ω qui admet
un vecteur propre à gauche µ pour une valeur propre α de module 1. Alors le vecteur |µ| =
(|µ(x)|)x∈Ω est un vecteur propre à gauche pour la valeur propre 1.
P
Démonstration. Notons que α · µ(y) = x µ(x)P (x, y) implique, pour chaque y ∈ Ω,
X X
|µ(y)| = |α| · |µ(y)| = |αµ(y)| = | µ(x)P (x, y)| ≤ |µ(x)|P (x, y)
x x

tandis qu’on a égalité des sommes de ces mêmes quantités sur y :


X XX
|µ(y)| = ( |µ(x)|P (x, y))
y y x

P
Partant, |µ(y)| = x |µ(x)|P (x, y) vaut pour tout y ∈ Ω.

Deuxième preuve de la Proposition 1.8. P 1 = 1 donc 1 valeur propre de P − In (In la matrice


identité de dimension n = |Ω|), c’est-à-dire dim Ker(P − In ) ≥ 1, donc par le théorème du
rang, dim Ker(P − In ) ≥ 1, or cette quantité vaut aussi dim Ker((P − In )| ), (la transposée,
pas la puissance t-ième de la matrice), c’est-à-dire que (P − In )| admet un vecteur propre
µ| associé à la valeur propre 1 ; le lemme de Perron-Frobenius garantit alors que le vecteur
colonne |µ|| est encore un vecteur propre pour la valeur propre 1, et on peut le normaliser en
mesure P de probabilité pour obtenir une mesure de probabilité stationnaire : le vecteur ligne
|µ(x)|/ y |µ(y)|
10 CHAPITRE 1. MATRICES STOCHASTIQUES

1.2.2 Unicité de la mesure stationnaire et irréductibilité


Il n’y a aucune raison pour que la mesure stationnaire soit unique : il suffit pour cela de
considérer le cas par exemple de P1 et P2 deux matrices stochastiques sur Ω1 et Ω2 respective-
ment, et deux mesures invariantes π1 et π2 pour ces matrices stochastiques. Alors on forme sur
la réunion disjointe Ω = Ω1 ∪ Ω2 une matrice stochastique
 
P1 0
P = (1.2)
0 P2

alors les mesures π1 et π2 se prolongent sur Ω (en attachant la mesure nulle aux ensembles
sur lesquelles elles ne sont pas définies) et ces deux mesures sont deux mesures de probabilité
stationnaires distinctes. La question de l’unicité de la mesure invariante réclame donc une
nouvelle définition.

Définition 1.10. On dit que P est irréductible lorsque, pour tout x, y ∈ Ω, il existe t =
t(x, y) ∈ N tel que P t (x, y) > 0.

Si une matrice (stochastique) qui ne comporte que des coefficients strictement positifs est
évidemment irréductible (prendre t = 1 pour chaque couple x, y), les matrices stochastiques
qui nous intéressent en pratique comprennent beaucoup de 0, ce sont typiquement des matrices
d’adjacence de graphes dits dilués (sparses
 en anglais), c’est-à-dire des graphes à n sommets qui
comptent O(n) arêtes (à comparer aux n2 = O(n2 ) arêtes possibles dans un tel graphe) : penser
aux matrices d’adjacence de n-cycles, ou du produit cartésien d’un nombre fini de n-cycles.
La définition suivante introduit la notion de fonction harmonique, qui ”précise” de façon
plus locale la notion de vecteur propre à droite pour la valeur propre 1.

Définition 1.11. Soit P stochastique, h : Ω → R, x ∈ Ω et Ω0 ⊂ Ω.


— On dit que est h est harmonique en x si P h(x) = h(x).
— On dit que h est harmonique sur Ω0 si h est harmonique en tout point de Ω0 .

En particulier, h harmonique sur Ω est donc un vecteur propre à droite pour P . L’irréductibilité
a une implication immédiate sur l’espace propre associé à la valeur propre 1, et permet de
préciser le lemme 1.4.

Proposition 1.12. Soit P irréductible. Si h est harmonique sur Ω entier, alors h est constante.
En d’autres termes,
Ker(P − I) = Vect(1) .

Démonstration. Soit x ∈ Ω qui maximise h, et y ∈ Ω. Il existe t ∈ N tel que P t (x, y) > 0. Ainsi :
h(x) = P t h(x) = z P t (x, z)h(z) implique, pour tout z tel que P t (x, z) > 0, h(z) = h(x). Ceci
P
vaut en particulier pour y.

Lemme 1.13 (Positivité). Soit P irréductible. Si π ∈ IP , alors pour tout x ∈ Ω, π(x) > 0.
P
Démonstration. Puisque π est une mesure de probabilité, z∈Ω π(z) = 1 donc il existe y ∈ V
tel que π(y) > 0. Soit maintenant x ∈ Ω. P est irréductible donc il existe t = t(y, x) ∈ N tel
que P t (y, x) > 0. Donc
X
π(x) = π(z)P t (z, x) ≥ π(y)P t (y, x) > 0.
z∈V

La question de l’unicité de la mesure stationnaire est dès lors très vite tranchée.
1.3. CONVERGENCE ET PÉRIODICITÉ 11

Proposition 1.14 (Unicité). Soit P irréductible. #IP = 1


Démonstration. Il suffit au vu de la proposition 1.8 de prouver l’unicité. Nous proposons deux
démonstrations, chacune basée sur un des deux résultats précédents.
1. Soient π1 , π2 ∈ IP . L’application z 7→ π1 (z)/π2 (z) est bien définie par le lemme de
positivité 1.13, et on note x un élément en lequel cette application atteint un minimum.
Il existe y ∈ V tel que π1 (x)/π2 (x) ≤ π1 (y)/π2 (y). P est irréductible donc il existe t ∈ N
tel que P t (y, x) > 0. Puisque π1 ∈ IP ⊂ IP t , on a :
X π1 (z)
π1 (x) = π2 (z)P t (z, x) en forçant l’apparition du terme π2 (z)
z∈V
π2 (z)
X π1 (x)
≥ π2 (z)P t (z, x)
z∈V
π2 (x)
π1 (x)
= π2 (x) car π2 ∈ IP ⊂ IP t
π2 (x)
= π1 (x),

d’où l’on tire qu’il y a en fait égalité dans l’inégalité : pour tout z ∈ Ω, π1 (z)/π2 (z)P t (z, x) =
π1 (x)/π2 (x)P t (z, x) et dans le cas de y, on peut simplifier pour obtenir π1 (y)/π2 (y) =
π1 (x)/π2 (x). Ceci étant valable pour tout y, l’application z 7→ π1 (z)/π2 (z) est constante
et donc π1 et π2 sont deux mesures de probabilité proportionnelles, c’est-à-dire égales.
2. Le résultat sur les fonctions harmoniques implique Ker(P − I)=Vect(1) (alors qu’on
savait seulement dans la deuxième preuve de la Proposition 1.8 que dim Ker(P −In ) ≥ 1),
et les mêmes arguments (théorème du rang et transposée) impliquent que dim(Ker((P −
I)| ))= 1, donc il y a au plus une mesure de probabilité stationnaire (il faut encore que
les coordonnées soient positives ou nulles, et c’est Perron-Frobenius qui garantit ce fait).

Une obstruction claire à l’irréductibilité est par exemple la présence d’etats absorbants au
sens suivant :
Définition 1.15. Soit P matrice stochastique sur Ω. Un état x ∈ Ω est dit absorbant pour P
si P (x, x) = 1.
Lemme 1.16. S’il existe un état absorbant pour P , alors P n’est pas irréductible.
Démonstration. En effet, puisque P (x, x) = 1, et si y 6= x, alors pour tout t ∈ N, P t (x, y) ≤
t t
P
z6=x P (x, z) = 1 − P (x, x) = 1 − 1 = 0.

1.3 Convergence et périodicité


Nous revenons maintenant à la question de la convergence de la suite (P t )t∈N - a priori
sans lien avec l’unicité de la mesure stationnaire. Une obstruction claire à la convergence est
un phénomène de périodicité, dont l’exemple le plus simple est sans doute celui de la matrice
(irréductible suivante) :  
0 1
P = (1.3)
1 0
qui vérifie P 2t+1 = P , tandis que P 2t = I pour t ∈ N. En particulier, on ne peut avoir
convergence des coefficients de la matrice. La description de ces phénomènes nous amène à
poser une nouvelle définition.
12 CHAPITRE 1. MATRICES STOCHASTIQUES

Définition 1.17. Soit x ∈ Ω. On pose T (x) : ={t ∈ N, P t (x, x) > 0} et on appelle période de
x l’entier pgcd(T (x)).
Le pgcd d’un sous-ensemble non vide S de N est le plus grand des diviseurs communs de S
(qui existe bien puisque cet ensemble est non vide - il contient 1 - et majoré - par le plus petit
élément de S), c’est-à-dire le maximum de l’ensemble AS = {a ∈ N? , S ⊂ aN}. Par le théorème
de Bachet Bézout, si Z[S] désigne l’ensemble des combinaisons linéaires à coefficients entiers
relatifs d’éléments de S, alors
Z[S] = g.Z, où g = pgcd(S).
Proposition 1.18. Soit P stochastique irréductible. Les éléments de Ω ont tous la même
période.
Démonstration. Soient x, y ∈ Ω. Il suffit de démontrer que pgcd(T (x)) = pgcd(T (y)). P est
irréductible donc il existe t1 , t2 ∈ N tels que P t1 (y, x) > 0 et P t2 (x, y) > 0. On pose t0 = t1 + t2 .
Alors, si t ∈ T (x).
X
P t0 +t (y, y) = P t1 (y, z)P t (z, z)P t2 (z, y) ≥ P t1 (y, x)P t (x, x)P t2 (x, y) > 0,
z∈Ω

d’où t + t0 ∈ T (y), et en particulier, en prenant t = 0 dans l’expression ci-dessus t0 ∈ T (y).


En terme de pgcd, cela signifie que pgcd(T (y)) divise t0 et t + t0 et donc aussi leur différence
t. Mais puisque cela vaut pour tout t ∈ T (x), ceci implique pgcd(T (y)) ≤ pgcd(T (x)). Par
symétrie, pgcd(T (x)) ≤ pgcd(T (y)) vaut également. Et finalement pgcd(T (x)) = pgcd(T (y)),
comme attendu.
Cette proposition rend licite la définition suivante :
Définition 1.19. Soit P matrice stochastique irréductible. On appelle période de P la période
d’un élément quelconque de Ω . Dans le cas où cette période vaut 1 on dit que P est irréductible.
On peut rencontrer la définition suivante : ”P apériodique si tous ses éléments sont de
période 1”, qui ne requiert pas explicitement l’irréductibilité de la chaı̂ne pour parler de période.
Ne connaissant pas d’énoncés au sujet des matrices apériodiques en ce sens, on conserve notre
définition plus restrictive.
Exemple 1.20. Pour n entier ≥ 3, considérons la matrice n × n définie sur l’espace d’état
{1, . . . , n} par :
 
0 1/2 1/2
1/2 0 1/2 
. ..
 
P = 1/2 . . .
 

 .. .. 
 . . 1/2
1/2 1/2 0
Les éléments non spécifiés ce cette matrice sont égaux à 0 de manière à obtenir une matrice
stochastique. Cette matrice peut être vue comme une généralisation de la matrice (1.3), qui
correspond en une sens au cas n = 2 (sommer les deux coefficients 1/2 qui se trouvent affectés
à chacune des deux entrées non diagonales).
La périodicité de cette matrice dépend alors de la parité de n ; s’il est clair que la période
est plus petite que 2 (partant de x, on peut toujours revenir a x en 2 pas), elle peut aussi
valoir 1 ; cela dépend en fait de la parité de n, qui correspond au nombre de pas nécessaires
pour parcourir le n-cycle : on pourra trouver des t impairs tels que P t (x, x) > 0 ssi la longueur
du cycle est impaire en effet. On verra plus tard que cette matrice est associée à la marche
aléatoire simple sur Z/nZ.
1.3. CONVERGENCE ET PÉRIODICITÉ 13

La proposition clef qu’on montre sous l’hypothèse d’apériodicité est la suivante.

Proposition 1.21. Si P est irréductible apériodique, alors il existe ε > 0 et t0 ∈ N tel que

pour tout x, y ∈ Ω, P t0 (x, y) ≥ ε. (1.4)

Attention, l’ordre des quantificateurs est clef dans cette proposition ! La preuve de la pro-
position nécessite un lemme d’arithmétique, que nous ne démontrerons pas (voir par exemple
le livre de Levin Peres) :

Lemme 1.22 (Lemme de Schur). Un sous-ensemble S ⊂ N stable par somme (t, s ∈ S ⇒


t + s ∈ S) tel que pgcd(S) = 1 vérifie :

#(N \ S) < ∞,

c’est-à-dire que S contient tous les entiers sauf un nombre fini.

Démonstration de la Proposition 1.21. Soit x ∈ Ω. Observons que T (x) est stable par somme
et que pgcd(T (x)) = 1 par apériodicité. Le lemme de Schur assure alors qu’il existe t(x) tel que
pour tout t ≥ t(x), t ∈ T (x). De plus, pour tout y ∈ Ω, toujours par irréductibilité, il existe
t(x, y) ∈ N tel que P t(x,y) (x, y) > 0. Donc, pour tout t ≥ t(x) + t(x, y), P t (x, y) > 0. Ainsi,
pour t0 := maxx∈Ω (t(x) + maxy∈Ω t(x, y)), on a pour tout x, y, P t0 (x, y) > minx,y P t0 (x, y) > 0
en utilisant que l’espace d’état est fini.

Il reste maintenant un petit pas pour arriver au théorème de convergence, qui est le résultat
fondamental de ce chapitre, sinon du cours. On note btc la partie entière de t (définie de façon
unique par les deux propriétés : btc ≤ t < btc + 1 et btc ∈ Z).

Theorème 1.23. Soit P matrice stochastique irréductible apériodique, et π son unique mesure
stationnaire. Pour ε et t0 qui satisfont (1.4), on a pour tout (x, y) ∈ Ω2 ,
X
|P t (x, y) − π(y)| ≤ 2(1 − ε)bt/t0 c .
y

Ce résultat implique que P t (x, y) admet quand t → ∞ une limite π(y) qui ne dépend pas
de l’entrée x. En termes de matrice, P t converge donc vers la matrice de rang 1 (on rappelle
que le rang d’une matrice est la dimension de l’image de l’application linéaire associée) dont
les lignes sont toutes égales à π. Cette matrice est bien sûr encore une matrice stochastique,
puisque cet ensemble est fermé. Si l’on sait que t0 et ε existent de la propriété d’apériodicité, il
importe en pratique de trouver des valeurs numériques de façon à maximiser (1 − ε)1/t0 : c’est
ce qui est difficile. Le fait que la vitesse de convergence soit toujours exponentielle est encore
une simplification liée à notre espace d’état fini.

Démonstration d’après Aldous–Diaconis. On pose Π la matrice carrée dont toutes les lignes
sont égales à π, et on vérifie immédiatement que P Π = ΠP = Π (seule la deuxieme identité
requiert π ∈ IP ). Pour ε et t0 fournis par la relation 1.21, on définit par la relation :

P t0 = εΠ + (1 − ε)Q

une matrice Q à coefficients positifs ou nuls, dont on vérifie sans souci qu’elle est stochastique.
De plus, multipliant à gauche par Π, on a Π = εΠ + (1 − ε)QΠ d’où QΠ = Π. Et multipliant
à droite par Π, on a : Π = εΠ + (1 − ε)QΠ d’où ΠQ = Π. Soit k ∈ N. Ces deux relations
14 CHAPITRE 1. MATRICES STOCHASTIQUES

conduisent aux simplifications suivantes lorsqu’on applique la formule du binôme de Netwon


(valables dans tout anneau commutatif) :

P t0 k = ((1 − ε)Q + εΠ)k


k−1  
k
X
k k
= (1 − ε) Q + (1 − ε)j εk−j Π car ΠQ = QΠ = Π et Π2 = Π
j
j=0
k  
X k
k
= (1 − ε) Q + k
(1 − ε)j εk−j Π − (1 − ε)k Π
j
j=0

= (1 − ε) Q + Π − (1 − ε)k Π
k k

= (1 − ε)k (Qk − Π) + Π.

Il faut aussi prendre en compte le reste que peut laisser la division euclidienne d’un entier
arbitraire par t0 . Pour r ∈ {0, . . . , t0 − 1}, on forme donc la différence

P t0 k+r − Π = (P t0 k − Π)P r car Π = ΠP r


= (1 − ε)k Qk − Π P r

du calcul précédent
k
Qk P r − Π

= (1 − ε)

Ainsi y |P t0 k+r (x, y) − π(y)| ≤ (1 − ε)k y |Qk P r (x, y) − π(y)| ≤ 2(1 − ε)k en notant que
P P

Qk P r est stochastique.

Une analyse de la démonstration montre que la propriété clef est la minoration ”pour tout
x, y ∈ Ω, P t0 (x, y) ≥ ε ≥ επ(y).” C’est l’inégalité entre les membres extrêmaux que l’on utilise
dans la preuve, c’est aussi celle qui s’étend aux espaces d’états infinis (en effet, la première de
ces deux inégalités ne peut avoir lieu lorsque Ω est infini pour une probabilité (sommer sur y)).
Nous verrons enfin en TD que les itérées successives (P t )t∈N convergent toujours au sens de
Césaro, et ceci sans faire aucune hypothèse d’apériodicité en particulier, c’est -à-dire que :
s
P
0≤s<t P
−→ Π quand t → ∞.
t

De plus, chaque ligne de la matrice limite Π fournit une mesure stationnaire de P (mais si l’on
ne suppose pas l’irréductibilité de P , ces mesures ne sont pas forcément égales).

1.4 Matrices stochastiques et réversibilité


Finissons ce chapitre en introduisant une dernière notion : la réversibilité. On peut voir
cette notion sous deux aspects : d’une part elle exprime une forme d’invariance en loi par
renversement du temps, d’autre part, lorsqu’elle est vérifiée, elle permet de trouver de façon
économique une mesure invariante.

Définition 1.24. Soit P stochastique et π une mesure sur Ω. P est dite réversible par rapport
à π si pour tout x, y ∈ Ω
π(x)P (x, y) = π(y)P (y, x). (1.5)
Par extension, on dira simplement que P est réversible s’il existe une mesure de probabilité π
tel que P soit réversible par rapport à π.
1.4. MATRICES STOCHASTIQUES ET RÉVERSIBILITÉ 15

Noter que l’équation (1.5) est automatiquement vérifiée sur la diagonale {x = y} : il suffit
donc de la vérifier pour x 6= y. Noter que la réversibilité de P par rapport à π est équivalente
à l’énoncé : pour tout x1 , . . . , xn ∈ Ωn ,
π(x1 )P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = π(xn )P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 )
qui implique, si P est irréductible (à l’aide du lemme 1.13) et si x1 = xn , que
P (x1 , x2 )P (x2 , x3 ) . . . P (xn−1 , xn ) = P (xn , xn−1 )P (xn−1 , xn−2 ) . . . P (x2 , x1 ) (1.6)
Réciproquement, on peut vérifier que si tout suite x1 . . . xn ∈ Ωn avec x1 = xn satisfait (2.1),
alors P est réversible. C’est le critère dit de Kolmogorov, qui permet de vérifier la réversibilité
sans connaı̂tre π. C’est un exercice intéressant (non trivial) que de prouver ce critère.
L’intérêt de la réversibilité est exprimée par la proposition ci dessous :
Proposition 1.25. Si P est réversible par rapport à π, alors π est une mesure stationnaire
pour P .
Démonstration. Soit x ∈ Ω. Il suffit d’appliquer la définition :
X X
πP (x) = π(y)P (y, x) = π(x)P (x, y) = π(x)
y∈V y∈V

Au vu de la simplification que constitue la réversibilité dans la recherche des mesures sta-


tionnaires, il importe de comprendre quand une matrice stochastique P a des chances d’être
réversible (et donc de développer son intuition sur ce qu’est la réversibilité pour ne chercher
à l’obtenir que quand elle a des chances d’être vérifiée). Nous proposons plusieurs pistes en ce
sens.
D’abord, on peut formuler une condition suffisante de réversibilité à l’aide des seules entrées
non nulles de la matrice P , c’est-à-dire à l’aide du seul graphe dirigé induit par la matrice
stochastique, voir l’annexe 5.1.1
Lemme 1.26. Soit P stochastique irréductible tel que P (x, y) > 0 ≡ P (y, x) > 0, et soit G le
graphe non dirigé associé à P . Si G est un arbre, c’est-à-dire un graphe sans cycle 2 alors P est
réversible.
La démonstration, omise, prend la forme suivante : s’étant donné un sommet x ∈ Ω, il suffit
de déterminer π(y) en fonction de π(x) pour tout sommet y ∈ Ω de proche en proche, ce qui est
toujours possible du fait de l’absence
P de cycles (on peut formaliser ce raisonnement en exercice).
La condition de normalisation z π(z) = 1 permet finalement π(x). Nous verrons plus loin, à
la proposition 3.4, une caractérisation (CNS) des matrices stochastiques réversibles, formulée
en terme de toute la matrice stochastique cette fois, et s’applique à des graphes plus généraux.
Enfin, il est bon de noter qu’une matrice symétrique est réversible (quelle mesure π choisir
alors ?), comme on le verra en exercice.
Notons pour terminer la conséquence suivante facile de la réversibilité sur la période.
Lemme 1.27. — Soit x tel que π(x) > 0 et P réversible. Alors la période de x est au plus
2.
— Si P est de plus irréductible, alors la période de P est au plus 2.
Démonstration. Soit x comme dans le premier énoncé. Il existe y tels que P (x, y) > 0. Ensuite
π(x)P (x, y) = π(y)P (y, x) implique, puisque π(x) > 0 que P (y, x) et partant P (x, y)P (y, x)
sont des quantités strictement positives. Mais P 2 (x, x) ≥ P (x, y)P (y, x) donc 2 ∈ T (x).
2. pour un graphe G = (V, E), on appelle cycle une suite d’arêtes {x1 , x2 }, {x2 , x3 }, . . . , {xn−1 , xn } ∈ E n−1
deux à deux distinctes telles que x1 = xn
16 CHAPITRE 1. MATRICES STOCHASTIQUES

1.5 Compléments
1.5.1 Spectre et périodicité
La périodicité d’une matrice stochastique a une traduction spectrale simple en terme des
valeurs propres de module 1. On rappelle que, pour a ∈ N? , ω ∈ C une racine a-ième de l’unité
si ω a = 1. L’ensemble des racines a-ièmes de l’unité est explicite, il s’agit de
2ikπ
{e a , k ∈ {0, . . . , a − 1}}.

Proposition 1.28 (Condition nécessaire d’apériodicité). Soit P stochastique irréductible et ω


une racine a-ième de l’unité. Alors T (x) ⊂ aN si et seulement si ω est une valeur propre de P .

Démonstration. Supposons T (x) ⊂ aN et soit ω une racine a-ième de l’unité. Soit x0 ∈ Ω et,
pour k ∈ {0, . . . , a − 1},

Ωk = {y ∈ Ω : ∃t ∈ aN + k, P t (x0 , y) > 0}.

On a alors par irréductibilité la décomposition Ω = Ω0 ∪ ... ∪ Ωa−1 , et nous affirmons que la


réunion est disjointe. Supposons en effet qu’il existe y ∈ Ω avec y ∈ Ωi ∩Ωj , 0 ≤ i 6= j ≤ a−1. Il
existe alors s ∈ aN + i et t ∈ aN + j tels que P s (x0 , y), P t (x0 , y) > 0. De plus, par irréductibilité
de P , il existe r ∈ N avec P r (y, x0 ) > 0 et donc s + r, t + r ∈ T (x0 ), et donc a divise ces deux
éléments ainsi que leur différence t − s et donc j − i, ce qui est absurde car |j − i| < a. Notons
aussi que, si x, y ∈ Ω vérifient P (x, y) > 0 et x ∈ Ωk alors y ∈ Ωk+1 mod a . Partant le vecteur
v = 1Ω0 + ω1Ω1 + ... + ω a−1 1Ωa−1 satisfait P v(x) = ωv(x) pour tout x ∈ Ω.

Supposons réciproquement ω valeur propre de P et montrons que T (x) ⊂ aN. Soit v vecteur
propre associé à la valeur propre ω, et choisissons x0 tel que |v(x0 )| = maxy |v(y)|. Soit k ∈
{0, . . . , a − 1}. Quitte à multiplier la vecteur par un complexe, on peut supposer v(x0 ) = ω −k
et alors, pour tout y ∈ Ω, |v(y)| ≤ |v(x0 )| = 1. Soit alors t ∈ aN + k ,
X
1 = ω k v(x0 ) = ω t v(x0 ) = P t v(x0 ) = P t (x0 , y)v(y)
y∈V

Maintenant une somme pondérée (par une mesure de probabilité) de complexes de module
inférieurs ou égal à 1 ne peut valoir 1 que si tous les complexes valent, c’est-à-dire que P t (x0 , y) >
0 implique v(y) = 1. En particulier, P t (x0 , x0 ) = 0. Comme ceci vaut pour tout t ∈ aN + k, on
en déduit bien T (x0 ) ⊂ aN.

1.5.2 Irréductibilité et matrice triangulaire par blocs.


Notons pour finir une obstruction simple à l’irréductibilité, en introduisant les matrices
triangulaires par blocs.

Définition 1.29. On dit qu’une matrice M indicée par Ω est triangulaire par blocs s’il existe
k ≥ 2 et Ω1 , . . . , Ωk une partition de Ω 3 telle que :

∀i, j ∈ {1, . . . , k}, i 6= j ⇒ Mx,y = 0, si x ∈ Ωi , y ∈ Ωj

Si M est triangulaire par blocs, alors toute puissance de M est encore triangulaire par blocs.
Dès lors :
3. collectionSd’ensembles deux à deux disjoints dont la réunion est égale à l’ensemble Ω entier : i 6= j ⇒
Ωi ∩ Ωj = ∅ et i Ωi = Ω
1.5. COMPLÉMENTS 17

Remarque 1.30. Si P matrice stochastique est triangulaire par blocs, alors P n’est pas
irréductible.

La réciproque est fausse en général : il est possible de trouver des matrices non triangulaires
par bloc et qui ne sont pas irréductibles, considérer par exemple la matrice stochastique
 
1/2 1/2
P =
0 1
En revanche (preuve laissée au lecteur), sous une hypothèse naturelle, on a la réciproque :

Remarque 1.31. Soit P matrice stochastique qui vérifie :

∀x, y ∈ Ω, (∃t ∈ N : P t (x, y) > 0) ⇒ (∃s ∈ N : P s (y, x) > 0)


 

Alors P n’est pas irréductible ssi P est triangulaire par blocs.

La condition est par exemple vérifiée par les matrices symétriques (donc les matrices de
transition sur des graphes non dirigés), puisqu’alors P t (x, y) = P t (y, x). Noter que l’implication
au coeur de l’hypothèse ne dit surtout pas( !) que P est irréductible.
18 CHAPITRE 1. MATRICES STOCHASTIQUES
Chapitre 2

Les chaı̂nes associées aux matrices

On se propose dans ce chapitre d’explorer le lien entre les evolutions aléatoires connues sous
le nom de chaı̂nes de Markov et les matrices stochastiques étudiées dans le chapitre 1. L’ap-
proche classique des chaı̂nes de Markov commence par énoncer une propriété d’indépendance
conditionnelle, dite propriété de Markov, puis de montrer que cette propriété définit des suites
de variables aléatoires dont l’évolution à un pas est décrite par une matrice stochastique. Nous
prenons la chose à revers en définissant les chaı̂nes de Markov par leur loi exprimée au moyen
d’une matrice stochastique.
Un cas d’étude important sera l’étude des marches aléatoires sur des graphes finis, qui se
trouve relié aux matrices stochastiques réversibles.

2.1 Construction des chaı̂nes


Une probabilité sur un ensemble fini (ou dénombrable) Ω est une collection de nombres
positifs ou nuls qui somment à 1, et sur un tel ensemble, on prend en général la tribu discrète
engendrée par les singletons, qui est égale à l’ensemble des parties de Ω : tout ensemble est alors
mesurable ; pas besoin donc de développer une théorie de la mesure dans ce cadre. En revanche,
dès qu’on travaille sur un espace non dénombrable, la précision de la tribu a son importance.
L’ensemble d’intérêt sera ici ΩN , l’ensemble des suites à valeurs dans Ω, qu’on prendra ici
fini ou plus généralement dénombrable. Intuitivement l’enjeu de la théorie de la mesure est de
constituer des ”paquets de trajectoire” qu’on sera en droit de mesurer, c’est-à-dire auxquels on
pourra associer des probabilités qui satisferont aux axiomes, notamment l’axiome selon lequel a
probabilité d’une réunion dénombrable d’ensembles disjoints est la somme de ces probabilités.
L’approche naı̈ve consistant à associer d’abord des probabilités aux singletons, c’est-à-dire
aux éléments de l’ensemble (en tant que partie : les singletons), en vue d’en déduire ensuite
les probabiltés des parties est mise en défaut dès que l’ensemble des parties de ΩN n’est plus
dénombrable. Pire : bien souvent les singletons sont de probabilité nulle, et donc la donnée de
la probabilité en restriction à ces éléments est peu informative ( !) : c’est une situation que nous
avons déjà rencontrée dans un autre contexte, celui de la construction de la mesure de Lebesgue
sur [0, 1] : les singletons sont de mesure de Lebesgue nulle, et ne caractérisent certainement pas
cette mesure.
On considère donc l’ensemble ΩN des suites à valeurs dans Ω. Excepté le cas trivial où Ω
est réduit à un point, cet ensemble n’est pas dénombrable (on le montre par l’argument de
diagonalisation de Cantor : il suffi de considérer le cas où Ω contient deux points, mettons
Ω = {0, 1} ; supposons qu’il existe une surjection φ : N → {0, 1}N , n 7→ un = (un (m), m ∈ N).
Posons alors v(m) = 1 − um (m), m ∈ N ; v est alors un élément de {0, 1}N qui n’est pas dans
l’image de φ.)
Le premier point est de munir cet ensemble d’une tribu (famille de parties stable par passage

19
20 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

au complémentaire, par réunion dénombrable, et qui contient l’ensemble entier). La tribu de


toutes les parties de ΩN est trop grosse en général. Deux projections seront importantes dans
ce cadre :

πs : ΩN → Ω, (xt )t∈N → xs et également π≤s : ΩN → Ωs+1 , (xt )t∈N → (xt )0≤t≤s .

Les tribus associées, notées :

σ{πs , s ∈ N} et σ{π≤s , s ∈ N},

sont par définition les plus petite tribus sur ΩN qui rende chacune des projections mesurables.
Ces deux tribus sont égales (le montrer), et sont appelées la tribu cylindrique. Celle-ci n’est pas
la tribu de toutes les parties de ΩN . Notons que, pour s fixé, la tribu σ{π≤s } est explicite :

A ∈ σ{π≤s } ssi il existe B ∈ Ωs+1 tel que A = (π≤s )−1 (B) = {x = (xt )t≥0 , π≤s (x) ∈ B}.

Bien sûr, les cylindres suivants


\
πs−1 ({ys }) = {(xt )t≥0 , ∀0 ≤ s ≤ t, xs = ys } ∈ σ{πs , s ∈ N}.
0≤s≤t

sont dans la tribu cylindrique. Par exemple, l’événement

{(xt )t∈N est constant à partir d’un certain rang }

est dans la tribu cylindrique puisqu’il admet l’expression suivante, en terme de réunions et
d’intersections dénombrables :

{(xt )t∈N constant à partir d’un certain rang} = {∃x ∈ Ω, ∃t ∈ N : ∀s ∈ N, (s ≥ t ⇒ xs = x)}}


[ [ \
= {xs = x}
x∈Ω t∈N s≥t

Maintenant, le modèle probabiliste depuis Kolmogorov est le suivant. On suppose qu’il existe
un espace probabilisé (bien souvent non explicite), (E, F , P), appelé l’espace des événements,
et une application mesurable

(E, F , P) → ΩN , ω 7→ (Xt (ω))t∈N (2.1)

Ce qu’on appelle alors loi de X1 est la mesure image de P par l’application ω 7→ X1 (ω),
c’est une mesure de probabilité sur Ω, notée P(X1 ∈ ·) = P({ω : X1 (ω) ∈ ·}). En tant que
mesure de probabilité sur un espace fini, cette mesure est tout simplement caractérisée par la
collection des nombres (P(X1 = k))k∈N . Dire que l’application (2.1) est mesurable, c’est dire
que pour tout ensemble A de la tribu cylindrique sur ΩN ,

{ω : (Xt )t (ω) ∈ A} ∈ F ,

mais aussi, par définition de la tribu cylindrique, que pour tout t ∈ N, x ∈ Ω, {ω : Xt = x} =


{Xt = x} ∈ F . Maintenant, on peut considérer la plus petite sous-tribu de F qui rend les
applications X0 , X1 , . . . , Xt mesurables :

Définition 2.1. Pour tout t ∈ N, on pose Ft = σ{X0 , X1 , . . . , Xt } la plus petite sous tribu
qui rend mesurable les applications coordonnées X0 , X1 , . . . , Xt , et F∞ la plus petite tribu qui
comprend tous les Ft pour t ∈ N.
2.1. CONSTRUCTION DES CHAÎNES 21

(Point de détail : F∞ n’est pas nécessairement égal à ∪t≥0 Ft ; en effet, une réunion de tribus
n’est pas en gńéral une tribu). Pour chaque t, Ft est une sous tribu de F , et la suite (Ft )t∈N
est une suite croissante de sous-tribus de F . On peut alors montrer le résultat fondamental
suivante : dire qu’une fonction F : E → R est une fonction Ft -mesurable signifie alors qu’il
existe une fonction mesurable de G : Ωt+1 → R telle que
F (ω) = G(X0 (ω), . . . , Xt (ω)).
On définit la loi d’une chaı̂ne de Markov en définissant une mesure de probabilité sur (Ft ).
Pour cela il suffit de définir la mesure des cylindres. Le théorème suivant est aussi une définition.
Nous omettons sa démonstration 1 .
Theorème 2.2. Soit µ mesure de probabilité sur Ω et P matrice stochastique sur Ω. La pro-
priété
t
!
\
∀t ∈ N, (xs )0≤s≤t ∈ Ωt+1 , P {Xs = xs } = µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt ) (2.2)
s=0

définit de façon unique la loi d’une suite de variables aléatoires (Xt )t∈N . Cette suite est la chaı̂ne
de Markov de distribution initiale µ et de matrice de transition P .
Rappelons la notation δx pour la masse de Dirac en x, définie par
δx (A) = 1A (x) pour tout x ∈ Ω, A ⊂ Ω.
Si la chaı̂ne de Markov est définie sur un espace probabilisé dont la mesure de probabilité est
notée P, on notera Pµ par un léger abus 2 la loi de la chaı̂ne de Markov issue de µ, et si µ = δx ,
on note simplement Px = Pδx la loi de la chaı̂ne issue de x,
Lemme 2.3. Soit µ mesure de probabilité sur Ω. On a la décomposition :
X
Pµ = µ(x)Px
x∈Ω
Tt
Démonstration. Il suffit de le vérifier pour un événement A = s=0 {Xs = xs }
X X t
\
µ(x)Px (A) = µ(x)Px ( {Xs = xs })
x∈Ω x∈Ω s=0
X
= µ(x)1{x} (x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
x∈Ω
= µ(x0 )P (x0 , x1 ) · · · P (xt−1 , xt )
t
\
= Pµ ( {Xs = xs })
s=0
= Pµ (A).

Au sujet du vocabulaire, la chaı̂ne de Markov hérite des propriétés de sa matrice de tran-


sition : si celle-ci est irréductible ou apériodique, on dira que la chaı̂ne est irréductible ou
apériodique. Une mesure de probabilité stationnaire de la matrice de transition sera encore
appelée mesure de probabilité stationnaire de la chaı̂ne de Markov.
1. le lecteur intéressé pourra googler ”théorème de Daniell-Kolmogorov” ou ”théorème d’extension de Kol-
mogorov”
2. plusieurs chaı̂nes pourraient être définies sous P en effet, il faut donc veiller à ce que le contexte soit clair,
et savoir de quelle suite de variables aléatoires µ est la loi initiale
22 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

2.1.1 Examples
Variables aléatoires iid Il est utile de comparer la forme de la loi des chaı̂nes de Markov à
celle de la loi d’une suite de variables aléatoires indépendantes de loi µ :
t
!
\ Y
t+1
∀t ∈ N, (xs )0≤s≤t ∈ Ω , P {Xs = xs } = µ(xs ),
s=0 0≤s≤t

on voit ainsi, en comparant avec (2.2), que les chaı̂nes de Markov introduisent une première
forme de dépendance entre les différentes coordonnées de la suite. On note aussi que cette suite
définit une chaı̂ne de Markov (certes peu intéressante du point de vue de ce cours) de mesure
initiale et de matrice de transition respectivement données par :

P(X0 = x) = µ(x) et P (x, y) = µ(y).

Untuitivement, une fois en x, on saute en y avec probabilité µ(y) indépendante de x : le


mot de ”chaı̂ne” semble alors un peu fort, tant les maillons de la chaı̂ne entretiennent peu de
liens.

Marche aléatoire simple sur un graphe non dirigé Un autre exemple est fourni par
une la marche aléatoire (simple) sur un graphe non dirigé 3 G = (V, E). L’ensemble de sommets
est V et d’ensemble d’arêtes est E (un sous-ensemble des parties de V à deux éléments). Pour
alléger les notations on note x ∼ y si {x, y} ∈ E. On suppose que le graphe G est sans sommet
isolé, c’est à dire que pour tout x ∈ V , il existe y ∈ V tel que x ∼ y. Notons qu’on peut avoir
x ∼ x : cela signifie que la boucle {x, x} appartient à l’ensemble des arêtes. Alors la matrice de
transition de la marche aléatoire sur le graphe est définie par :
1x∼y X
P (x, y) = avec deg(x) = 1x∼y
deg(x) y∈V

Alors !
t
\ 1 1
P {Xs = xs } = P(X0 = x0 ) · ... · 1x ∼x ∼...xt−1 ∼xt
s=0
deg(x0 ) deg(xt−1 ) 0 1

Marche aléatoire sur Ω Cela concerne la cas où Ω est un groupe additif, de sorte qu’on
puisse faire des additions d’éléments de Ω (pour les cas finis, on peut penser à Z/nZ =
{0, 1, . . . , n − 1} ou même (Z/n/Z)d ; le cas le plus naturel est bien sûr celui de Zd , qui n’est
pas un graphe fini, mais poser la définition suivante ne pose cependant aucun problème). On
pose alors la matrice de transition :

∀x, y ∈ Ω, P (x, y) = η(y − x), η mesure de probabilité sur Ω,

Alors !
t
\
P {Xs = xs } = P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 ) (2.3)
s=0

La variable aléatoire X0 étant donnée, on peut construire comme suit cette chaı̂ne à partir
d’une suite de variables aléatoires i.i.d. (Yt )t∈N de loi η, indépendante de X0 . On pose pour tout
t∈N
Xt+1 = Xt + Yt .
3. l’adjectif ”non dirigé” a son importance, car toute chaı̂ne de Markov peut être vue comme une marche
aléatoire sur un graphe dirigé
2.1. CONSTRUCTION DES CHAÎNES 23

Alors 2.3 vaut en t = 0 par hypothèse, et si elle vaut en t, on la montre comme suit en t + 1 :

t+1
! t
!
\ \
P {Xs = xs } =P {Xs = xs } ∩ {Xt + Yt = xt+1 } par définition de Xt+1
s=0 s=0
t
!
\
=P {Xs = xs } ∩ {xt + Yt = xt+1 }
s=0
t
!
\
=P {Xs = xs } P(Yt = xt+1 − xt ) par indépendance
s=0
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt − xt−1 )η(xt+1 − xt ) par la récurrence
= P(X0 = x0 )η(x1 − x0 ) · . . . · η(xt+1 − xt )

2.1.2 Loi marginale de la chaine


Le lien crucial entre loi de la chaı̂ne et produit matriciel est exprimé dans le lemme suivant,
qui donne les lois marginales de la chaı̂ne :

Lemme 2.4 (Loi marginale et produit matriciel). On a

∀x, y ∈ Ω, Px (Xt = y) = P t (x, y).

Plus généralement, pour µ une probabilité sur Ω et f : Ω → R, et x ∈ Ω,

Eµ [f (Xt )] = µP t f, et en particulier Ex [f (Xt )] = P t f (x).

Démonstration. On pose la convention xt = x On commence par exprimer l’événement {Xt =


y} comme une réunion sur des chemins dont on évalue ensuite la probabilité en explicitant la
loi de la chaı̂ne de Markov :
 
[ t
\
Px (Xt = y) = Px  {Xs = xs }
(xs )0≤s≤t−1 ∈Ωt s=1

X t
\ 
= Px {Xs = xs } car la réunion est disjointe
(xs )0≤s≤t−1 ∈Ωt s=1

X t−1
Y
= P(X0 = x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0

X t−1
Y
= δx (x0 ) P (xs , xs+1 )
(xs )0≤s≤t−1 ∈Ωt s=0
X
= P (x, x1 )P (x1 , x2 ) . . . P (xt−1 , y)
(xs )1≤s≤t−1 ∈Ωt

= P t (x, y) par définition du produit matriciel


24 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

Il s’ensuit que
X
µP t f (x) = µ(x)P t (x, y)f (y) par définition de µP t f
x,y∈Ω
X
= µ(x)Px (Xt = y)f (y) vu le résultat précédent
x,y∈Ω
X
= µ(x)Ex [f (Xt )]
x∈Ω
= Eµ [f (Xt )].

Le cas particulier où µ = δx la mesure de Dirac en x donne la dernière identité de l’énoncé.

On reformulera en guise d’exercice la version probabiliste des résultats vus pour les ma-
trices stochastiques, en particulier du théorème de convergence (on connaı̂t plusieurs modes de
convergence pour les suites de variables aléatoires, convergence p.s., convergence en probabilité,
convergence en loi : à quel type de convergence correspond-il ?).

2.2 La propriété de Markov


Définition 2.5. La suite de variables aléatoires (Xt )t∈N satisfait la propriété de Markov lorsque
pour tout t ∈ N, pour tout (xs )0≤s≤t−1 ∈ Ωt tel que P(Xt = x ∩ Ht−1 ) > 0 où Ht−1 =
T
0≤s≤t−1 {Xs = xs }, on a

P (Xt+1 = y | Xt = x, Ht−1 ) = P (X1 = y | X0 = x) . (2.4)

Notons que la relation 2.4 peut encore s’écrire :

P (Xt+1 = y, Xt = x, Ht−1 ) = P (X1 = y | X0 = x) P (Xt = x, Ht−1 ) . (2.5)

ce qui a l’avantage de ne pas demander à ce que P(Xt = x ∩ Ht−1 ) > 0, c’est-à-dire que le
conditonnement soit bien défini. Intuitivement, la propriété de Markov énonce une propriété
d’indépendance conditionnelle parfois ainsi formulée : ”le futur est indépendant du passé condi-
tionnellement au présent”.

Remarque 2.6. Pour être précis, c’est la propriété de Markov dite homogène que nous ve-
nons de présenter. La propriété de Markov inhomogène autorise de plus une dépendance
des transitions en t, dans le sens où le membre de droite de (2.4) se trouve remplacé par :
P(Xt+1 = y | Xt = x).

Notons d’ors et déjà que si (X0 , X1 ) est un couple de variables aléatoires, alors

P (x, y) : = P(X1 = y | X0 = x)

définit une matrice stochastique. On obtient directement le lien entre chaı̂ne de Markov et
propriété de Markov, exprimé dans le théorème suivant :

Theorème 2.7. — Si une suite de variables aléatoires (Xt )t∈N satisfait la propriété de
Markov, alors c’est une chaı̂ne de Markov de matrice de transition P (x, y) = P(X1 =
y|X0 = x).
— Réciproquement, une chaı̂ne de Markov satisfait la propriété de Markov.

Seule la mesure initiale est laissée indéterminée dans l’énoncé de la propriété de Markov.
2.2. LA PROPRIÉTÉ DE MARKOV 25

Démonstration. Soit t ∈ N, (xs )0≤s≤t ∈ Ωt+1 . Supposons la propriété de Markov vérifiée dans
un premier temps.
t
! t−1
! t−1
!
\ \ \
P {Xs = xs } = P Xt = xt | {Xs = xs } P {Xs = xs }
s=0 s=0 s=0
t−1
!
\
= P (X1 = xt |X0 = xt−1 ) P {Xs = xs }
s=0
t
Y
= P (X1 = xs |X0 = xs−1 ) · P(X0 = x0 ) par récurrence
s=1
Tt−1
Réciproquement si l’on dispose d’une chaı̂ne de Markov, alors si l’on pose Ht−1 = s=0 {Xs =
xs } et xt = x et xt+1 = y, on a :

t+1
!
\
P ({Xt+1 = y} ∩ {Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0

tandis que
t+1
!
\
P ({Xt = x} ∩ Ht−1 ) = P {Xs = xs } = µ(x0 )P (x0 , x1 ) . . . P (xt , xt+1 )
s=0

de sorte que la probabilité conditionnelle vaut, comme attendu,

P (Xt+1 = y|{Xt = x} ∩ Ht−1 ) = P (xt , xt+1 ) = P (x, y)

On peut facilement obtenir des énoncés plus généraux de la propriété de Markov, d’abord en
étendant le futur de la trajectoire après l’instant t + 1 : la suite de variables aléatoires (Xt )t∈N
satisfait la propriété de Markov ssi pour tout t, r ∈ N, et pour tout (xs )0≤s≤t+r ∈ Ωt+r
r t
! r
!
\ \ \
P {Xt+s = xt+s }| {Xs = xs } = P {Xs = xt+s }|X0 = xt (2.6)
s=1 s=0 s=1

Il peut être commode d’utiliser l’opérateur de translation, ”shift” en anglais.


Définition 2.8. Pour s ∈ N, l’opérateur de translation en temps de s unités est défini par :

θs : V N → V N , (Xt )t≥0 7→ (Xt+s )t≥0 .

On note que θs ◦ θt = θt ◦ θs = θt+s . Aussi, on notera simplement θ1 pour θ.


Proposition 2.9. Pour toutes applications F : ΩN → R, G : Ωt+1 → R mesurables bornées :
   
E F ((Xs )0≤s≤t )1{Xt =x} G(θt (X)) = E[F ((Xs )0≤s≤t )1{Xt =x} ] Ex G(X) (2.7)

Cela signifie que la loi de θt (X) conditionnellement à {Xt = x} et à un autre événement


quelconque de Ft , (Xs )0≤s≤t ∈ A, coı̈ncide avec la loi de X conditionnellement à {X0 = x},
c’est-à dire avec la loi de X sous Px . En particulier, (prendre F = 1A et G(X) = 1X1 =y 0,

P((Xs )0≤s≤t ∈ A, Xt = x, Xt+1 = y) = P((Xs )0≤s≤t ∈ A, Xt = x)P (x, y) (2.8)

Notons que l’on n’est pas forcé de fixer la valeur de Xt dans (2.7).
26 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

Corollaire 2.10. Pour toutes applications F : Ωt+1 → R, G : ΩN → R mesurables bornées :


h i  
E [F ((Xs )0≤s≤t )G(θt (X))] = E F ((Xs )0≤s≤t )ϕ(Xt ) , avec ϕ(x) = Ex G(X)

Et on peut encore écrire cette dernière expression, avec un léger abus de notation :
h  i
E F ((Xs )0≤s≤t )EXt G(X)

En particulier, si l’on prend F ((Xs )0≤s≤1 ) = 1, on obtient, pour toute application G : ΩN →


R mesurable bornée : X
Ex [G(θ(X))] = P (x, y)Ey [G(X)] (2.9)
y

Dans les applications de la méthode dite à un pas, où on décompose selon les valeurs du premier
pas de la chaı̂ne de Markov, cette égalité est particulièrement utile.
Démonstration du Corollaire. Il suffit de distinguer selon les valeurs de Xt puis d’appliquer
(2.7) :
X  
E [F ((Xs )0≤s≤t )G(θt (X))] = E F ((Xs )0≤s≤t )1{Xt =x} G(θt (X))
x∈Ω
X  
= E[F ((Xs )0≤s≤t )1{Xt =x} ] Ex G(X)
x∈Ω
h i  
= E F ((Xs )0≤s≤t )ϕ(Xt ) , avec ϕ(x) = Ex G(X)

Exemple 2.11. Présentons à titre d’exemple, le calcul, pour t1 < t2 et f1 , f2 : Ω → R, de la


valeur de Ex [f1 (Xt1 )f2 (Xt2 )] en fonction des éléments caractéristiques de la chaı̂ne, à savoir P
et µ :
X
Eµ [f1 (Xt1 )f2 (Xt2 )] = Pµ (Xt1 = x1 , Xt2 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= Pµ (Xt1 = x1 , (θt1 X)t2 −t1 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= Pµ (Xt1 = x1 )Px1 (Xt2 −t1 = x2 )f1 (x1 )f2 (x2 )
x1 ,x2
X
= µ(x) · P t1 (x, x1 )P t2 −t1 (x2 )f1 (x1 )f2 (x2 )
x,x1 ,x2
X X
= µ(x)P t1 (x, x1 )f1 (x1 ) P t2 −t1 (x2 )f2 (x2 )
x,x1 x2
X
= µ(x)P t1 (x, x1 )f1 (x1 )P t2 −t1 f2 (x1 )
x,x1
X
= µ(x)P t1 (x, x1 )f1 (x1 )P t2 −t1 f2 (x1 )
x,x1

= µP t1 (f1 · P t2 −t1 f2 )

Le produit · désigne le produit usuel des fonctions, c’est-à-dire ici le produit terme à terme des
vecteurs colonnes. Le lecteur pourra s’amuser à titre d’exercice à calculer, pour t1 < t2 < t3 et
f1 , f2 , f3 : Ω → R, la valeur de Eµ [f1 (Xt1 )f2 (Xt2 )f3 (Xt3 )].
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 27

2.3 Représentation de la mesure stationnaire par des


temps d’arrêt
Avant d’attaquer cette section, on pourra se reporter à l’annexe pour des rappels de L3 sur
les liens entre queue de distribution et espérance de variables aléatoires positives ou nulles p.s.,
5.1.2.
Pour l’instant nous avons donné un cadre qui permet de reformuler/d’interpréter les résultats
sur les matrices stochastiques en terme de suite de variables aléatoires appelées chaı̂nes de
Markov. Si l’on s’arrêtait là cependant, l’intérêt serait minime. On va maintenant voir des
énoncés de saveur probabiliste sans contrepartie immédiate dans le monde des matrices. On
va notamment obtenir un lien entre des temps d’arrêt particuliers, les temps de retour, et les
mesures stationnaires.

Définition 2.12. On appelle temps d’arrêt une variable aléatoire τ à valeurs dans N telle que

∀t ∈ N, {τ ≤ t} ∈ Ft (2.10)

Noter que notre cadre où le temps est discret, il est équivalent de demander que ∀t ∈ N, {τ =
t} ∈ Ft , ou encore {τ > t} ∈ Ft . Pratiquement, {τ ≤ t} ∈ Ft signifie que, pour tout t ∈ N,
1{τ ≤t} est une fonction mesurable de (Xs , 0 ≤ s ≤ t). On peut exprimer cela sans parler de
tribu engendrée ; cela signifie encore que, pour tout t ∈ N, il existe A ∈ Ωt+1 tel que :

{τ ≤ t} = {(Xs )0≤s≤t ∈ A}

L’interprétation en terme d’information est la suivante : on sait à tout instant t ∈ N si la valeur


du temps d’arrêt est déja passée simplement en suivant le cours de la trajectoire jusqu’à cet
instant t.

Définition 2.13. On considère une chaı̂ne de Markov (Xt )t∈N , un temps d’arrêt τ et deux
sommets a, x ∈ V . On appelle fonction de Green la fonction définie de la manière suivante
+∞
X
Gτ (a, x) = Pa (Xt = x, τ > t)
t=0

On notera l’inégalité stricte dans {τ > t}. Par Fubini positif, on a l’identité
" +∞ #
X
Gτ (a, x) = Ea 1{Xt =x,τ >t} ,
t=0

c’est-à-dire que la fonction de Green mesure l’espérance du temps passé en x strictement avant
l’instant τ partant de a.

Theorème 2.14 (Théorème du temps d’occupation de Aldous-Fill). Soit (Xt )t∈N une chaı̂ne
de Markov irréductible, et τ un temps d’arrêt qui vérifie

Pa (Xτ = a, 0 < τ < ∞) = 1, (2.11)

et soit π l’unique distribution stationnaire de la chaı̂ne de Markov. On a alors

Gτ (a, x)
∀x ∈ Ω, = π(x). (2.12)
Ea [τ ]
28 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

En toutes lettres : la proportion du temps passé en x avant l’instant τ est égal à la mesure
stationnaire en a, qui quantifie également le temps moyen passé en a par la chaı̂ne dans son
état stationnaire. Le théorème d’Aldous-Fill s’écrit encore :
" τ −1 #
X
Ea 1{Xt =x} = Ea [τ ] Eπ [1{X1 =x} ]
t=0

Remarque 2.15. Ceci peut évoquer le lemme de Wald : si les (Xt , t ∈ N) sont des variables
aléatoires intégrables de même espérance (pas besoin d’indépendance, ni même d’identique
distribution) et N est une variable aléatoire entière intégrable indépendante de la famille des
(Xt )t∈N , alors :
N
X
E[ Xt ] = E[N ] E[X1 ]
t=1

PN P
Pour le prouver, il suffit d’écrire t=1 Xt = t∈N Xt 1t≤N puis de sommer comme suit :

N
X X
E[ Xt ] = E[ Xt 1t≤N ]
t=1 t∈N
X
= E[Xt 1t≤N ]
t∈N
X
= E[Xt ]P(t ≤ N ) par indépendance
t∈N
X
= E[X1 ] P(t ≤ N )
t∈N
= E[X1 ] E[N ]

La différence avec le lemme de Wald est qu’on a à droite Eπ [1{X1 =x} ] et non Ea [1{X1 =x} ] ;
quand aux hypothèses elles sont complètement différentes bien sûr ; en particulier, τ n’est pas
indépendant de la suite de variables aléatoires Xt , bien au contraire.

Nous verrons qu’un exemple de tel temps d’arrêt τ est le temps de retour en a dont la
définition est donnée en 2.16.

Démonstration du théorème. Soit x, y ∈ Ω. On note tout d’abord que

Pa (Xt = x, Xt+1 = y, τ > t) = Ea [1Xt =x,τ >t 1Xt+1 =y ]


= Pa (Xt = x, τ > t)P (x, y)

découle de (2.8) avec A = {τ > t} ∈ σ{(Xs )0≤s≤t } par définition d’un temps d’arrêt (c’est ici
qu’on utilise cette propriété de façon cruciale). Soit maintenant y ∈ Ω. C’est un calcul, long
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 29

mais transparent, qui donne le résultat.


X +∞
XX
Gτ (a, x)P (x, y) = Pa (Xt = x, τ > t)P (x, y)
x∈Ω x∈Ω t=0
+∞ X
X
= Pa (Xt = x, τ > t)P (x, y) par Fubini positif
t=0 x∈Ω
+∞
XX
= Pa (Xt = x, Xt+1 = y, τ > t) de la propriété de Markov
t=0 x∈Ω
+∞
X
= Pa (Xt+1 = y, τ > t)
t=0
+∞
X
= Pa (Xt = y, τ ≥ t)
t=1
+∞
X +∞
X
= Pa (Xt = y, τ > t) + Pa (Xt = y, τ = t)
t=1 t=1
+∞
X +∞
X
= Pa (Xt = y, τ > t) − Pa (X0 = y, τ > 0) + Pa (Xτ = y)
t=0 t=1
+∞
X
= Pa (Xt = y, τ > t) − 1{y=a} + 1{y=a} de l’hypothèse sur τ
t=0
= Gτ (a, y)

On calcule la normalisation nécessaire pour obtenir une mesure de probabilité.


X +∞
XX +∞
X +∞
X
Gτ (a, y) = Pa (Xt = y, τ > t) = Pa (τ > t) = Ea [ 1τ >t ] = Ea [τ ]
y∈Ω y∈Ω t=0 t=0 t=0

Ainsi
X Gτ (a, x) Gτ (a, y)
P (x, y) = ,
x∈Ω
Ea [τ ] Ea [τ ]
et l’unicité de la mesure de probabilité stationnaire, qui découle d’après la proposition 1.14 de
l’hypothèse d’irréductibilité, permet de déduire (2.12).
Voici les deux exemples canoniques de temps d’arrêt (vérifier qu’il s’agit effectivement de
tels temps) :
Définition 2.16. Soit A ⊂ Ω, et x ∈ Ω. Le temps d’atteinte de A et le temps de retour en A
sont respectivement définis par

τA = min{t ≥ 0, Xt ∈ A} et τA+ = min{t ≥ 1, Xt ∈ A},


+
et on écrira simplement τx := τ{x} et τx+ := τ{x} dans le cas de singletons.
Nous énoncons dès maintenant le corollaire du théorème précédent.
Corollaire 2.17. Soit (Xt )t∈N une chaı̂ne de Markov irréductible, soit a ∈ Ω, et τa+ le premier
temps de retour en a, τa+ = min{t ≥ 1, Xt = a}. Alors :
1
π(a) = ·
Ea [τa+ ]
30 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

Ce résultat est d’autant plus remarquable qu’il n’existe pas de façon simple d’obtenir Ea [τb ]
pour a 6= b en général (on verra plus tard une approche dans le cas des graphes réversibles et
transitifs). On notera aussi que cette représentation est purement probabiliste (essayer d’expri-
mer la quantité Ea [τa+ ] à l’aide du semigroupe P t pour s’en persuader).

Démonstration du corollaire. On applique le théorème en observant que la condition de finitude


des temps d’atteinte (2.11) découle de la Proposition 2.18 à venir. Ensuite, on fait le calcul :
" +∞ #
X
Gτa+ (a, z) = Ea 1{Xt =a,τa+ >t} = 1.
t=0

puisque seul le terme t = 0 contribue dans cette somme.

Cette représentation de π au moyen de τ + est des plus satisfaisantes. Elle permet notamment
d’avoir accès au calcul de Ea [τa+ ] lorsque la mesure stationnaire est connue ; cependant, pour
calculer Ea [τb+ ] dans le cas où a 6= b, il va nous falloir développer une autre stratégie. De
façon peut-être surprenante, c’est en mobilisant nos connaissances en électricité que nous allons
pouvoir répondre à cette question dans le chapitre suivant.

Proposition 2.18. Si la matrice de transition P de la chaı̂ne de Markov (Xt )t≥0 est irréductible
sur Ω, alors quelque soit x, y ∈ Ω

Ex [τy ] ≤ Ex [τy+ ] < ∞

Notons que la preuve ci-dessous donne en fait des bornes pour le majorant..

Démonstration. On commence par montrer la propriété sur les temps d’atteinte. La propriété
sur les temps de retour en découlera ensuite. Notons t(x, y) l’entier tel que P t (x, y) > 0, dont
l’existence nous est assurée par la définition de l’irréductibilité. On fixe alors y et on choisit
t = maxx t(x, y) de sorte que
t
[
Px (τy ≤ t) = Px ( {Xs = y}) ≥ Px (Xt(x,y) = y)
s=0

Prenant le minimum sur x, on obtient :

Px (τy ≤ t) ≥ min Px (Xt(x,y) = y) =: δ > 0


x

Toujours à y fixé, on montre par récurrence sur l’entier k ∈ N la propriété :

∀x ∈ Ω, Px (τy > kt) ≤ (1 − δ)k .

(Noter que le quantificateur ”∀x” est dans la propriété de récurrence). Pour k = 0 et k = 1, on


l’a déjà vérifiée ; si la propriété vaut en k, alors on peut écrire, en notant τy ◦ θt := τy (θt (X)) le
temps d’atteinte de la chaı̂ne shiftée :

Px (τy > (k + 1)t) = Px ({τy ◦ θt > kt} ∩ {τy > t})


= Ex [1{τy ◦ θt >kt} 1{τy >t} ]
 
= Ex EXt [1τy >kt ]1τy >t
≤ (1 − δ)k Ex [1τy >t ] en appliquant la propriété de récurrence
≤ (1 − δ)k+1
2.3. REPRÉSENTATION DE LA MESURE STATIONNAIRE PAR DES TEMPS D’ARRÊT 31

Mais alors, puisque τy ∈ N, appliquant le lemme 5.8 on obtient


X X X t
Ex [τy ] = Px (τy > k) ≤ tPx (τy > kt) ≤ t (1 − δ)k = < ∞
k∈N k∈N k∈N
δ

conclut la preuve. Pour ce qui est des temps de retour on note que si x 6= y, alors Px (τy+ = τy ) = 1
d’où Ex [τy+ ] = Ex [τy ] < ∞ dans ce cas. Ensuite, pour le cas restant, on a, à l’aide de la
proposition 2.19 ci-dessous, que :
X
Ey [τy+ ] = 1 + P (y, x)Ex [τy ] ≤ 1 + max Ex [τy ] < ∞
x
x

Proposition 2.19. Soit A ⊂ Ω. Le temps de retour τA+ en A d’une chaı̂ne de Markov (Xt )t∈N
de matrice de transition P = (P (x, y))x,y∈Ω satisfait :
X
Ex [τA+ ] = 1 + P (x, y)Ey [τA ].
y

Notons que la proposition ne suppose pas l’irréductibilité, mais il est alors possible que les
deux termes soient simultanément infinis.
Démonstration. On note que τA+ = τA ◦ θ + 1 puis
Ex [τA+ ] = Ex [τA ◦ θ + 1]
X
= Ex [τA ◦ θ + 1, X1 = y]
y
X
= P (x, y)Ey [τA + 1] par 2.9
y

Notons aussi la proposition suivante, dans la même veine :


Proposition 2.20. Soit A ⊂ Ω. Le temps de retour τA+ en A d’une chaı̂ne de Markov (Xt )t∈N
de matrice de transition P = (P (x, y))x,y∈Ω satisfait, pout tout x, z ∈ Ω,
X
Px (Xτ + = z) = P (x, y) Py (XτA = z).
A
y

En particulier, pour toute fonction f : Ω → R, on a :


X
Ex [f (Xτ + )] = P (x, y) Ey [f (XτA )].
A
y

Démonstration. En effet, de la définition de τA+ et τA , on a l’égalité des deux événements :


{Xτ + = z} = {(θ ◦ X)τA = z},
A

où (θ ◦ X)τA signifie (X ◦ θ)τA (θ◦X) , puis il en découle, si l’on pose F (X) = 1{XτA =z} :
Px (Xτ + = z) = Ex [F (θ ◦ X)]
A
X
= P (x, y)Ey [F (X)] de 2.9
y
X
= P (x, y)Py (XτA = z),
y
P
et l’égalité avec les espérances découle de l’expression générale E[f (Y )] = y∈Ω P(Y = y)f (y).
32 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

2.4 L’exemple de la ruine du joueur


Il s’agit de la chaı̂ne de Markov (Xt )t∈N sur Ω = {0, . . . , n} de matrice de transition
(
1
1{|j−i|=1} si i ∈ {1, . . . , n − 1}
P (i, j) = 2
1i=j si i ∈ {0, n}.

C’est la marche aléatoire des gains d’un joueur qui joue à un jeu équilibré, gagne ou perd 1 à
chaque tour de jeu et s’arrête lorsqu’il atteint un gain de n ou lorsqu’il atteint 0 et n’a plus
d’argent à parier. On s’intéresse au temps aléatoire τ = min{t ≥ 0, Xt ∈ {0, n}} ∈ N ∪ {∞}
qui est le premier temps où le joueur atteint la fortune 0 (il a perdu) ou n (il a gagné).
1. Le temps aléatoire τ est-il fini p.s. ?
2. Dans ce cas, admet-il une espérance finie ?
3. Toujours dans ce cas, quelle est la loi de la variable aléatoire Xτ (définie sur l’événement
{τ < ∞}), qui rend compte du gain final ?
La méthode présentée ci dessous, dite méthode à un pas, est une méthode récursive sur la
position initiale de la chaı̂ne. L’opérateur de shift θ = θ1 défini par (θ ◦ X)t = Xt+1 , peut être
composé avec τ = τ (X) pour donner

(τ ◦ θ)(X) = inf{t ≥ 0, Xt+1 ∈ {0, n}} ∈ N ∪ {∞}.

On écrit l’identité suivante dans N ∪ {∞} :

τ = τ ◦ θ + 1 sur l’événement {τ 6= 0},

et donc, puisque l’événement {τ 6= 0} est p.s. sous Pk dès lors que k ∈


/ {0, n}, on peut écrire,
pour un tel k,

Ek [τ ] = Ek [τ ◦ θ + 1]
= Ek [τ ◦ θ + 1, X1 = k + 1] + Ek [τ ◦ θ + 1, X1 = k − 1]
= P (k, k + 1)Ek+1 [τ + 1] + P (k, k − 1)Ek−1 [τ + 1]
1
= (h(k + 1) + h(k − 1)) + 1
2
identité qui vaut dans [0, ∞]. Les conditions au bord sont h(0) = h(n) = 0. Si `(k) = h(k +
1) − h(k), alors pour k ∈ {1, . . . , n − 1},

`(k) = h(k + 1) − h(k) = 2h(k) − 2 − h(k − 1) − h(k) = `(k − 1) − 2.

On a donc `(k) = `(0) − 2k, et par ailleurs la somme des `(k) est nulle, donc
n−1
X
0= `(k) = n`(0) − n(n − 1),
k=0

soit `(0) = n − 1 et `(k) = n − 1 − 2k. On en déduit que


k−1
X
h(k) = h(k) − h(0) = `(j) = (n − 1)k − (k − 1)k = (n − k)k.
j=0

Les quantités k et n − k jouent bien un rôle symétrique dans cette expression comme attendu.
2.5. QUELQUES MOTS SUR LA PROPRIÉTÉ DE MARKOV FORTE 33

En particulier, Ek [τ ] < ∞ et donc {τ < ∞} est un événement presque sûr sous Pk quelque
soit k ∈ Ω. Pour calculer Pk (Xτ = n | X1 = k + 1), on commence par observer que

{Xτ = n} ∩ {τ 6= 0} ∩ {τ < ∞} = {(θ ◦ X)τ ◦θ = n} ∩ {τ 6= 0} ∩ {τ < ∞}

ce qui entraı̂ne (ayant déjà établi que Pk (τ < ∞) = 1) :

Pk (Xτ = n | X1 = k + 1) = Pk (Xτ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n, τ 6= 0 | X1 = k + 1)
= Pk ((θ ◦ X)τ ◦θ = n| X1 = k + 1)
= Pk+1 ((θ ◦ X)τ ◦θ = n | X1 = k + 1)
= Pk+1 (Xτ = n)

On en tire comme précédemment une équation de récurrence sur la quantité suivante : pour
k∈
/ {0, n},

g(k) := Pk (Xτ = n)
= Pk (Xτ = n | X1 = k + 1) Pk (X1 = k + 1) + Pk (Xτ = n | X1 = k − 1) Pk (X1 = k − 1)
1
= (Pk+1 (Xτ = n) + Pk−1 (Xτ = n))
2
g(k + 1) + g(k − 1)
= ,
2
avec les conditions au bord g(0) = 0 et g(n) = 1. Pour résoudre cette équation, notons qu’elle
peut se réécrire g(k + 1) − g(k) = g(k) − g(k − 1) ; la fonction g a donc des accroissements
constants et c’est la fonction affine g(k) = nk .
Quelques commentaires sur les spécificités de cette chaı̂ne de Markov sont nécessaires :
Noter que la présence d’états absorbants (au sens de la définition 1.15) empêche la chaı̂ne
d’être irréductible ; ici, la chaı̂ne compte deux états absorbants. On n’a pas unicité de la mesure
de probabilité stationnaire, et toute combinaison linéaire des masses de Dirac en les deux états
absorbants pδ0 + (1 − p)δn est une mesure de probabilité stationnaire (soit encore tout vecteur
t
ligne π avec S π(0) = p, et π(n) = 1 − p). On a aussi limt→∞ P (k, n) = limt→∞ P(Xt = n) =
limt→∞ P( t∈N {Xt = n}) = P(Xτ = n) on a :

k n−k
lim P t (k, n) = , et lim P t (k, 0) = ,
t→∞ n t→∞ n
ce qui implique aussi, pour tout k 0 ∈ Ω \ {0, n}, limt→∞ P t (k, k 0 ) = 0. En particulier,

lim P t (k, n) + P t (k, 0) = 1.


t→∞

2.5 Quelques mots sur la propriété de Markov forte


Cette section est un supplément au cours, et n’est pas exigible : en pratique, lorsqu’on
voudra appliquer la propriété de Markov en un temps aléatoire τ qui est un temps d’arrêt, on
décomposera simplement S suivant la valeur de ce temps d’arrêt, c’est à dire selon la réunion
d’événements disjoints t∈N {τ = t}, et on se ramènera à la propriété de Markov simple.
On peut décréter que l’espace de probabilité (E, F ) est l’espace ΩN lui-même (ce qu’on
appelle le choix canonique) ; alors ω → Xt (ω) dans (2.1) est simplement l’application coor-
donnée : Xt (ω) = ωt . L’avantage de cette opération est qu’on peut alors faire agir l’opérateur
34 CHAPITRE 2. LES CHAÎNES ASSOCIÉES AUX MATRICES

de translation θ directement sur E, et changer légèrement de point de vue sur la propriété de


Markov simple : pour F : E → R F∞ -mesurable bornée, et G : E → R Ft -mesurable bornée :
   
E F ◦ θt · G 1{Xt =x} = Ex F E[G 1{Xt =x} ]

Pour le moment il n’y a pas vraiment de gain par rapport à (2.7). Si l’on essaie d’ecrire
une relation similaire à (2.7) pour un temps d’arrêt, on voit que le domaine de définition de
G (disons le nombre d’arguments que cette fonction doit prendre) n’est pas bien défini. Pour
contourner cet obstacle on pose pour τ un temps d’arrêt, la tribu Fτ :

A ∈ Fτ ssi ∀t ∈ N, A ∩ {τ ≤ t} ∈ Ft

On considère ensuite directement des fonctions F et G définies directement sur (E, F ) (et non
plus des fonctions F et G définies sur ΩN et Ωt+1 ), ce qui permet d’écrire la propriéte suivante,
appelée propriété de Markov forte par oppoisition à la propriété de Markov simple :

Proposition 2.21 (Propriété de Markov forte). Soit τ un temps d’arrêt presque sûrement fini,
et (Xt )t∈N une chaı̂ne de Markov. Alors pour tout F F∞ -mesurable bornée, et G Fτ -mesurable
bornée,

E[F ◦ θτ · G 1Xτ =x ] = Ex [F ] E[G 1Xτ =x ]

Démonstration. L’idée est de décomposer suivant les valeurs prises par le temps d’arrêt, puis
d’utiliser la propriété 2.6, en notant que par définition de la filtration Fτ , G 1Xt =x 1τ =t est Ft
mesurable,
X
E[F ◦ θτ · G 1Xτ =x ] = E[F ◦ θτ · G 1Xτ =x 1τ =t ]
t∈N
X
= E[F ◦ θt · G 1Xt =x 1τ =t ]
t∈N
X
= Ex [F ]E[G 1Xt =x 1τ =t ]
t∈N
= Ex [F ]E[G 1Xτ =x ]
Chapitre 3

Réseaux électriques (a.k.a. chaı̂nes


réversibles)

On étudie dans ce chapitre les temps d’atteinte de chaı̂nes de Markov réversibles au moyen de
calculs de résistance dans des réseaux électriques, les mêmes réseaux que ceux qu’on a pu rencon-
trer en cours d’électricité. La tension aux sommets du graphe lorsqu’on branche un générateur
entre deux sommets quelconque d’une part, et la probabilité d’atteindre un de ces deux som-
mets avant l’autre sont des quantités étroitement liées : cela découle de la propriété d’unicité
du prolongement harmonique d’une fonction. De cette observation fondamentale découlent un
certain nombre de propriétés surprenantes, entre autre le calcul de fonctions harmoniques au
moyen de la réduction de réseaux électriques.

3.1 Chaı̂nes de Markov réversibles et réseau.


On renvoie à l’annexe 5.1.1 pour plus de détail au sujet du vocabulaire des graphes.

Définition 3.1. Un graphe simple non-dirigé G = (V, E) est la donnée d’un ensemble V ,
appelé ensemble de sommets et d’un sous-ensemble E des paires non ordonnées de sommets
de V , appelé ensemble d’arêtes 1 . On appelle boucle une arête de type {x, x}. Un graphe sans
boucles est un graphe où E ⊂ {{x, y} : x, y ∈ V 2 , x 6= y}

Le formalisme de paires est naturel pour les graphes non-dirigés : les deux paires {x, y} et
{y, x} étant égales, elle représentent la même arête. À ensemble de sommets V fixé de cardinal
n, le plus gros graphe possible (au sens de l’inclusion des ensembles d’arêtes) est celui où les
n
2
arêtes sont retenues dans E, on l’appelle le graphe complet. A l’inverse on peut considérer
le graphe vide (sans arêtes) de peu d’intérêt...

Définition 3.2. Un réseau {G, c} est la donnée un graphe fini G = (V, E) non orienté et
connexe et d’une collection de conductances c = (c(e))e∈E ∈ (R+ \ {0})E 2 , d’inverses r(e) =
1/c(e) appelés résistances.

Si e = {x, y} ∈ E, on écrira parfois x ∼ y pour alléger les notations et on notera in-


différemment
c(x, y) = c(y, x) := c(e).
1. On appelle multigraphe un graphe ou les répétitions de mêmes arêtes sont autorisées dans E ; technique-
ment E est alors un ”multiset”.
2. on peut aussi travailler avec le graphe complet quitte à mettre des conductances nulles là où il n y a pas
d’arêtes

35
36 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

Définition 3.3. Soit {G, c} un réseau. La chaı̂ne de Markov sur V associée à ce réseau de
matrice de transition P = (P (x, y))x,y∈V 2 donnée par
c(x, y) X
P (x, y) = 1{x,y}∈E avec c(x) = c(x, y) (3.1)
c(x)
y,{x,y}∈E

sera simplement appelée marche aléatoire sur le réseau {G, c}.


Posons X X X
cG := c(x) = 2 c(e) + c(e) (3.2)
x∈V e:e={x,y},x6=y e:e={x,x}

où l’on distingue à la deuxième égalité les arêtes qui forment des boucles ou non : si une arête
n’est pas une boucle, elle est comptée deux fois, s’il s’agit d’une boucle, c’est-à-dire d’une arête
du type {x, x}, elle est comptée une seule fois. L’intérêt qu’on porte aux réseaux est justifié par
la proposition suivante.
Proposition 3.4. La marche aléatoire sur le réseau {G, c} est réversible par rapport à la
mesure de probabilité π donnée par
c(x)
π(x) = , x ∈ V.
cG
Réciproquement, à toute chaı̂ne de Markov irréductible et réversible (Xt )t∈N sur Ω, on peut
associer un réseau (unique à isomorphisme près, ou si l’on impose le choix de V = Ω) tel que
que la chaı̂ne (Xt )t∈N soit la marche aléatoire sur le réseau.
En conséquence, le calcul de la mesure stationnaire sur un réseau (unique dès lors que la
chaı̂ne est irréductible, c’est-à-dire le graphe sous-jacent connexe) ne pose aucune difficulté,
puisqu’il suffit de faire des sommes sur les conductances, qui correspondent aux données du
réseau.
Démonstration. Le sens direct est aisé, il suffit d’observer P est réversible par rapport à π en
reportant la définition de P :
c(x) c(x, y) c(x, y) c(y, x) c(y) c(y, x)
π(x)P (x, y) = = = = = π(y)P (y, x) :
cG c(x) cG cG cG c(y)
Dans l’autre sens, il suffit de poser, si π est la mesure par rapport à laquelle X est réversible,
c(x, y) := π(x)P (x, y) dès lors que cette quantité est non nulle (formellement, on définit V = Ω
et E = {{x, y} ∈ V 2 , π(x)P (x, y) 6= 0}). C’est la propriété de réversibilité qui garantit que
la définition de c(x, y)P
n’est pas ambigüe. P Le graphe est bien connexe par irréductibilité. En
outre, le calcul c(x) = y:{x,y}∈E c(x, y) = y:{x,y}∈E π(x)P (x, y) = π(x) assure que, pour tout
x, y ∈ Ω
c(x, y) π(x)P (x, y)
= = P (x, y).
c(x) c(x)

3.2 Principe de Dirichlet pour les fonctions harmoniques


On va maintenant approfondir notre étude des fonctions harmoniques, introduites à la
définition 1.11. La proposition suivante généralise la proposition 1.12, selon laquelle une fonc-
tion harmonique sur l’espace entier pour P stochastique irréductible est constante. Voici un
renforcement de cette propriété.
3.2. PRINCIPE DE DIRICHLET POUR LES FONCTIONS HARMONIQUES 37

Proposition 3.5 (Principe du maximum). Soit P stochastique irréductible, et B ⊂ V . Si h


est harmonique sur V \ B alors h atteint son maximum en un point de B.

Démonstration. Soit x0 tel que h(x0 ) = maxy∈V h(y). Si x0 ∈ B il n’y a rien à prouver. Sinon,
si x0 ∈/ B, soit b ∈ B. On peut trouver une suite finie (xi )1≤i≤r tel que P (xi , xi+1 ) > 0 pour
tout 0 ≤ i ≤ r − 1 et xr = b. On note s le plus petit entier tel que xs ∈ B. On montre alors
que h(xi ) = h(x0 ) pour tout i ≤ s par récurrence (finie) sur l’entier i. C’est vrai en i = 0.
Si h(xi ) = h(x0P) et i < s alors, puisque xi ∈ / B par définition, h est encore harmonique en
xi , et h(xi ) = P (xi , y)h(y) implique h(y) = h(xi ) pour tout y tel que P (xi , y) > 0, en
particulier pour y = xi+1 . Ainsi h(xs ) = h(x0 ) et xs ∈ B est un élément en lequel h atteint son
maximum.

Il en découle qu’une fonction définie sur un sous-ensemble arbitraire de sommets s’étend de


façon unique en une fonction harmonique sur le complémentaire de cet ensemble, ainsi qu’une
représentation probabiliste simple de cette extension à l’aide des temps d’atteinte.

Proposition 3.6 (Principe de Dirichlet). Soit P stochastique irréductible. Soient B ⊂ V et


hB : B → R une fonction définie sur B. Alors, la fonction h : V → R définie par

h(x) = Ex [hB (XτB )]

est l’unique extension de hB telle que h(x) = hB (x) pour tout x ∈ B et h est harmonique pour
P sur V \ B.

On appelle la fonction h de l’énoncé précédent l’extension harmonique de hB .

Démonstration. Vérifions d’abord que h donnée dans l’intitulé est bien une extension. Si x ∈ B,
alors τB = 0 et donc h(x) = Ex [hB (XτB )] = hB (x). Cette extension est de plus harmonique.
Soit x ∈
/ B. On a alors, sous Px , p.s.,

hB (XτB ) = hB ((θ ◦ X)τB ),

où τB = τB (θ ◦ X), et donc de la propriété de Markov,

h(x) = Ex [hB (XτB )]


= Ex [hB ((θ ◦ X)τB )] avec
X
= Ex [hB ((θ ◦ X)τB ), X1 = y]
y∈V
X
= Ey [hB (XτB )]P (x, y)
y∈V

Montrons maintenant l’unicité. Pour cela considérons g : V → R harmonique sur V \ B et


nulle sur B. Le principe du maximum appliqué à g assure que g ≤ 0. Appliqué à −g, il assure
que g ≥ 0. Ainsi g = 0. Si maintenant h et h̃ sont deux extensions harmoniques de hB , alors
g = h − h̃ est harmonique sur V \ B, nulle sur B, et donc nulle partout.

Si ce principe fournit un résultat d’existence et d’unicité très utile d’un point de vue
théorique, nous utiliserons en pratique d’autres méthodes pour calculer les extensions har-
monique dans le cas de graphes concrets (réduction de réseaux). Ces méthodes seront basées
sur les concepts que nous introduisons maintenant.
38 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

3.3 Tension, flot et flot courant


On rappelle la définition de la marche aléatoire sur le réseau (Xt )t∈N dont la matrice de
transition est définie au début de ce chapitre en fonction des conductances par la relation 3.1.
Les quantités probabilistes du type temps d’atteinte ou temps de retour, τz ou τz+ , font référence
à cette marche aléatoire.
Lemme 3.7 (Probabilités d’atteinte comme tension). Pour tout a, z ∈ V , l’application

x 7→ Px (τa < τz )

est une fonction harmonique sur V \ {a, z}, de valeurs au bord 1 en a et 0 en z.


Noter que la fonction x 7→ Px (τa < τz ) satisfait aux mêmes prorpiété, avec seulement des
valeurs aux bords sont modifiées.
Démonstration.

Px (τa < τz ) = Px [Xτ{a,z} = z]


= Ex [1{a} (Xτ{a,z} )]
= Ex [h(Xτa,z )]

où h : {a, z} → {0, 1}, x 7→ 1{a} (x).


L’abstraction de cette propriété donne lieu à la définition suivante :
Définition 3.8. Soient a, z ∈ V deux sommets distingués de V , appelés respectivement source
et puits du réseau. On appelle tension sur le réseau {G, c} (relativement à a et z) une fonction
harmonique sur V \ {a, z}.
D’après le principe de Dirichlet, une tension W est entièrement déterminée par ses valeurs
W (a) et W (z) en les points source et puits. À une tension est associée une fonction courant
définie sur les arêtes orientées : la définition du courant associée à une tension est tout simple-
ment la loi d’Ohm :
Définition 3.9. Soit W une tension sur {G, c}. Le courant I associé à W est défini par

∀xy ~ I(xy)
~ ∈ E, ~ = c(x, y)(W (x) − W (y)).

On pose r(x, y) = 1/c(x, y) dès lors que c(x, y) 6= 0 et on appelle r(x, y) résistance de l’arête
{x, y}, de sorte que’on peut réécrire la relation précédente sous la forme plus classique :

W (x) − W (y) = r(x, y)I(xy).


~

Pour éviter tout problème de signe, on retiendra que le courant va des sommets de potentiel
maximal (proches de la source) à ceux de potentiel minimal (proches du puits). I ainsi définie
est antisymétrique, et puisque W est une tension, elle satisfait également la loi des noeuds
suivante : X
div I(x) := ~ = 0, x ∈ V \ {a, z} (loi des noeuds)
I(xy)
y:{xy}∈E

De même, on peut abstraire la notion de courant en la notion de flot : on ne requiert alors


que la loi des noeuds :
Définition 3.10 (Flot). Soit {G, c} un réseau et a, z ∈ V . On appelle flot de a à z toute
~ → R qui vérifie les propriétés suivantes :
fonction θ : E
3.3. TENSION, FLOT ET FLOT COURANT 39

— ∀xy ~ θ(xy)
~ ∈ E, ~ + θ(yx)
~ = 0 (antisymétrie).
— ∀x ∈
/ {a, z},
X
div θ(x) := θ(xy)
~ = 0 (loi des noeuds)
y:{xy}∈E

— div θ(a) ≥ 0.
Si θ est un flot, l’intensité du flot θ de a à z est définie par
X
kθk = div θ(a) := θ(ax).
~
x:{a,x}∈E

et on appelle flot unitaire un flot d’intensité 1.

Attention, contrairement à ce que la notation peut suggérer, l’intensité n’est pas une norme
sur l’ensemble des flots (dessiner un flot non nul le long d’une boucle fermée qui ne rencontre ni
a ni z). Noter aussi que dans un flot, le rôle des points source a et puits z n’est pas symétrique
du fait de l’inégalité div θ(a) ≥ 0 dans la définition d’un flot : on a un flot de a à z. Notons
que pour un flot θ, l’antisymétrie et la loi des noeuds assure que :
X X X X
div θ(a) + div θ(z) = div θ(x) = θ(xy)
~ = (θ(xy)
~ + θ(yx))
~ = 0.
x∈V x∈V y:{x,y}∈E {x,y}∈E

On note alors le lemme :

Lemme 3.11. Si W (a) ≥ W (z), alors le courant I est un flot de a à z.

Parmi tous les flots, le flot courant possède une propriété caractéristique de ”découler d’un
potentiel”, ce qui motive la définition suivante :

Définition 3.12. On dit qu’un flot θ : E ~ → R vérifie la loi des cycles si, pour toute suite de
sommets e~1 , e~2 , . . . , e~m qui forme un cycle orienté, on a
m
X
r(~
ei )θ(~
ei ) = 0.
i=1

La proposition suivante justifie le mot ”caractéristique” employé précédemment :

Proposition 3.13. Le flot courant I vérifie la loi des cycles. De plus, si θ est un flot de a à z
qui vérifie :
— la loi des cycles pour tout cycle e~1 , e~2 , . . . , e~m
— la normalisation kθk = kIk,
alors θ = I.

Démonstration. Posons f = θ − I. Alors f satisfait la loi des nœuds et la loi des cycles.
Supposons par l’absurde que f 6= 0, et par exemple f (e~1 ) > 0 pour e~1 une arête du réseau.
Alors, par la loi des nœuds, il existe e~2 tel que f (e~2 ) > 0. On construit ainsi une suite d’arêtes
sur lesquelles f est strictement positive. Or, V est fini donc cette suite va passer 2 fois sur un
même nœud, et en sommant, on contredit la loi des cycles (rappelons que la loi des cycles est
vérifiée même en les cycles qui comprennent a ou z). Donc f = 0 et θ = I.
40 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

3.4 Résistance équivalente


Définition 3.14 (Résistance équivalente). Soit un réseau {G, c} irréductible, et a, z ∈ V . Il
existe une unique extension harmonique W telle que W (a) = 1 et W (z) = 0. On appelle
résistance équivalente entre a et z le rapport :
1
R(a ↔ z) = ,
kIk
avec I le flot courant associé à la tension W . La conductance équivalente est définie comme
l’inverse de la résistance équivalente, par C(a ↔ z)R(a ↔ z) = 1.
Il est bien sûr possible de définir la résistance équivalente entre a et z sans préciser la valeur
de la tension en a et z.
Proposition 3.15. Soit un réseau {G, c} irréductible, et a, z ∈ V . Si W est harmonique sur
V \ {a, z}, et W (a) 6= W (z), alors

W (a) − W (z)
R(a ↔ z) = ,
kIk
avec I le flot courant associé à la tension W .
Démonstration. On pose
W (x) − W (z)
x 7→ W̄ (x) : =
W (a) − W (z)
et on note que la fonction W̄ ainsi définie est encore harmonique sur V \ {a, z}, avec les
conditions au bord W̄ (a) = 1 et W̄ (z) = 0 (c’est donc encore une tension, mais les valeurs aux
bornes sont différentes) donc, si I 0 désigne le flot courant associé à W 0 :
1
R(a ↔ z) =

1
=P ¯ ax)
I(
x:{a,x}∈E ~
1
=P
x:{a,x}∈E c(ax)W̄ (a) − W̄ (x)
1
=P W (a)−W (x)
x:{a,x}∈E c(ax) W (a)−W (z)
W (a) − W (z)
=P
x:{a,x}∈E c(ax)(W (a) − W (x))
W (a) − W (z)
=
kIk

L’interprétation est la suivante : si l’on remplace le réseau {G, c} entre a et z par une
seule arête, quelle résistance/conductance lui attribuer pour que, à tension fixée, l’intensité du
courant soit identique ou, à courant d’intensité fixée, la différence de tension entre a et z soit
identique : la réponse est dans les deux cas donnée par la résistance/conductance équivalente.
On en tire une représentation intéressante de la conductance équivalente qui fait apparaı̂tre
Pa (τz < τa+ ) comme le facteur d’amortissement entre c(a) et C(a ↔ z). Notons qu’on pourrait
aussi bien prendre cette propriété comme définition.
3.4. RÉSISTANCE ÉQUIVALENTE 41

Proposition 3.16. Pour tout a, z ∈ V ,


C(a ↔ z) = c(a)Pa (τz < τa+ )
En particulier,
0 ≤ C(a ↔ z) ≤ c(a).
On tire de cette proposition (par exemple) la linéarité des conductances équivalentes en les
conductances : si l’on multiplie toutes les conductances des arêtes c(e) par un même facteur,
alors pour tout a ∈ V , c(a) est multiplié par ce même facteur tandis les probabilités de transition
restent inchangées.
Aussi, puisque C(a ↔ z) est une fonction symétrique de a et de z, on peut compléter la
second inégalité par C(a ↔ z) ≤ c(z). Ces deux inégalités peuvent être vues comme un cas
particulier très simple de l’inégalité de Nash-Williams à venir, proposition 3.25.
Démonstration. Il suit du lemme 3.7 que
X
Pa {τz < τa+ } = P (a, x)Px {τz < τa }
x,{a,x}∈E
X c(a, x) W (a) − W (x)
=
c(a) W (a) − W (z)
x,{a,x}∈E
X I(ax)
~
=
c(a)(W (a) − W (z))
x,{a,x}∈E

kIk
=
c(a)(W (a) − W (z))
C(a ↔ z)
= par la définition 3.14
c(a)

Proposition 3.17 (Fonction de Green et résistance équivalente). Pour tout a 6= z ∈ V , la


résistance équivalente admet l’expression suivante en fonction de la fonction de de Green :
Gτz (a, a) = c(a)R(a ↔ z)
Démonstration. POn rappelle (voir Lemme 5.8) que pour toute variable aléatoire N à valeurs
dans N, E[N ] = ∞ t=0 P(N > t). On a donc
" #
X
Gτz (a, a) = Ea 1{Xs =a,s<τz }
s≥0
+∞
!
X X
= Pa 1{Xs =a,s<τz } > t
t=0 s≥0
+∞
X
= Pa (τa+ < τz )t par la propriété de Markov forte
t=0
1
=
1 − Pa (τz > τa+ )
1
=
Pa (τz ≤ τa+ )
1
=
Pa (τz < τa+ )
= c(a)R(a ↔ z) par la Proposition 3.16
42 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

On a alors une deuxième interprétation probabiliste des tensions.

Proposition 3.18 (Fonction de Green comme tension). Pour tout a, z ∈ V , l’application

Gτz (a, x)
x 7→
c(x)

est une tension, et c’est l’unique tension associée à un courant unitaire, nul en z.

Démonstration. Par réversibilité, le poids π(a)P (a, x1 )P (x1 , x2 ) . . . P (xt−1 , x) de chaque trajec-
toire de a à x en t temps pas qui ne rencontre pas z et égal au poids de la trajectoire renversée
en temps π(x)P (x, xt−1 )P (x1 , x2 ) . . . P (x1 , a) et sommant sur toutes ces trajectoires on obtient
alors
π(a)Pa (Xt = x, t < τz ) = π(x)Px (Xt = a, t < τz ) :
Maintenant, π étant proportionnel à c, si l’on fait la somme sur t on obtient :

Gτz (a, x) Gτ (x, a)


= z ·
c(x) c(a)
P
Maintenant, Gτz (x, a) = t≥0 Px (Xt = a, t < τz ) est harmonique en tout point x distinct de a,
puisque :
X
Gτz (x, a) = Px (Xt = a, t < τz )
t≥0
XX
= P (x, y)Py (Xt = a, t < τz ) car x 6= a
t≥0 y
X X
= P (x, y) Py (Xt = a, t < τz )
y t≥0
X
= P (x, y)Gτz (y, a)
y

Maintenant, on sait de plus que la tension en a vaut R(a ↔ z) du lemme 3.17. Il en découle
que I = R(a ↔ z). L’unicité est conséquence du principe de Dirichlet.

3.5 Temps de transport


Il est temps de tirer les fruits de l’introduction de la résistance équivalente. On rappelle que
θ désigne l’opérateur de translation en temps, défini en 2.8.

Définition 3.19. Soit a, b ∈ V et (Xt )t∈N ∈ V N une trajectoire issue de a. On note τb,a la
variable aléatoire :

τb,a : = min{t ≥ τb , Xt = a} = min{t ∈ N|∃s < t, Xs = b, Xt = a} = τa ◦ θτb + τb .

où l’on rappelle la convention que le minimum d’un ensemble vide est égal à +∞ On note ta↔b
et on appelle temps de transport entre a et b :

ta↔b : = Ea [τb,a ].
3.6. ÉNERGIE 43

On suppose maintenant (Xt )t∈N marche aléatoire sur un réseau fini irréductible. Ainsi le
temps de transport est le temps espéré, partant de a, pour revenir en a après avoir visité b (ce
qui correspond bien au temps de transport quotidien si a=”maison” et b=”bureau”). Notons
que la propriété de Markov forte implique :

Ea [τb,a ] = Ea [τa ◦ θτb + τb ] = Ea [τa ◦ θτb ] + Ea [τb ]

Mais
X
Ea [τa ◦ θτb ] = Ea [τa ◦ θτb , τb = t] car Pa (τb < ∞) = 1
t∈N
X
= Ea [τa ◦ θt , τb = t]
t∈N
X
= Eb [τa ]Pa (τb = t) de la propriété de Markov
t∈N
= Eb [τa ] car Pa (τb < ∞) = 1

et donc
ta↔b = Ea [τb ] + Eb [τa ]
est bien une expression symétrique en a et b, comme le laissait présager son écriture. L’identité
suivante sera notre outil principal pour évaluer des espérances de temps d’atteinte. Elle nécessite
le calcul préalable de la résistance équivalente et justifie au passage l’intérêt de cette notion.
Proposition 3.20 (Identité du temps de transport). Soit P irréductible réversible. Pour tout
a, b ∈ V ,
ta↔b = cG R(a ↔ b).
On se rappelle que cG défini en (3.2) comptabilise la somme des conductances des sommets
(la conductance d’une arête qui n’est pas une boucle est comptée deux fois dans cette somme).
Nous verrons en TD que cette identité fondamentale combinée permet bien souvent de se passer
de la méthode à un pas (et de la résolution de la récurrence qui lui est souvent associée).
Démonstration. On note π la mesure par rapport à laquelle P est réversible. Par le théorème
du temps d’occupation de Aldous-Fill, Théorème 2.14, et l’unicité de la mesure stationnaire
sous l hypothèse d’irréductibilité, on a
Gτ (a, a) c(a)
P b,a = π(a) = .
x Gτb,a (a, x) cG
P P+∞ 
Ensuite, par définition, x Gτb,a (a, x) = Ea t=0 1{Xt ∈V,τb,a >t} = Ea [τb,a ] = ta↔b . De plus,
d’après la définition du temps d’arrêt τb,a , et une application de la proposition 3.17,

Gτb,a (a, a) = Gτb (a, a) = c(a)R(a ↔ b)

On obtient en remplaçant Gτa,b (a, a) et Gτa,b (a, V ) par leurs deux expressions l’identité du temps
de transport.

3.6 Énergie
Définition 3.21. Soit θ un flot sur {G, c}. On définit l’énergie du flot θ par
X
E(θ) = θ(e)2 r(e).
e∈E
44 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

Le principe variationnel suivant justifie l’introduction de l’énergie.


Theorème 3.22 (Principe de Thomson). Pour tout graphe fini connexe,

R(a ↔ z) = E(I) = inf{E(θ) : θ flot unitaire de a à z},

et la borne inférieure est atteinte en le seul flot courant unitaire I.


Ainsi donc, en principe, il suffit de calculer l’extension harmonique de la fonction de valeur
1 en a et 0 en z (c’est-à-dire la tension), de la normaliser, puis de calculer l’énergie du flot
associé. En pratique cependant, on ne calcule jamais une résistance équivalente de la sorte
( !), et l’intérêt de ce résultat réside dans les conséquences théoriques qu’on peut en tirer : le
principe de Thomson fournit des bornes supérieures sur la résistance équivalente (moyennant
la construction d’un ”bon” flot, ce qui, en pratique, nécessite déjà une bonne compréhension
du problème).
Il existe une version duale de ce principe où la conductance équivalente est exprimée comme
la solution d’un problème de minimisation (ce qui permet donc de calculer des bornes sup pour
la conductance équivalente, c’est-à-dire minorer la résistance équivalente.)
Démonstration. Comme l’ensemble des flot unitaires est un fermé borné de R|E| , c’est un com-
pact et il existe donc un flot θ qui minimise E. Il suffit de montrer que θ vérifie la loi des mailles
pour l’identifier avec le flot courant unitaire. P
ei − 1←
Soient e~1 , e~2 , . . . , e~n un cycle orienté. Soit γ défini par γ = i (1−
→ e−i ). Notons que γ
définit un flot.
Soit ε ∈ R, comme θ minimise E, on a
n
X
ei ) + ε)2 − θ(~
ei )2 r(~

0 ≤ E(θ + εγ) − E(θ) = (θ(~ ei )
i=1
n
X
= 2ε r(~ ei ) + O(ε2 ).
ei )θ(~
i=1

En divisant par ε > 0 et en faisant tendre ε vers 0, on obtient 0 ≤ ni=1Pr(~


P
ei )θ(~
ei ). De même,
n
en divisant par ε < 0 et en faisant tendre ε vers 0, on obtient 0 ≥ i=1 r(~ei )θ(~ei ). Donc,
P n
i=1 r(~
ei )θ(~
ei ) = 0, θ vérifie la loi des mailles. Il reste à montrer que E(I) = R(a ↔ z).

 2
X
2 1 XX W (x) − W (y)
E(I) = r(e)I(e) = r(x, y)
e
2 x y r(x, y)
1 XX
= c(x, y) (W (x) − W (y))2
2 x y
1 XX
= ~ (W (x) − W (y))
I(xy)
2 x y
X X
= W (x) I(xy)
~ car I est antisymétrique
x y
X X
= W (a) I(ay)
~ + W (z) I(zy)
~ par la loi des nœuds
y y

= kIk(W (a) − W (z))


= R(a ↔ z)
3.7. RÉDUCTION DE RÉSEAUX 45

Une autre conséquence clef du principe de Thomson est le :

Proposition 3.23 (Principe de monotonie de Rayleigh). Soient {r(e)} et {r0 (e)} deux en-
sembles de résistances sur les arêtes du même graphe G, et R(a ↔ z; r) et R(a ↔; r0 ) les
résistances équivalentes associées. Montrer que si, pour tout e, r(e) ≤ r0 (e), alors

R(a ↔ z; r) ≤ R(a ↔; r0 ).

Démonstration. On a, pour tout flot θ,


X X
r(e)θ(e)2 ≤ r0 (e)θ(e)2 .
e e

On minimise alors sur les flots θ unitaire pour conclure à l’aide du principe de Thomson.

Définition 3.24. On appelle ensemble d’arêtes séparateur entre a et z un ensemble d’arêtes


tel que tout chemin de a à z emprunte au moins une des arêtes de cet ensemble.

Proposition 3.25 (Borne inférieure de Nash-Williams). Soit I un ensemble (nécessairement


fini puisque E l’est) et {Πk }k∈I une famille d’ensembles séparateurs entre a et z deux à deux
disjoints, alors !−1
X X
R(x ↔ y) ≥ c(e) .
k∈I e∈Πk

Démonstration. Soit θ un flot unitaire de a à z. Alors, pour tout k ∈ I, l’inégalité de Cauchy-


Schwarz donne
!2 !2
X X Xp p X
c(e) · r(e)θ(e)2 ≥ c(e) r(e)|θ(e)| = |θ(e)| ≥ 1,
e∈Πk e∈Πk e∈Πk e∈Πk

(on pourra chercher comment justifier la dernière inégalité). Ainsi,


!−1
X XX X X
r(e)θ(e)2 ≥ r(e)θ(e)2 ≥ c(e) .
e k∈I e∈Πk k∈I e∈Πk

3.7 Réduction de réseaux


Le problème est le suivant : on dispose d’un réseau dont on veut calculer la résistance
équivalente. Pour le moment, nos moyens d’attaque sont maigres : on peut bien sûr calculer
la tension en les points voisins du point source a, c’est-à-dire la valeur du prolongement har-
monique W d’une fonction arbitraire définie en les points source et puits (avec des valeurs
distinctes) par la donnée de W (a) et W (z), puis calculer l’intensité du courant kIk = divI(a)
pour en déduire la résistance équivalente au moyen de la relation de définition.
Calculer les valeurs d’une extension harmonique est un problème cependant très difficile.
On se base donc sur une autre méthode appelée méthode de réduction du réseau. L’idée est de
simplifier successivement le réseau au moyen des trois règles suivantes :
1. ajout des résistances en série.
2. ajout des conductances en parallèle.
46 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)

3. transformation étoile-triangle
Le point crucial est que la résistance équivalente du réseau avant et après réduction est in-
changée. Maintenant, si le graphe associé au réseau est planaire (c’est-à-dire peut être dessiné
dans le plan sans que deux arêtes [pas forcément dessinées par des segments de droite] ne se
touchent sauf en leurs extremités), alors on est assuré que l’application de ces trois règles per-
met de réduire le réseau en une arête liant point source et point puits, soit le réseau le plus
simple possible : la résistance de cette seule arête est alors la résistance équivalente.
Nous détaillons maintenant trois transformations utiles, dont les deux premières ci-dessus
(nous ne ferons pas usage de la transformation étoile-triangle).
— Les résistances en série s’additionnent :
Si v est un sommet de degré 2 du graphe G, de voisins v1 et v2 , alors les arêtes {v1 , v}
et {v2 , v} peuvent être remplacées par une seule arête {v1 , v2 } de résistance

r({{v1 , v}) + r({v, v2 })

Une fois l’arête {v1 , v2 } affectée de cette nouvelle résistance, La fonction tension (res-
treinte aux sommets du nouveau réseau, c’est-à-dire V \ {v}) vérifie la loi d’Ohm et la loi
des cycles, c’est-à-dire que la fonction tension restreinte est la tension dans le nouveau
réseau ; on peut reformuler cet énoncé plus simplement en disant que la tension n’est
pas changée en les sommets non modifiés. Pour le courant associé, on voit que

I(v1~v2 ) = I(v~1 v) = I(vv


~ 2 ),

et les valeurs de I en les arêtes non modifiées est inchangé. En conséquence, la résistance
équivalente de l’ancien et du nouveau réseau sont identiques.
— Les conductances en parallèle s’additionnent :
Soit deux arêtes e1 et e2 , de conductances c(e1 ) et c(e2 ) qui partagent les mêmes extre-
mités v1 et v2 : e1 = e2 = {v1 , v2 }. Alors ces deux arêtes peuvent être remplacées par
une seule arête e de conductance

c(e) = c(e1 ) + c(e2 ).

A nouveau la fonction tension (cette fois-ci sans restriction) vérifie la loi d’Ohm et la
loi des cycles pour pour ces nouvelles conductances. Le courant associé vérifie : I(e) =
I(e1 ) + I(e2 ), et ses valeurs en les autres arêtes sont inchangées.
Comme précédemment, la résistance équivalente de l’ancien et du nouveau réseau sont
identiques.
— Identification de sommets :
L’opération consiste simplement à identifier deux sommets v1 et v2 en un seul sommet
v. En conséquence, les éventuelles arêtes qui existaient entre v1 et v2 deviennent des
boucles par exemple. Cette opération n’est pas neutre sur la tension et le courant dans
le réseau, à moins que la tension W (v1 ) et W (v2 ) en les deux sommets v1 et v2 ne soit
identique dans le réseau de départ : dans ce cas en effet, on peut vérifier que la tension
originale vérifie encore la loi d’Ohm et la loi des noeuds ; le courant associé est le même
que dans le réseau initial (notons aussi qu’aucun courant ne circulait dans l’arête {v1 , v2 }
dans le cas où W (v1 ) = W (v2 )).
NB : a priori on a défini un réseau à partir d’un graphe dont les arêtes sont des paires de
sommets, donc des arêtes simples : notre définition empêche la possibilité d’arêtes multiples
entre deux mêmes sommets, en conséquence l’entrée ci-dessus au sujet des conductances en
parallèle semble donc vide. C’est sans compter que la troisième entrée au sujet de l’identification
de sommets peut générer de tels graphes avec des arêtes multiplies, et nous fait donc sortir du
cadre des réseaux tels que définis ci-dessus.
3.8. EN CONCLUSION 47

3.8 En conclusion
Les réseaux, qui correspondent à la donnée d’un graphe et de conductances sur celui-ci,
fournissent une représentation commode des chaı̂nes de Markov réversibles. Sont associés aux
réseaux les quantités physiques de tension et d’intensité, et les résistances/conductances des
arêtes trouvent leur géneérlisation dans les notions de résistances/conductances équivalentes
entre sommets (ou sous-ensembles de sommets). La résistance équivalente est un invariant
essentiel du réseau et des deux sommets choisis ; son calcul est rendu possible par les méthodes
des réduction de réseau usuels vus en physique. L’étude de la résistance équivalence Zd en
restriction aux sommets de coordónnées toutes inférieures à n (une ”boı̂te”) permet d’avoir
une approche quantitative du thórème de Polya au sujet de la récurrence/transience de ces
réseaux. Surtout les bornes inférieures (Nash-Williams) et supérieures (Thomson) permettent
de comprendre si ces résultats sont sensibles aux déformations de ces réseaux. Les preuves
historiques du théorème de Polya reposent sur des calculs exacts très dépendant du choix
précis de ces réseaux.
48 CHAPITRE 3. RÉSEAUX ÉLECTRIQUES (A.K.A. CHAÎNES RÉVERSIBLES)
Chapitre 4

Temps d’atteinte et temps de


couverture

Pour une chaı̂ne irréductible à espace d’état fini, on sait que les temps d’atteinte sont finis
p.s., et même d’espérance finie. Après ces temps d’atteinte, une des quantités les plus naturelles
à considérer est le plus grand de ces temps d’atteinte, qui correspond aussi au premier instant
où l espace entier a été visité. Il porte le nom de temps de couverture.
On prendra soin de distinguer, parmi les quantités définie dans ce chapitre, les quantités
aléatoires des quantités déterministes. Dans la mesure du possible, on utilisera τ pour une
quantité aléatoire et t pour une quantité déterministe.
On travaille dans cette section avec une chaı̂ne (Xt )t∈N définie sur Ω. On consultera la
définition 2.16 si besoin pour la définition du temps d’atteinte d’un sommet.

Définition 4.1. On note thit et on appelle temps d’atteinte de la chaı̂ne (Xt )t∈N le temps
déterministe :
thit = max Ex [τy ].
x,y∈V

Définition 4.2. On note τcov et on appelle temps de couverture de la trajectoire (Xt )t∈N la
variable aléatoire
τcov = min{t ≥ 0, {Xs }0≤s≤t = V } = max τx .
x∈V

On note tcov et on appelle temps de couverture le temps déterministe :

tcov = max Ex [τcov ]


x∈V

Bien entendu une compréhension complète des variables aléatoires τcov (jusqu’aux fluctua-
tions) est plus informative que celle de tcov ; néanmoins, le calcul de tcov est un premier pas
important. Un premier lien simple entre thit et tcov est :

thit = max Ex [τy ] ≤ max Ex [τcov ] ≤ tcov . (4.1)


x,y∈V x∈V

4.1 Cas réversible.


Commençons par glâner quelques informations supplémentaires sur les temps d’atteinte.
Notre résultat principal à ce sujet, l’identité du temps de transport, met en jeu la somme
de deux termes, les temps d’atteinte espérés ; pour connaı̂tre chacun de ces deux termes, on
a besoin d’une information supplémentaire. Un cas particulièrement pratique est celui où les
deux temps sont égaux. On aimerait formuler une condition sous laquelle ceci vaut.

49
50 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE

Notons tout d’abord que même dans le cas de marches réversibles, on ne peut espérer avoir
l’égalité Ea [τb ] = Eb [τa ] : il suffit en effet de considérer un graphe G connexe avec au moins
3 sommets, dont deux sommets a et b tels que a ait pour seul voisin b et des conductances
unitaires et sans boucle (par exemple). Alors 1 = Ea [τb ] < Eb [τa ].
En revanche, si l’on démarre la chaı̂ne sous sa mesure stationnaire (par rapport à laquelle
elle est réversible), des propriétés intéressantes peuvent être énoncées en toute généralité.
On généralise la notion de temps d’atteinte définie en 2.16 à une suite finie de sommets :
Définition 4.3. Soit x1 , . . . , x` ∈ V ` . On note τx1 ,...,x` et on appelle temps d’atteinte de
x1 , . . . , x` (dans cet ordre) le temps aléatoire :
τx1 ,...,x` = min{t` ∈ N : ∃0 ≤ t1 < t2 < . . . < t` , (i ∈ {1, . . . , `} ⇒ Xti = xi )}
Ayant défini le temps d’atteinte d’un sommet, on aurait aussi pu adopter la définition
récursive suivante, à l’aide de l’opérateur θ de translation en temps défini en 2.8 :
τx1 ,...,x` = τx1 + θτx1 ◦ τx2 ,...,x` et τx = min{t ∈ N, Xt = x}
Il s’agit du premier instant où x1 , x2 , . . . , x` ont été visités dans cet ordre par la trajectoire.
(Noter qu’on a droit aux répétitions parmi les xi .) Par exemple, τabc (cbbaccbacb...) = 8 (le
c souligné apparaı̂t en neuvième position, mais on initialise le compteur à 0). Une propriété
importante des marches aléatoires sur réseau est la suivante
Proposition 4.4. Soit un réseau transitif {G, c}, soit x1 , . . . , x` ∈ V ` , et soit (Xt )t∈N la marche
aléatoire associée. On a l’identité
Eπ [τx1 ,...,x` ] = Eπ [τx` ,...,x1 ].
On en déduit immédiatement l’identité suivante, pour les cycles.
Corollaire 4.5 (Lemme cyclique). Sous les hypothèses précédentes, et si de plus x1 = x` ,
c’est-à-dire si la suite de sommets forme un cycle alors :
Ex1 [τx2 ,...,x` ] = Ex` [τx`−1 ,...,x1 ].
Le Corollaire se déduit directement de la Proposition.
Démonstration du Corollaire. Il suffit d’observer que la Proposition 4.4 s’écrit aussi du fait de
la propriété de Markov forte :
Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]
ce qui implique, en soustrayant le premier terme de chaque membre (puisque x1 = x` ),
Ex1 [τx2 ,...,x` ] = Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ] = Ex` [τx`−1 ,...,x1 ]

Démonstration de la Proposition. On définit un ordre partiel sur l’ensemble des mots finis à
valeurs dans V : m  m0 si m est sous-mot de m0 , c’est-à-dire que m = (x1 . . . xk ) et m0 =
(x01 . . . x0k0 ) et il existe x0i0 = xπ(i) pour 1 ≤ i ≤ k et π strictement croissante. Notons maintenant
que, pour k ≥ ` − 1,
Pπ (τx1 ,...,x` ≤ k) =Pπ ((x1 , . . . , x` )  (X0 , . . . , Xk ))
=Pπ ((x1 , . . . , x` )  (Xk , . . . , X0 )) par réversibilité
=Pπ ((x` , . . . , x1 )  (X0 , . . . , Xk )) par définition
=Pπ (τx` ,...,x1 ≤ k)
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)51

Il s’ensuit
X X
Eπ [τx1 ,...,x` ] = Pπ (τx1 ,...,x` ≥ k) = Pπ (τx` ,...,x1 ≥ k) = Eπ [τx` ,...,x1 ].
k≥1 k≥1

Pour se débarasser la mesure initiale stationnaire dans la Proposition 4.4, et pouvoir considérer
une mesure initiale arbitraire, une hypothèse supplémentaire est nécessaire. l’hypothèse de tran-
sitivité est une hypothèse de symétrie qui énonce que le graphe vu depuis n’importe lequel de
ses sommets est identique.

Définition 4.6. Un réseau est transitif si pour tout sommets (a, b) ∈ V 2 , il existe une bijection
φ : V → V telle que φ(a) = φ(b) et φ préserve les conductances :

c(φ(x), φ(y)) = c(x, y)

ayant étendu la conductance c à une application sur l’ensemble des paires de sommets (et non
les seules arêtes), en posant c(x, y) = ∞ si {x, y} ∈
/ E.

Corollaire 4.7. Sous les hypothèses de la Proposition 4.4, et si de plus le réseau {G, c} est
transitif, alors on a l’identité :

Ex1 [τx2 ,...,x` ] = Ex` [τx`−1 ,...,x1 ].

Démonstration. La proposition 4.4 s’écrit aussi :

Eπ [τx1 ] + Ex1 [τx2 ] + . . . + Ex`−1 [τx` ] = Eπ [τx` ] + Ex` [τx`−1 ] + . . . + Ex2 [τx1 ]

Mais puisque le réseau est transitif, on sait que

Eπ [τx1 ] = Eπ [τx` ].

(décomposer selon π si besoin). La différence des deux égalités précédentes fournit le résultat
cherché.

Un corollaire immédiat est le suivant :

Corollaire 4.8. Soit un réseau transitif irréductible {G, c}, et a, b ∈ V , et (Xt )t∈N la marche
aléatoire associée. On a l’identité
Ea [τb,a ] cG R(a ↔ b)
Ea [τb ] = = .
2 2

4.2 Borne de Matthews (de l’aléa pour construire une


borne supérieure)
On peut compléter la borne inférieure sur tcov par une borne supérieure.

Theorème 4.9 (Borne supérieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω de
cardinal n. Alors  
1 1
tcov ≤ thit 1 + + · · · + .
2 n
52 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE

Démonstration. Soit σ une permutation uniforme de Ω, indépendante de la chaı̂ne de Markov


(Xt )t∈N . On note Tk le premier instant où les états σ(1), σ(2), . . . , σ(k) ont été visités et Lk =
XTk le dernier de ces états à avoir été visité. On remarque

n
X
Ex [τcov ] = Ex [Tn ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2

Il est clair que

X X 1 X1
Ex [T1 ] = Ex [T1 | σ(1) = y] P(σ(1) = y) = Ex [τy ] ≤ thit = thit
y x
n y
n

Puis, notant que Ti − Ti−1 est non nul ssi σ(i) est le dernier des sommets visités parmi
σ(1), σ(2), . . . , σ(i), événement dont la probabilité s’évalue à 1i par échangeabilité, on a :

Ex [Ti ] − Ex [Ti−1 ] = Ex [Ti − Ti−1 ]


= Ex [τσ(i) ◦ θTi−1 1{τσ(i) >maxj≤i−1 τσ(j) }] de la propriété de Markov forte
= Ex [EXTi−1 [τσ(i) ]1{τσ(i) >maxj≤i−1 τσ(j) }]
≤ Ex [thit 1{τσ(i) >maxj≤i−1 τσ(j) } ]
≤ thit Px (τσ(i) > max τσ(j) )
j≤i−1
1
= thit
i

On conclut en sommant les inégalités obtenues.

Il est utile de se demander dans quels cas la borne a des chances d’être précise. On note
ensuite qu’une simple adaptation de la démonstration permet de donner un minorant de tcov
en fonction des quantités
tA
min : = min Ea [τb ] où A ⊂ Ω.
a,b∈A,a6=b

Theorème 4.10 (Borne inférieure de Matthews). Soit (Xt )t∈N une chaı̂ne de Markov sur Ω
de cardinal n. Alors  
A 1 1
tcov ≥ max tmin · 1 + + · · · + .
A⊂Ω 2 |A| − 1

Par rapport à la borne supérieure de Matthews, on notera que dans le membre de droite, le
dénominateur est A − 1 et non pas A. Surtout tA min remplace thit . Si tout choix de A donne une
borne inférieure, mais la qualité de la borne obtenue réside dans le choix du A.

Démonstration. Soit x ∈ A, et σ une permutation aléatoire uniforme de A \ {x}, indépendante


de la chaı̂ne de Markov. On note à nouveau Tk le premier instant où les états σ(1), σ(2), . . . , σ(k)
ont été visités et Lk = XTk le dernier des ces états à avoir été visité. On décompose

|A|−1
X
Ex [τcov ] ≥ Ex [TA ] = Ex [T1 ] + Ex [Ti − Ti−1 ].
i=2
4.2. BORNE DE MATTHEWS (DE L’ALÉA POUR CONSTRUIRE UNE BORNE SUPÉRIEURE)53

On a que :
Ex [Ti ] − Ex [Ti−1 ] = Ex [Ti − Ti−1 ]
= Ex [τσ(i) ◦ θTi−1 1{τσ(i) >maxj≤i−1 τσ(j) }] de la propriété de Markov forte
= Ex [EXTi−1 [τσ(i) ]1{τσ(i) >maxj≤i−1 τσ(j)} ]
≥ Ex [tA
min 1{τσ(i) >maxj≤i−1 τσ(j) } ]

≥ tA
min Px (τσ(i) > max τσ(j) )
j≤i−1
1
= thit
i

Regardons ce que donnent les bornes de Matthews sur l’exemple du tore de dimension 1.
Theorème 4.11 (Bornes de Matthews pour le temps de couverture du n-cycle). Le temps de
couverture du n-cycle vérifie
n2 n2
≤ tcov ≤ log(n)(1 + o(1)).
4 4
Démonstration. On prend pour A un ensemble composé de deux sommets opposés à distance
maximale. Les temps d’atteinte sont calculés en utilisant la formule du temps de transport et
le lemme concernant les graphes transitifs.
Les bornes précédentes sont données à titre d’exemple seulement, puisque dans ce cas précis
il est possible de faire un calcul exact : on montre qu’on se ramène à un problème de ruine du
joueur.
Theorème 4.12 (Temps de couverture exact du n-cycle). Le temps de couverture du tore du
n-cycle vérifie
n(n − 1)
tcov = ·
2
On voit donc que la borne inférieure était ici plus proche de la verité.
Démonstration. On appelle ”range” à l’instant t l’ensemble image {Xs , s ≤ t}. Notons que le
range forme un processus croissant pour l’inclusion, le cardinal du range a des incréments égaux
à 0 ou 1 á chaque instant. Lorsque la taille du range vaut k pour la première fois, alors le range
correspond à un intervalle de longueur k et la marche se trouve a l’une des extrémités de ce
range. Le temps d’attente du moment où le range vaudra k + 1 est alors le temps d’atteinte
de {0, k + 1} par la marche simple issue de 1, ce temps peut être évalué à l’aide du temps de
transport, il vaut
1 1 1
E[τ{0,k+1} ] = cG R(1 ↔ {0, k + 1}) = · 2(k + 1) · 1 =k
2 2 1+ k

Ainsi
X n(n − 1)
tcov = k= .
1≤k≤n−1
2

Un autre graphe très simple où le calcul du temps de recouvrement est possible est le graphe
complet (on a déjà étudié cette quantité en TD, sans mentionner alors qu’on calculait le temps
de recouvrement du graphe complet, saurez-vous retrouver cet exercice ?).
Le chapitre suivant, le dernier, est dévolu aux calculs nécessaires pour passer au tore de
dimension supérieure, nettement plus délicats que dans le cas 1 dimensionnel.
54 CHAPITRE 4. TEMPS D’ATTEINTE ET TEMPS DE COUVERTURE
Chapitre 5

Application : temps de couverture du


tore

Nous avons maintenant tous les éléments en place d’un point de vue théorique pour com-
prendre les temps de couverture du tore d-dimensionnels de côté n − 1, généralisation du
n-cycle en dimension d. Un obstacle de taille demeure néanmoins : des bornes quantitatives sur
les résistances entre deux points arbitraires de ces graphes. Nous calculons ici de telles bornes,
puis les estimées sur les temps d’atteinte et temps de couverture suivront. On notera que la
précision des estimées concernant les résistances conditionne la précision des résultats suivants.
Tout d’abord la définition de graphe induit.

Définition 5.1. Le graphe induit par G sur V 0 ⊂ V est le graphe G0 = (V 0 , E 0 ) avec E 0 = {e ∈


E : e = {x, y}, (x, y) ∈ V 2 }

Ainsi on ne conserve dans G0 que les arêtes dont les deux extrémités sont dans V 0 . Il peut
être utile d’attacher aux arêtes une grandeur scalaire.

Définition 5.2 (tore et cube d-dimensionnel). On appelle tore d-dimensionnel (de côté n−1) le
graphe d’ensemble de sommets V = {1, . . . , n}d où deux sommets x = (xi )1≤i≤d et y = (yi )1≤i≤d
sont adjacents ssi
X
|xi − yi | = 1 (5.1)
1≤i≤d

avec la différence calculée dans Z/nZ. On appelle cube d-dimensionnel (de côté n − 1) le graphe
induit par Zd sur l’ensemble de sommets {1, . . . , n}d .

Dans le cas du cube, la définition de l’ensemble des arêtes est donc analogue à 5.1 mais la
différence est prise dans Z est pas n’est pas prise dans Z/nZ. Si le tore d-dimensionnel est un
graphe transitif, ce n’est pas le cas du cube d-dimensionnel. Notre objectif est d’étudier le tore
mais nous aurons aussi besoin en chemin du cube.

Theorème 5.3 (Tores : temps d’atteinte). Soient x, y deux sommets du tore d-dimensionnel
à distance k ≥ 1 dans le tore de dimension d à nd points. Le temps d’atteinte τy satisfait la
propriété suivante : il existe des constantes 0 < cd ≤ Cd < +∞ telles que

c2 n2 log(k) ≤ Ex [τy ] ≤ C2 n2 log(k) si d = 2


d d
cd n ≤ Ex [τy ] ≤ Cd n si d ≥ 3.

On notera que l’estimée ne dépend pas de d dans le cas de la dimension d ≥ 3.

55
56 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE

Démonstration. L’identité du temps de transport dans le cas transitif assure que

2Ex [τy ] = Ex [τy ] + Ey [τx ] = cG R(x ↔ y) = 2dnd R(x ↔ y).

Pour une borne inférieure sur le résistance équivalente, on construit des cutsets d’arêtes deux
à deux disjoints pour isoler x de y. On rappelle que kxk∞ = max{|xi |, 1 ≤ i ≤ d} définit la
norme infinie.
Πj = {{v, w} ∈ V 2 , kv − xk∞ = j, kw − xk∞ = j + 1}.
Alors, pour 0 ≤ j ≤ ky − xk∞ − 1 ≤ k − 1, Πj est un cutset d’arêtes qui sépare x de y,
et qui est de cardinal 2d(2j + 1)d−1 . De plus, ces cutsets sont deux à deux disjoints, donc, par
Nash-Williams,
 −1
k−1
X X
R(x ↔ y) ≥  c(e)
j=0 e∈Πj
k−1
X 1

j=0
2d(2j + 1)d−1

 c2 log(k) si d = 2

cd si d ≥ 3.

Ainsi, on a finalement, pour des constantes c1 et cd différentes :



 c2 n2 log(k) si d = 2
Ex [τy ] ≥
cd nd si d ≥ 3.

La borne supérieure est plus délicate, elle nécessite la construction de flots, qui eux mêmes
nécessitent de comprendre l’urne de Polya tout d’abord 1

Proposition 5.4 (Urne de Polya à d couleurs). Soit une urne composée à l’instant t = 0 de
d boules, dont 1 boule de chacune des d couleurs possibles. À chaque instant t ≥ 1, on tire une
boule choisie uniformément au hasard dans l’urne à l’instant t − 1, qu’on replace dans l’urne
avec une boule de même couleur. La composition de l’urne forme alors une chaı̂ne de Markov
(Xt )t∈N = (Xt (i), 1 ≤ i ≤ d)t∈N à valeurs dans (N? )d , et pour chaque t ∈ N, la loi de Xt est
uniforme dans l’ensemble :
( )
X
(yi )1≤i≤d ∈ (N? )d : yi = d + t
1≤i≤d

t+d−1

et le cardinal de cet ensemble vaut d−1
.

Démonstration. La démonstration se fait par exemple par récurrence. La propriété vaut en


t = 0. On notera pour x ∈ (N? )d xi = (xij )1≤j≤d le vecteur xij = xj − 1{i} (j). On suppose que la

1. Cette méthode de preuve du théorème de Polya (qui concerne la récurrence/transience des graphes Zd )
au moyen d’urnes de Polya est relativement récente : voir David A. Levin and Yuval Peres. ”Pólya’s theorem
on random walks via Pólya’s urn.” The American Mathematical Monthly 117.3 (2010) : 220-231)
57

propriété vaut à l’instant t − 1 et on calcule comme suit :

d
X
P(Xt = x) = P(Xt−1 = xi , Xt = x)
i=1
d
X xi (i)
= P(Xt−1 = xi ) P i
i=1 j x (j)
d
1 X xi (i)
= t−1+d−1
 P i
d−1 i=1 j x (j)

(d − 1)!(t − 2)! t − 1
=
(t − 1 + d − 1)! t + d − 1
(d − 1)!(t − 1)!
=
(t + d − 1)!
 
t−1+d
=
d−1

Donc la propriété est vraie pour tout t ∈ N.

Noter que la démonstration par récurrence donne aussi la valeur du cardinal (on peut
néanmoins obtenir ceci de manière directe, en notant qu’à chaque d-uplet y est associé de façon
unique un chemin dit nord-est de (0, 0) à (d − 1, t) dans Z2 , c’est-à-dire un chemin de longueur
minimale d − 1 + t).
On propose dans le lemme suivant une borne supérieure sur la résistance entre des coins
opposés d’un cube d-dimensionnel (et non d’un tore). Ce graphe n’est plus transitif en particu-
lier.

Lemme 5.5. Soit le cube d-dimensionnel (de côté n−1), et notons 1 le sommet de coordonnées
(1, . . . , 1), et k · 1 celui de coordonnées (k, . . . , k). Soit k tel que kd < n − 1. Alors

2 log(k) si d = 2
R(1↔ k · 1) ≤
C̃d si d ≥ 3.

On notera l’hypothèse sur k dont a besoin dans la construction du flot.

Démonstration. On construit un flot unitaire θ de 1 à k · 1 sur ce graphe. Pour cela, on va


utiliser une urne de Polya (et le flot qui lui est naturellement associé P plus précisément). La
distance de 1 à n · 1 vaut (k − 1)d, et on considère l’hyperplan {x : xi = (k − 1)d/2}.
~ + ~ ~ (k−1)d/2 en posant
Posons : E` = {~e ∈ E, k~e− k1 − 1 = k~e+ k1 ≤ `}. On définit le flot sur E
!
[
θ(~e) = P ~e ∈ {Xt , Xt+1 } .
t≥0

Ensuite, la règle d’antisymétrie définit le flot sur les arêtes dirigées opposées. Enfin,

θ(k1 − ~e) = −θ(~e)


58 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE

plus la règle d’antisymétrie achèvent de définir le flot. Maintenant,


X
E(θ) = r(e)θ(e)2
e
n−2
X X
=2 θ(e)2
k=0 e={x,y}∈E
x à distance k de a
y à distance k+1 de a
n−2    −1 !2
X k+d−1 k+d−1
≤2 ·
k=0
d−1 d−1
n−2
X −1
k+d−1
≤2
k=0
d−1

2 log(n) si d = 2

C̃d si d ≥ 3.

x = (x1 , x2 , . . . , xd ) et y = (y1 , y2 , . . . , yd ) forment un pavé de dimension d tel que, pour


tout 1 ≥ i ≥ d, |yi − xi | ≥ k.
Pour tout 1 ≥ i ≥ d, il existe si tel que |yi − xi | = 2si ou 2si + 1 selon la parité de |yi − xi |.
Par l’inégalité triangulaire, on a

R(x ↔ y) ≤R((x1 , x2 , . . . , xd ) ↔ (y1 , x2 , . . . , xd ))


+ R((y1 , x2 , . . . , xd ) ↔ (y1 , y2 , . . . , xd ))
+ ...
+ R((y1 , y2 , . . . , xd ) ↔ (y1 , y2 , . . . , yd ))

Or, la résistance équivalente de deux points, qui sont dans le même hyperplan, à distance paire
valant 2s, est majorée, par l’inégalité triangulaire, par 2 fois la résistance équivalente entre les
deux extrémités d’un Gds .

Donc,
d
X
1 + 2R a ↔ z, où a et z sont les extrémités d’un Gdsi

R(x ↔ y) ≤
i=1
 P2
1 + 4 log(si ) si d = 2
≤ Pi=1 d
1 + 2C̃d si d ≥ 3.
 i=1
2(1 + 4 log(k + 1)) si d = 2

d(1 + 2C̃d ) si d ≥ 3.
 C
 22 log(k + 1) si d = 2

 Cd
d
si d ≥ 3.

Donc, si d = 2,
Ex [τy ] ≤ C2 n2 log(k + 1)
et si
Ex [τy ] ≤ Cd nd .

5.1. ANNEXE 59

Nous en venons finalement au théorème sur les temps de couverture du tore d-dimensionnel,
qui conclut ce cours.

Theorème 5.6 (Temps de couverture du tore d-dimensionnel). Le temps de couverture du tore


d-dimensionnel satisfait : il existe des constantes 0 < cd ≤ Cd < +∞ telles que
c2 2
n (log(n))2 (1 + o(1)) ≤ tcov ≤ 2C2 n2 (log(n))2 (1 + o(1)) si d = 2
2
cd dnd log(n)(1 + o(1)) ≤ tcov ≤ Cd dnd log(n)(1 + o(1)) si d ≥ 3.

Démonstration. Les bornes supérieures découlent directement de la borne supérieure de Mat-


thews, et des estimées sur les temps d’atteinte. Des précisions doivent en revanche être apportées
sur la borne inférieure : il s’agit de choisir un bon ensemble de sommets A d’après 4.10 et pour
d ≥ 3, on prend simplement pour A l’ensemble des sommets, A = V , et il suit :
 
A 1 1
tcov ≥ tmin 1 + + . . . +
2 |A| − 1
 
d 1 1
≥ cd n 1 + + . . . + d
2 n −1
d
≥ cd dn log(n)

Pour d = 2 maintenant, il existe des constantes 0 < c2 ≤ C2 < +∞ telles que pour x, y ∈ V , si
l’on note k = d(x, y), on a

c2 n2 log(k) ≤ Ex [τy ] ≤ C2 n2 log(k).

On doit être cette fois plus fin dans notre choix de A. Considérons d’abord le cas où n est un
carré
√ parfait, alors prenant pour A l’ensemble des sommets dont les coordoneées sont multiples
de n, on trouve :
 
A 1 1
tcov ≥ tmin 1 + + . . . +
2 |A| − 1

 
2 1 1
≥ c2 n log( n) 1 + + . . . +
2 n−1
c2 2
≥ n (log(n))2 (1 + o(1)).
2
Si n n’est pas un carré √
parfait, alors on observe
√ que le plus grand √
carré parfait inférieur
√ à
n est √minoré par n − 2 n : en effet m ≤ n < m + 1 implique n − 1 < m ≤ n et
n − 2 n + 1 < m2 ≤ n et le même résultat vaut donc.

5.1 Annexe
5.1.1 Vocabulaire des graphes
Un graphe simple, non-dirigé 2 G = (V, E) est la donnée d’un ensemble V et d’une partie
E des paires d’éléments de V . V est traditionnellement appeé l’ensemble des sommets et E
l’ensemble des arêtes. Une arête est génériquement notée {x, y}, avec x, y ∈ V , et l’ordre des
éléments de la paire n’a pas d’importance : {x, y} = {y, x} (une paire est un ensemble à deux
éléments) : le graphe est dit non-dirigé.
2. on dit aussi non-orienté, le mot dirigé est plus proche de l’anglais ”directed”
60 CHAPITRE 5. APPLICATION : TEMPS DE COUVERTURE DU TORE

Un arête du type {x, x} où x ∈ V est appelé une boucle. On précise en général au cas par
cas si on autorise ou non les boucles dans la définition d’un graphe.
Notons que la donnée de l’ensemble E des arêtes équivaut à la donnée d’une fonction ϕ de
l’ensemble des paires de sommets dans {0, 1} :
ϕ({x, y}) = 1E ({x, y})).
Si maintenant on autorise ϕ à prendre des valeurs entières (dans N) quelconques, alors on
définit la notion de graphe non-simple plus couramment appelé multigraphe : le ”multi” renvoie
au fait que les arêtes peuvent être multiples. La valeur de ϕ({x, y}) précise combien de fois
apparaı̂t l’arête {u, v}, et si ϕ({x, y}) ≥ 2, on dit que l’arête est une arête multiple. De façon
équivalente, on peut encore noter G = (V, E) un multigraphe, mais alors E est un ”multiset”,
c’est-à-dire un ensemble dans lequel on autorise les répétition, de paires d’éléments de V .
Une autre direction de gńéralisation de la notion de graphe simple non-dirigé est la suivante :
un graphe dirigé G = (V, E), ~ est la donnée d’un sous-ensemble E ~ du produit cartésien V × V
~ ∈E
d’arêtes dirigées, génériquement notées xy ~ si x, y ∈ V ; à la différence du cas non-dirigé,
on n’a plus cette fois xy ~ ∈ E~ sans pour autant avoir yx ~ ∈ E. ~ La matrice d’adjacence A =
(Ax,y )x,y∈V est alors définie par
Axy = 1xy∈E
~

On pourrait bien sûr définir une notion de multigraphe dirigé en ajoutant la donnée d’une
~ → N, mais nous n’aurons pas ici besoin de ces graphes.
fonction ϕ : E
La matrice d’adjacence A = (A(x, y))x,y∈V d’un graphe simple non-dirigé G = (V, E) est la
matrice symétrique indicée par les éléments de V × V :
A(x, y) = 1{x,y}∈E dans le cas non-dirigé, A(x, y) = 1x,y∈
~ E ~ dans le cas dirigé

Dans le cas où toutes les lignes de la matrice sont non nulles, on peut bien sûr normaliser
les
P lignes de cette matrice P de façon à en faire une matrice stochastique. On pose deg(x) =
1
y {x,y}∈E ou deg(x) = y 1x,y∈E
~ selon le cas de figure, puis :
1{x,y}∈E 1x,y∈
~ E ~
P (x, y) = dans le cas non-dirigé, P (x, y) = dans le cas dirigé
deg(x) deg(x)
Il s’agit de la matrice de transition de la marche aléatoire simple sur le graphe G.

5.1.2 Queue de distribution et espérance


Pour étudier les temps de retour et d’atteinte, rappelons quelques lemmes au sujet de
l’espérance de variables aléatoires.
Lemme 5.7 (Inégalité de Markov). Soit X une variable aléatoire positive ou nulle p.s., et
t > 0. Alors :
E[X]
P(X ≥ t) ≤
t
En particulier, si X est une variable aléatoire intégrable alors P(X < ∞) = 1.
Démonstration. En effet, soit X une variable aléatoire intégrable,
E[X] = E[X1X≥t ] ≥ E[t1X≥t ] = tP(N ≥ t)
ou l’on utilise de manière cruciale que X ≥ 0 p.s. pour l’inégalité. Maintenant :
E[X]
P(X = ∞) = P(∩s∈N? {X ≥ s}) ≤ P(X ≥ t) ≤
t
vaut pour tout t donc le terme à gauche est nul.
5.1. ANNEXE 61

Bien entendu, si X admet des moments d’ordre supérieur, c’est-à-dire si E[X p ] < ∞, alors
en remplaçant X par X p dans l’énoncé ci dessus, p > 1, on obtient des décroissances meilleures
de la queue de distribution, en t−p . Un autre lemme clef fait un lien exact entre espérance et
queue de distribution :

Lemme 5.8. Si N est une variable aléatoire à valeurs dans N∪{∞} p.s. (i.e. P(X ∈ N∪{∞}) =
1), alors :
X ∞ X∞
E[N ] = P(N ≥ t) = P(N > t)
t=1 t=0

On notera bien que l’égalité dans ce lemme est une égalité dans [0, ∞], c’est--̀dire que les
deux membres peuvent être simultanément égaux à +∞. On a pas besoin de vérifier qu’on a
affaire à des variables aléatoires finies avant d’utiliser ce lemme.
Démonstration. Pour tout n ∈ N, on peut écrire n = ∞
P P∞
t=1 1n≥t = t=0 1n>t . Il suffit alors de
prendre l’espérance des deux membres et d’utiliser Fubini-Tonnelli.

Vous aimerez peut-être aussi