Table Des Mati' Eres

Table des matières
1 Mise en scène 4
1.1 Probabilité et espérance conditionnelle par rapport à un événement . . . . . 4
1.2 Les lois de la probabilité et de l’espérance totale . . . . . . . . . . . . . . . . 4
1.3 Variables aléatoires discrètes, continues et hybrides, et transformations . . . 5
1.4 Couples aléatoires et vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . 8
1.5 La loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 V.a. i.i.d. (variables indépendantes, identiquement distribuées), sommes des
v.a. i.i.d. et sommes aléatoires des v.a. i.i.d. . . . . . . . . . . . . . . . . . . 12
1.7 Variables aléatoires – au sense de Kolmogorov . . . . . . . . . . . . . . . . . 15
1.8 Le paradoxe des anniversaires (*) . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Convergence des variables aléatoires 19

2.1 Convergence en loi des mesures . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Types de convergence des fonctions en analyse : presque partout, en moyenne,
et en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 La loi des grands nombres en moyenne quadratique . . . . . . . . . . . . . . 21
2.4 Detour d’analyse : la convergence dominée . . . . . . . . . . . . . . . . . . . 22
2.5 Théorème de limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6 Convergence presque partout et lemme de Borel-Cantelli . . . . . . . . . . . 25
2.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Esperance conditionnelle par rapport a des tribus et variables arbitraires 31
3.1 Conditionnement par une variable aléatoire discrète, ou par une partition au
plus dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Conditionnement par rapport à une tribu arbitraire . . . . . . . . . . . . . 35
3.3 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . 37
4 Processus et champs aléatoires, en temps discret et continu 39
4.1 Premiers exemples des processus stochastiques . . . . . . . . . . . . . . . . . 40
5 Introduction aux processus de Markov 41
5.1 Matrices de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Probabilités de transition après n étapes . . . . . . . . . . . . . . . . . . . . 43
5.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 L’évolution avec le temps de la loi de probabilité d’une chaı̂ne . . . . . . . . 45
5.5 Lois invariantes/stationnaires et lois limites/asymptotiques . . . . . . . . . . 47
1
5.6 Equations de stationnarité/invariance/équilibre global . . . . . . . . . . . . . 48
5.7 Un exemple de chaı̂ne reducible, avec plusieures classes de communication . . 50
5.8 Quelques exemples de modélisation par les chaı̂nes de Markov . . . . . . . . 53
5.9 Le paradoxe du singe savant . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.10 La dernière ampoule a s’éteindre, le coureur et la tortue, les statistiques
d’ordre, et la competition des exponentielles . . . . . . . . . . . . . . . . . . 58
5.11 Processus de Markov en temps continu(*) . . . . . . . . . . . . . . . . . . . 59
6 Chaı̂nes de Markov : approfondissement 60

6.1 La périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Ou on revoit les probabilités de premier passage intervenant dans le compor-
tement limite des chaı̂nes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2.1 Le cas purement absorbant : les probabilités d’absorbtion . . . . . . . 63
6.2.2 La distribution limite dans le cas faiblement ergodique . . . . . . . . 64
6.2.3 Echauffement pour le cas general . . . . . . . . . . . . . . . . . . . . 65
7 L’approche algébrique aux chaı̂nes de Markov 68
7.1 Demonstration algébrique du théorème ergodique, par la decomposition spec-
trale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2 Le calcul de la limite des matrice des transitions à la longue . . . . . . . . . 69
7.2.1 La structure probabiliste de la matrice de distributions a la longue . . 71
7.2.2 Le calcul de la distribution limite dans le cas général . . . . . . . . . 72
7.2.3 Le théorème de Perron-Frobenius . . . . . . . . . . . . . . . . . . . . 74
8 Problèmes de Dirichlet/premier passage/absorbtion pour les chaı̂nes et
processus de Markov 76
8.1 Les chaı̂nes de Markov absorbantes . . . . . . . . . . . . . . . . . . . . . . . 78
8.2 Les problèmes de Dirichlet/premier passage . . . . . . . . . . . . . . . . . . 78
8.3 La loi multivariée du temps de premier passage, et de la position finale . . . 79
8.4 Les espérances des lois de type phase . . . . . . . . . . . . . . . . . . . . . . 80
8.5 Exemples des distributions de type phase . . . . . . . . . . . . . . . . . . . . 82
8.6 Les probabilités d’absorbtion . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.7 L’opérateur associé à une chaı̂ne de Markov . . . . . . . . . . . . . . . . . . 84
9 Les marches aléatoires/sommes des variables i.i.d. au temps fixes 85

9.1 Marches aléatoires sur Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
9.2 Moments et cumulants des marches aléatoires . . . . . . . . . . . . . . . . . 86
10 Problèmes de premier passage des marches aléatoires et relations de
récurrence 88
10.1 La méthode du conditionnement sur le premier pas . . . . . . . . . . . . . . 88
10.2 La ruine du joueur pour la marche aléatoire simple . . . . . . . . . . . . . . 89
10.3 Problèmes de premier passage sur un intervalle semi-infini . . . . . . . . . . 94
10.4 Récurrences et équations differentielles linéaires . . . . . . . . . . . . . . . . 95
10.4.1 L’équation de récurrence linéaire à coefficients constants . . . . . . . 96
10.4.2 La méthode des fonctions génératrices(*) . . . . . . . . . . . . . . . . 98
10.5 Exercices d’entrainement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.6 Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2
10.7 Problèmes d’entrainement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
10.8 Contrôle continu 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11 Martingales 115
11.1 Le théorème d’arrêt des martingales . . . . . . . . . . . . . . . . . . . . . . . 117
11.2 ”La martingale interdite” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
11.3 Comment justifier l’application du théorème d’arrêt des martingales ? Exemples122
11.4 Comment démontrer qu’un temps d’arrêt T est fini p.s. . . . . . . . . . . . . 124
11.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
12 Exercices de révision 130
13 Examen de probabilités avancées 2012-2013 140
3
Chapitre 1
Mise en scène
1.1 Probabilité et espérance conditionnelle par rap-

port à un événement
Définition 1.1 Soit B un ensemble avec mesure positive dans un espace probabilisé (Ω, A, P ) .
a) Pour tout ensemble A on appelle probablite conditionnelle de A en sachant B la
fraction
P (A ∩ B)
P (A | B) =
P (B)
b) Pour toute variable aléatoire réelle intégrable X définie sur (Ω, A, P ) on appelle
espérance conditionnelle en sachant un ensemble B de mesure positive la moyenne pondere
∫ ∫
1 1
E (X | B) = X P (dw) = (X 11B )P (dw) (1.1)
P (B) B P (B)
L’idee de a) et b) est claire : on “jette” la partie de l’espace en dehors de B, en tenant

compte seulement de la partie contenue en B. Par conséquent, il faut ”normaliser l’espace”
en divisant par P (B).
Remarque 1.1 a) est un cas particulier de b), correspondant a une variable indicatrice
X(w) = 11A (w).
Les probabilités conditionnelles interviennent naturellement dans des nombreuses situa-

tions, comme par exemple dans le Texas Hold’Em Poker, ou les joueurs doivent estimer
des probabilités conditionnelles qui evoluent en temps, avec l’information fournie par les
nouveaux cartes montrées.
Elles sont souvent plus faciles a calculer que les probabilités nonconditionnelles, et
peuvent aider dans le calcul des dernières, par la methode du conditionnement.
1.2 Les lois de la probabilité et de l’espérance totale

L’espérance conditionnelle (et les probabilités conditionnelles) est un des outils les plus
puissants dans les probabilités, a travers la methode du conditionnement. L’idee de cette
mèthode est de decomposer l’espace probabiliste des “toutes les possibilites” dans des sous-
ensembles E1 , E2 , ...EI où le calcul des probabilités devient plus facil.
4
Si on sait quelles sont les probabilitées d’un evenement A dans toutes les cas possibles
E1 , E2 , ...EI d’ une partition finie de l’espace probabilisé Ω = E1 ∪E2 ..., alors on peut trouver
aussi la “probabilite totale” en appliquant la loi des probabilités totales :
∑ ∑
P (A) = P (A ∩ Ei ) = P (Ei ) P (A | Ei )
Pareillement, on a une loi des espérances totales :

∑ ∑
E (X) = E (X ∩ 1IEi ) = P (Ei ) E (X | Ei )
Exercice 1.1 Un marchand vend des articles dont 30 % proviennent d’un fournisseur B1
et 70% d’un fournisseur B2 ; 6 % de la production de B1 est dèfectueuse, contre 3% pour B2 .
a. Calculer la probabilitè qu’un article choisi au hasard soit dèfectueux (considèrer que
l’article a des probabilitè 0.3 et 0.7 de provenir de chacun des deux fournisseurs, ce qui vous
met sur la voix pour l’utilisation de la formule des probabilitès totales). b. (la loi de Bayes)
Sachant que l’article est dèfectueux, quelle est la probabilitè qu’il provienne de B1 ? de B2 ?
(R : .018
.039
.)
Exercice 1.2 On jete trois monnaies de 10c, 20c, et 50c respectivement. Soı̂t Y la somme
des monnaies tombées face. a) Quelle est l’espèrance de Y ? (40c) b) Quelle est l’espèrance
de Y , en sachant que le nombre N des monnaies tombées face est deux ? (160/3 = 53.33)
Exercice 1.3 Exe 1, poly Philippe-Viano.
1.3 Variables aléatoires discrètes, continues et hybrides,

et transformations
Définition 1.2 a) Une fonction F (x) qui est l’integrale d’une ”densité” f (x), i.e.
∫ x
F (x) = f (u)du
−∞
est appellée absolument continue.

b) Une variable aléatoire X ayant la fonction de répartition absolument continue
∫ x
FX (x) := P [X ≤ x] = fX (u)du
−∞
est appellée variable (absolument) continue .
Les exemples les plus importants des variables continues sont les variables uniformes,
Gaussiennes et exponentielles.
Exercice 1.4 Soit X une v.a. continue de loi uniforme sur [0, 1]. Déterminer les lois de
Zi = hi (x), i = 1, 2, où h1 (x) = 1 − x et h2 (x) = min(x, 1 − x).
Ind : Pour calculer P [Z = h(X) ≤ z] = P [x : H(x) ≤ z], tracer le graph de y = h(x),

de y = z, détérminer l’ensemble Az = [x : H(x) ≤ z], et sa probabilité.
5
Définition 1.3 Une variable aléatoire prenant un nombre au plus dénombrable des valeurs
xi s’apelle discrète.
Dans ce cas, la mesure µX (]a, b]) := FX (b) − FX (a) associé avec la variable est une
mesure de Dirac ∑
µX = pi δxi ,
i
avec (p1 , p2 , ...) un vecteur des probabilités.
Les exemples les plus importants des variables discrètes sont les variables binomiales,
géométriques et Poisson.
Exercice 1.5 Soit X une v.a. continue uniforme sur [0, 1] et p ∈]0, 1[.
1. Soit Y = 1I[X≤p] . Est-ce que la loi de Y est continue ?
Ind : Utiliser la méthode de l’exercice precedent, ou faire une ”simulation mentale” de
Y un grand nb. de fois, et deviner sa mesure.
2. Construire à l’aide de X une variable aléatoire Z prenant les valeurs a, b et c avec
probabilité p, q et r si p, q, r sont trois réels de [0, 1] tels que p + q + r = 1.
Donnez une formule pour Z, une pour sa mesure associée, et une pour la fonction de
répartition de Z.
1
Exercice 1.6 Soit X une variable qui suit la loi de Cauchy avec densité π(1+x 2 ) . Verifier
qu’il s’agı̂t d’une densité. Montrer que 1/X a la même loi que X. Déterminer la fonction de
répartition de T = max(X, 0) où . Est-ce que la v.a. T est continue (le cas échéant, donnez
sa densité) ?
∫Exercice
∞
1.7 Soit∫ X une variable continue positive. L’integration par parties EX =
∞
0
xf X (x)dx = 0 F̄X (x)dx − limx→∞ xF̄X (x) suggère l’existence d’une formule pour
l’espérance, à partir de la fonction de survie F̄X (x).
1. Proposer et démontrer un analogue de cette formule pour une variable discrète avec
valeurs X ∈ {0, 1, 2, ...}.
2. Démontrer une formule pour l’espérance d’une variable continue positive X, à partir
de sa fonction de survie F̄X (x).
R 1)∑ Le cas discret est simple, il s’agı̂t de changer l’ordre de sommation. On trouve :
EX = k≥1 P [X ≥ k].
2) Sur deuxième reflexion, ća marche egalement dans le cas (∫continu, )après avoir écrit
∫
l’espérance comme une integrale double E(X) = 0≤x f (x) 0≤u≤x du dx et appliqué
Fubini-Tonelli.
Remarque 1.2 Dans le cas continu, la formule de l’integration par parties suggère notre
nouvelle formule, mais ļa démonstration demande de considerer une limite qui n’est pas
immédiate. Par contre, le truc de passer a une integrale double et d’utiliser Fubini-Tonelli
rends le résultat immédiat.
Remarque 1.3 Cette formule est parfois – par exemple dans le cas des lois exponentielles et
géométrique – plus vite a appliquer que la formule classique (de conditionnement sur toutes
les valeurs possibles).
Exercice 1.8 Soit X une variable positive, et soit Xa = min[X, a].
6
1. Calculer F̄Xa (x) = P [Xa > x]. Donner une formule pour la mesure µXa (dx).
2. Calculer
∫∞ E[Xa ], par 1) la definition de l’espérance et 2) par la formule E[X] =
0
F̄X (x)dx.
Remarque 1.4 Xa est une variable aléatoire hybride/melangée (avec une partie discrète,
et une continue).
{
F̄X (x) 0 ≤ x < a
R : 1. F̄Xa (x) = ,
0 a≤x
µXa (dx) =∫ fX (x)1I{0≤x<a} dx + F̄X (a)δ
∫ aa (dx)
a
2. EXa = 0 xfX (x)dx + aF̄X (a) = 0 F̄X (x)dx.
Exercice 1.9∑Soit X une variable continue positive, Y une variable discrète positive indépendante,
avec L(Y ) = 2i=1 ci δai et soit Xa = min[X, Y ].
1. Calculer la fonction de survie F̄Xa (x) = P [Xa > x]. Donner une formule pour la mesure
µXa (dx).
2. Proposer une généralisation où Y est une variable discrète arbitraire.


F̄X (x) 0 ≤ x < a1
R : F̄Xa (x) = c2 F̄X (x) = F̄Y (a1 )F̄X (x) a1 ≤ x < a2


0 a2 ≤ x
µXa (dx) =
fX (x)1I{0≤x<a1 } dx + c2 fX (x)1I{a1 ≤x<a2 } dx + (1 − c2 )F̄X (a1 )δa1 (dx) + c2 F̄X (a2 )δa2 (dx)
Exercice 1.10 Calculer l’espérance de la mesure

1 1
µ(dx) = 1I{0≤x< 1 } dx + δ2 (dx) + δ5 (dx)
2 3 6
√
Exercice 1.11 Soit X de loi exponentielle, avec λ > 0. Quelle est la loi de Z = X?
Montrer que Y est de carré intégrable et calculer EZ, Var (Z)
Exercice 1.12 Soit X une v.a. suivant la loi exponentielle de paramètre λ > 0. Quelle est
la loi de la v.a. Y = 1 + ⌊X⌋ ? (⌊x⌋ désigne la partie entière de x).
Remarque 1.5 Classification des fonctions de répartition

Les va avec des fonctions de répartition continues (sans sauts) sont de deux types :
absolument continues (comme vu ci-dessus, pour les quelles la fonction de répartition F
est la primitive d’une autre fonction f de densité) et singuliers. Pour les deuxièmes, voir
”l’éscalier du diable”
http ://fr.wikipedia.org/wiki/Escalier de Cantor.
Exercice 1.13 Soit F une fonction de répartition absolument continue, et soit x un point
de continuité de f (x). Montrer que F est differentiable en x, et que
F ′ (x) = f (x)
7
1.4 Couples aléatoires et vecteurs aléatoires
Les probabilités deviennent plus intéressantes quand on a faire avec plusieures v.a., et le
cas le plus simple et celui des v.a. i.i.d., avec des probabilités (ou densités) conjointes qui sont
des produits des probabilités (ou densités) marginales. Rappelons aussi les probabilités (ou
densités) conditionnelles, définis comme quotients des probabilités conjointes et probabilités
marginales.
Exercice 1.14 On dispose d’un dé équilibré et d’une pièce de monnaie qui tombe sur pile
avec une probabilité p = 1/3. On lance le dé une fois puis on lance la pièce un nombre de
fois égal au chiffre obtenu avec le dé.
1. Si le dé est tombé sur le chiffre k, quelle est la probabilité de n’obtenir que des faces avec
la pièce ? D’obtenir au moins un pile ? (il s’agit donc de probabilités conditionnellement
au chiffre k obtenu avec le dé).
2. Utiliser la formule des probabilités totales pour déduire de a) la probabilité (non condi-
tionnelle) d’obtenir au moins un pile.
3. L’éspérance du nombre total des piles.
Exercice 1.15 Soit X, Y deux v.a. de Poisson independantes, des paramètres λ1 , λ2 .
1. Quelle est la loi de Z = X + Y ?
2. Pout tout entier n ≥ 0, déterminer la loi conditionelle de X sachant que Z = X + Y =
n.
3. Déterminer E (X | Z = n) , et E (X | Z) (”fonction de Doob”).
Quelques formules à rémarquer pour les variables continues

Dans le cas continu, la densité conditionnelle est défini par un analogue de la loi discrète
p (y,x)
pY /X (y/x) = Y,X
pX (x)
:
fY,X (y, x) fY,X (y, x)dxdy

fY /X (y/x) = ⇐⇒ fY /X (y/x)dy = (1.2)
fX (x) fX (x)dx
où la deuxiéme formule (evidemment correcte, mais inutile) a été rajouté pour rappeler que
les densités sont des taux plutôt que des probas. Cela demande un traitement théorique assez
difficile, comportant un passage limite dy → 0, qui est suggèré par la deuxiéme formule.
On utilisera souvent la decomposition ”chaı̂ne” des probabilités conjointes (ou ”loi des
probabilités composées”) :
fX,Y (x, y) = fX (x)fY /X (y/x) = fY (y)fX/Y (x/y) (1.3)
Aussi utile est la loi de Bayes pour les probabilités marginales :

∫ ∫
fY (y) = fX,Y (x, y)dx = fY /X (y/x)fX (x)dx (1.4)
x x
Exercice 1.16 Soit Z = (X, Y ) un couple aléatoire de densité donnée par fX,Y (x, y) =
ke−y si 0 < x < y et fX,Y (x, y) = 0 sinon.
1. Dessiner le domaine du plan sur lequel f n’est pas nulle. Calculer k.
2. Déterminer les densités marginales et conditionelles de X et Y. Ces variables sont-elles
indépendantes ?
8
3. Déterminer la loi de Y − X, puis celle de X/Y
R:
1. Soit T = {(x, y) : 0 ≤ x ≤ y}. k = ∫ 1
e−y dydx
=1
T
2.
( )( )
fX,Y (x, y) = e−y 1I{0≤x≤y} = e−x 1I{0≤x} e−(y−x) 1I{0≤y−x}
( )
( −y ) 1
= ye 1I{0≤y} 1I{0≤x≤y}
y
Donc, L(X) = Exp(1), L(Y − x|x) = Exp(1), L(Y ) = Γ(2, 1), L(X|y) = U nif [0, y]
3. L(Y − X) = Exp(1), L(X|Y ) = U nif [0, 1].
Exercice 1.17 Un point U est choisi uniformement sur [0, 1]. En suite, un point T est
choisi uniformement sur [0, U ].
1. Calculer la densité conjointe f (t, u) et dessiner le domaine du plan sur lequel elle n’est
pas nulle.
2. Quelle est la densité marginale de T et la probabilité que T > 1/2 ?
R. Dans cet exercice, l’espace des probabilités est le triangle {0 ≤ t ≤ u ≤ 1}, doté par
la mesure u1 dtdu. Utilisons la decomposition des probabilités marginales (1.4)
∫ 1 ∫ 1
1
fT (t) = fT /U =u (t, u)dtdu = 1It≤u du = log u|1t = − log t
u=0 u=0 u
∫1
De lors, P [T > 1/2] = 1 − log tdt = 12 (1 − Log2).
2
Une fois une loi marginale obtenue, ses espérances se calculent comme pour toutes les
lois. Rémarquer la loi ”chaı̂ne” pour les espérances :
∫ ∫ (∫ )
EY = yfX,Y (x, y)dxdy = yfY /X (y/x)dy fX (x)dx = E[E[Y /X]] (1.5)
x,y x y
Exercice 1.18 Couple aléatoire. Une étudiante donne rendez-vous à son ami entre 0 h.
et 1 h. On suppose qu’ils arrivent indépendamment et à des instants uniformément distribués
dans l’heure convenue. Les deux amis conviennent de n’attendre pas plus de 15 minutes (à
l’initiative du jeune homme, qui est habitué à la ponctualité douteuse de sa copine, mais
redoute sa susceptibilité). Soit X, Y les heures d’arrivée des deux copains, et A l’événement
que les deux se rencontrent.
1. Tracer graphiquement le domaine du plan où la densité conjointe fX,Y (x, y) est nonnule,
et le domaine du plan représentant l’événement A.
2. Quelle est la probabilité pour que les deux amis se rencontrent ?
3. Supposons que le jeune homme arrive à une heure donnée t. Quelle est la probabilité
qu’il rencontre sa copine ? Comment retrouver la réponse de la question précédente à
partir de ce nouveau résultat ?
R:
1. P [A] = P [|x − y|] ≤ 1/4] = 7
16
9


t + 1/4 t ≤ 1/4
2. P [A|X = t] = 1/2 1/4 ≤ t ≤ 3/4


5/4 − t t ≥ 3/4
∫1
P [A] = t=0 fX (t)P [A|X = t]dt.
Exercice 1.19 Soient X et Y deux v.a. indépendantes continues et positives, de densités
respectives p(x) et q(y).
∫z
1. Montrer que S = X +Y a une densité fS (z) = x=0 p(x)q(z − x)dx.
2. Qu’obtient-on si X et Y suivent la loi Exp(λ) ?
3. Qu’obtient-on si X et Y suivent respectivement les loi Exp(λ) et Exp(µ), λ ̸= µ ?
Exercice 1.20 Un système de trois composantes i.i.d. en parallèle, avec probabilité de fonc-
tionner p, fonctionne si au moins deux composantes fonctionnent. p est une variable de loi
uniforme U [0, 1]. Trouver la probabilité que le systême fonctionne.
Nous allons illustrer maintenant l’utilité de la loi des probabilités totales par un exemple
plus subtile.
Exemple en fiabilité : calcul des probabilités nonconditionnelles, par condi-
tionnement (”divide et impera”) Calculer la probabilité P [RF ] que le réseau suivant
fonctionne : (sans simplications algébriques !)
p p
p p
Figure 1.1 – p,r sont les probabilités que les composantes fonctionnent
Solution : (1 − r)(1 − (1 − p1 p3 )(1 − p2 p4 )) + r(1 − (1 − p1 )(1 − p2 ))(1 − (1 − p3 )(1 − p4 )).
1.5 La loi exponentielle

Théorème 1.1 La loi exponentielle et la propriété de ”manque de mémoire”
Soit X une variable aléatoire réelle positive. Alors, X suit une loi exponentielle si, et
seulement si la ”fonction de survie conditionelle” satisfait :
∀t, h ≥ 0 , P [X ≥ t + h | X ≥ t] = P [X ≥ h] ,
qu’on appelle la propriété de manque de mémoire.
Démonstration : Si X suit une loi exponentielle de paramètre λ > 0 alors pour tous
t, h ≥ 0 on a :
P ([X ≥ t + h] ∩ [X ≥ t]) P [X ≥ t + h]
P [X ≥ t + h | X ≥ t] = =
P [X ≥ t] P [X ≥ t]
F̄X (t + h) e−λ(t+h)
= = = e−λh = F̄X (h) = P [X ≥ h]
F̄X (t) e−λt
10
où F̄ = F̄X = 1 − FX .
Réciproquement , si on suppose que ∀t, h ≥ 0 , P [X − t ≥ h | X ≥ t] = P [X ≥ h] c’est-à-
dire :
∀t, h ≥ 0 , P [X ≥ t + h] = P [X ≥ t] P [X ≥ h] ,
alors la fonction de survie F̄ vérifie l’équation fonctionnelle
(∗∗) F̄ (t + h) = F̄ (t) F̄ (h) pour tous t, h ≥ 0
En prenant logarithmes, on trouve que la fonction f (x) = log(F̄ (x) vérifie l’équation
fonctionnelle
(∗∗) f (t + h) = f (t) + f (h) pour tous t, h ≥ 0
On utilise maintenant le résultat :
Théorème 1.2 Une fonction monotone f satisfaisant l’équation fonctionnelle
(∗∗) f (t + h) = f (t) + f (h) pour tous t, h ≥ 0
doit être linéaire, i.e.

f (t) = tf (1)
Remarque 1.6 Il suffit de supposer que la fonction f soit mesurable, mais alors le théorème
est beaucoup plus difficile à démontrer.
Démonstration : A partir de (∗∗) , on obtient que :

( m ) ( ( 1 ))m ( 1
)m m
∀m, n ∈ N , f = f = (f (1)) n = (f (1)) n
n n
Montrons que f (1) ̸= 0 : si f (1) = 0 alors d’après ce qui précède f est nulle sur Q+ ,
or on sait que pour tout réel x > 0 , il existe r dans Q+ tels que r ≤ x , comme f est
décroissante, on aura alors 0 ≤ f (x) ≤ f (r) = 0 donc f (x) = 0 et f = 0, ce qui est faux.
Par conséquent les fonctions f et x 7→ (f (1))x = ex ln f (1) coı̈ncident sur Q+ , comme ces
fonctions sont continues sur R+ , on peut alors affirmer que ∀x ≥ 0 , f (x) = ex ln f (1)
On sait que limx→+∞ f (x) = 1 − limx→+∞ FX (x) = 0 donc ln f (1) < 0 et on peut écrire
que
∀x ≥ 0 , FX (x) = 1 − e−λx avec λ = − ln f (1) > 0
et on en déduit que la loi de X est une loi exponentielle
La fonction
P [X ≤ t + h | X ≥ t] f (t) F̄ ′ (t)
λ(t) := lim = =−
h→0 h F̄ (t) F̄ (t)
appellée ”risque instantané” ou ”taux de hasard/mort” offre encore une charactérisation

importante d’une loi.
Exercice 1.21 Montrez que la seule loi avec un taux de hasard constant λ(t) = λ est la loi
exponentielle.
11
∫∞
Exercice 1.22 Montrez qu’à chaque fonction bornée λ : R+ − > R+ avec integrale 0 λ(u)du =
∫t
∞ on peut associer une loi de probabilité avec fonction de survie F̄ (t) = e− 0 λ(u)du et taux
de hasard λ(u).
Remarque 1.7 Le ”taux de hasard/mort” immédiat λ(0) coincide pour une variable positive
avec la densité f (0)
P [X < h|X ≥ 0] P [X < h] Fh

λ(0) = lim = lim = lim = f (0)
h→0 h h→0 h h→0 h
La formule correcte au premier ordre pour h très petit
Fh ≈ f (0)h
est souvent utilisée pour conditionner sur une arrivée en temps continu avant h. Pour une
variable exponentielle X à paramètre λ par exemple, on utilise souvent
Fh ≈ λh,
au lieu de la formule exacte Fh = 1 − e−λh .
1.6 V.a. i.i.d. (variables indépendantes, identiquement

distribuées), sommes des v.a. i.i.d. et sommes aléatoires
des v.a. i.i.d.
Exercice 1.23 Un examen se présente sous la forme d’un questionnaire à choix multiples
(Q.C.M.) comportant K = 20 questions. Pour chacune des questions, il est proposé 4
réponses dont une et une seule est bonne. Le correcteur compte 1 point pour une réponse juste
et 0 en cas de mauvaise réponse. Un candidat se présente en n’ayant appris rien. Il reçoit
une note N egale au nombre des questions auquelles il respond correctement (par chance).
1. Calculer l’espérance mathématique et la variance de N.
2. Déterminer la loi de sa note N .
3. (Sommes aléatoires) Répeter les mêmes questions, si K est une variable aleatoire
de loi de Poisson de paramètre λ = 20.
Exercice 1.24 Soient X et Y deux v.a. discrétes, indépendantes et positives, de pmf respec-
tives p(x) et q(y).
∑
1. Montrer que S = X +Y a une pmf pS (z) = zx=0 p(x)q(z − x).
2. Qu’obtient-on si X et Y suivent la loi géométrique p(k) = q(k) = (1 − p)pk , k ≥ 0 ?
Exercice 1.25 Soit X une variable de loi Poisson de paramètre Y, où Y est une variable
de loi exponentielle de paramètre λ. a) Trouver la loi de X.
b) Trouver la loi conditionelle L[Y |X = k].
∑
Exercice 1.26 Soit T = N i=1 Zi , où Zi sont des variables exponentielles i.i.d de paramètre
λ, et N est indépendante de Zi , avec P [N = k] = (1 − p)pk−1 , k = 1, 2, .... Détérminer la
fonction génératrice des moments de T, et sa fonction de survie.
∑∞
R : EesT = k=1 (1 − p)pk−1 ( 1+s/λ
1
)k = (1 − p)( 1+s/λ
1
) 1−p( 11
)
= 1−p
1−p+s/λ
= 1
1+s/(λ(1−p))
1+s/λ
12
Exercice 1.27 Soit S une variable binomiale avec paramètres N, p, où N, p peuvent-être
des variables alèatoires. Détérminer la loi de S, si
a) N est une variable de Poisson avec paramètre λ
b) N est une variable binomiale avec paramètres n, q
c) (*) p est une variable de loi U [0, 1].
R:
∑ k ∑∞
a) P [S = k] = ∞ (λ(1−p))n−k k
−λ λn
n=k e
n!
n! (n−k)!k!
pk (1 − p)n−k = e−λ (λp)
k! n=k (n−k)!
= e−λp (λp)
k!
ex:der Exercice 1.28 1. Montrer que
1 ∑ ∞
= (k + 1)xk ,
(1 − x)2 k=0
∑∞
si |x| ≤ 1, en differenciant 1
(1−x)1
= k=0 xk .
1 1
2. Calculer le developpement limité autour de x = 0 de , en differenciant =
∑∞ k (1−x)3 (1−x)1
k=0 x .
3. Pour n ∈ N et |x| ≤ 1, montrer que
∑∞ ( )
1 n+k k
= x ,
(1 − x)n+1 k=0
k
1
∑∞
en differenciant (1−x)1
= k=0 xk .
Exercice 1.29 Soit X, Y deux v.a. géométriques independantes de loi pk = (1 − p)pk , k =

0, 1, 2, ..., des paramètres p (X, Y comptent le nombre des jetés d’une monnaie jusqu’à la
première et deuxième pile, en excluant les piles).
1. Quelle est la loi de Z = X + Y ?
R : La fonc. gen. des probas de la v. géométrique est (1 − p)(1 + pz + p2 z 2 + pk z k ...) =
1−p
1−pz
. La fgp de la somme Z est
P (z) = (1−p)2 (1+pz+p2 z 2 +pk z k ...)(1+pz+p2 z 2 +pk z k ...) = (1−p)2 (1+2pz+3p2 z 2 +...,
par un calcul direct ou en appliquant le developpement limité de l’exercice 1.28 pre-

cedent.
Les probabilités d’une somme des deux v. géométriques sont :
P [Z = k] = (k + 1)(1 − p)2 pk , k = 0, 1, ...,
avec l’interpretaion qu’il faut choisir la place de la première parmi les k + 1 lancées
qui precedent la deuxième pile.
2. Pout tout entier n ≥ 0, déterminer la loi conditionelle de X sachant que Z = X + Y =
n.
3. Déterminer E (X | Z = n) et la fonction de Doob h(Z) = E (X | Z).
13
4. Calculer la loi (binomiale négative) d’une somme des r v.a. géométriques Yi indepen-
dantes, des paramètres p. Donner une interpretation combinatoire du résultat.
R : Nous allons effectivement redecouvrir ici l’expansion binomiale negative de Newton.
Començons par la fgp d’une somme des trois v. géométriques, qui est
P (z) = (1 − p)3 (1 + pz + p2 z 2 + pk z k ...)(1 + pz + p2 z 2 + pk z k ...)(1 + pz + p2 z 2 + pk z k ...)

= (1 − p)3 (1 + 3pz + 6p2 z 2 + 10p2 z 3 ...)
Les probabilités d’une somme des trois v. géométriques sont :

( )
(k + 1)(k + 2) k+2
P [Z = k] = (1 − p) p =
3 k
(1 − p)3 pk , k = 0, 1, 2, 3...,
2 2
en appliquant le developpement limité de l’exercice 1.28, ou par un calcul direct, ou

ck = (k+1)(k+2)
2
est obtenu en remarquant que les prémi’eres differences sont affines en
k, et les deuxièmes differences sont constantes, égales a 1. Par conséquant ck est un
polynôme de deuxième degrée en k, et les valeurs initiales c0 = 1, c1 = 3 nous donnent
2 2
ck = k2 + a1 k + a0 = k +3k+2
2
(on peut aussi chercher 1, 3, 6, 10 avec http ://oeis.org/ ).
On peut deviner maintenant que les probabilités d’une somme des n v. géométriques
sont : ( )
n+k−1
P [Z = k] = (1 − p)n pk , k = 0, 1, ...
n−1
Une fois deviné, le resultat est evident, car c’est juste le nb. des possibilités pour choisir
n − 1 piles parmi les n − 1 + k résultats qui précédent la k-iême pile.
On aurait pu aussi prendre une voie directe, en suivant Newton, en se posant la question
si l’expansion binomiale valable pour des entiers naturels α :
( )
α 2 2
(1 − pz) = 1 − αpz +
α
p z − ...
2
tienne aussi pour des entiers negatifs. En effet, pour α = −1,
α(α − 1) 2 2
(1 − pz)−1 = 1 − (−1)pz + p z − ... = 1 + pz + p2 z 2 + ...
2
est juste la série géométrique, donc la formule tienne aussi dans ce cas, sauf que l’expansion
est infinie. A partir de α = −1, on demontre par récurrence, comme ci-dessus, que la
formule tienne pour k = −2, −3, .... Il s’avère que la formule binomiale gńéralisée de Newton
est valable pour chaque α ∈ C, si |pz| < 1. http ://en.wikipedia.org/wiki/Binomial series
Exercice 1.30 Soit S une variable binomiale negative avec paramètres N, p, i.e.
( )
r+k−1 r(k)
P [S = k|N = r] = (1 − p)r pk = (1 − p)r pk ,
k k!
où N est une variable alèatoire géométrique avec paramètre β, et r(k) := r(r + 1)...(r + k − 1).
Détérminer la loi de S.
14
1.7 Variables aléatoires – au sense de Kolmogorov
La loi d’une v.a. (variable aléatoire)=résultat d’un experiment aléatoire X (le vecteur
des probabilités dans le cas discret et la densité au cas continu) permet a priori de repondre
a toutes les questions concernant X.
De lors, les premiéres trois siecles de l’histoire des probabilites ont été concerné exclusi-
vement avec ce qu’on apelle aujourd’hui les lois des probabilité (géométrique, exponentielle,
etc). Il s’agissait de preciser une tabèle f (x) associant aux valeurs possibles x de la va-
riable des ”poids de probabilités” correspondants (alternativement, on donnait la fonction
de répartition cumulative F (x), la fonction de survie F̄ (x) = 1 − F (x), ou la fonction gene-
ratrice des moments/charactèristique).
Tout ça a changé quand Kolmogorov a remarqué que la description de la formule produi-
sant le résultat X à partir de ”l”ensemble mère Ω” des toutes les experiments(éventualités)
possibles produisant la variable X pourrait être utile en lui même parfois, et cette observa-
tion a changé le sense du concept d’une variable aleatoire. La definition moderne identifie
une variable aléatoire avec une fonction définie sur un ”ensemble mère” Ω (des toutes les
éventualités possibles), doté par une mesure mère” P .
Définition 1.4 Soient (Ω, F, P) un espace probabilisé et (V, V) un espace mesurable. On

appelle variable aléatoire de vers , toute fonction mesurable de Ω vers V .
La mesure de probabilité
PX (B) = P [X −1 (B)], ∀B ⊂ V,
appelée loi de probabilité de la variable aléatoire X, correspond a l’ancienne definition. Elle

est obtenue dans le nouveau cadre comme image, par l’application X, de la ”probabilité mère”
P définie sur Ω.
Pour V = R, B = (−∞, x], PX (b) = FX (x) coincide avec la fonction de répartition
cumulative classique § .
L’idée de la definition de Kolmogorov aurait pu venir de la simulation.

§. Idées : a. La théorie de l’integration au sense de Lebesgue d’une fonction f (x), f : A− > B suggère
qu’il vaut mieux se baser sur des ensembles simples I (intervalles, ...) dans l’ensemble des images B, en
faisant impasse sur leurs preimages potentiellement très compliquées en A.
Brèvement, l’idée de de l’integration au sense de Lebesgue est que l’essentiel se passe sur l’axe des y
(images).
b. La théorie des variables aléatoires avant Kolmogorov était formulée en termes des fonctions de
répartition cumulative F (y) : B− > R ( non-diminuantes, de saut total 1), définies sur l’espace des va-
leurs possibles B ⊂ R de la variable. Ces fonctions peuvent-être discretes, ∫ x avec support sur un ensemble
dénombrable des sauts, absolummment continues (satisfaisant F (x) = −∞ F ′ (u)du), ou des ”fonctions de
Cantor” (satisfaisant F ′ (x) = 0 p.s. et avec support sur un ensemble nondénombrable). Les trois cas, ainsi
que leur melanges, demandaient souvent des traitements differents.
Kolmogorov a réalisé que même que ”l’essentiel se passe toujours sur l’axe des valeurs y” il pourrait-être
utile de ”rajouter un espace d’états mère universel Ω
Les sous-ensembles B ⊂ R les plus importants sont les points avec mesure de l’image inverse positive
(les ”choc-chips”).
Dans l’ absence des ”choc-chips”, les sous-ensemble B le plus important est l’intervalle de support S
avec mesure inverse 1, qu’on peut décrire encore par une ”densité de mousse” f : S− > R.
Ces deux cas corespondent exactement aux lois (va aleatoires pre-Kolmogorov) discrètes et continues,
et une mousse avec choc-chips ajoutés corespondra aux lois mélangés.
c. En identifiant les va avec les fonctions sur un espace Ω de toutes les possibilités (un peu arbitraire,)
Kolmogorov a mis les probabilités sur la fondation rigoureuse de l’analyse, et a aussi une traitement unifié
des toutes les va, incluant même les variables de Cantor, ayant une densité avec support S de mesure 0.
15
Question 1 Soit Un la loi de la variable uniforme avec valeurs { n1 , n2 , ..., nk , ..., nn = 1}.
Comment simuler cette loi ?
R : Une possibilité est de prendre un nombre X de loi uniforme en [0, 1], et de le

remplacer avec le bout droit nk de l’interval qui le contient.
Cela raméne a considerer une fonction fn : [0, 1], − > R, fn (u) = ⌈nu⌉
n
.
On verifie facilement que la loi Pfn induite par la mesure de Lebesgue P sur [0, 1] est la
loi désirée Un .
Donc, la fonction fn est une possibilité pour definir une variable aléatoire ayant loi Un
(d’autres possibilités existent, evidemment). Pour être claire, il serait peut être mieux de
définir la v.a. au sense de Kolmogorov comme le triple Xn = ((Ω, F, P ), fn , Un ) mais la
pratique enracinée est d’utiliser la même notation pour notre triple Xn et pour la fonction
fn .
Exercice 1.31 Calculer l’espérance de la variable uniforme avec valeurs { n1 , n2 , ..., nk , ..., 1},
ainsi que sa transformée de Laplace et fonction génératrice des probabilités, à partir de
1. la loi induite Un
2. la mesure mère P .
Les avantages de la definition de Kolmogorov apparaitront plus tard dans l’étude des
ensemble infinies des v.a. (les processus stochastiques) § . Mais un premier avantage peut
être deja perçu en considerant la convergence ”en loi” des lois Un quand n → ∞ (vers la loi
uniforme sur [0, 1]). Même que cette exercice n’est pas difficile, il est encore plus facile de
verifier la convergence des fonctions de Kolmogorov
⌈nu⌉
lim fn (u) = lim =u
n→∞ n→∞ n
(et de remarquer que la fonction u induit la loi uniforme sur [0, 1]).
Finalement, l’avantage principal de la définition de Kolmogorov est d’assimiler les va-
riable aléatoires et les fonctions, qui sont les charactères principales de l’analyse. Depuis
Kolmogorov, les probabilités et l’analyse restent sur les mêmes fondations.
Exercice 1.32 1. Soit X une variable aléatoire de loi uniforme sur [0, 1]. Déterminer la
fonction de répartition de Y = −ln(1 − X).
2. Soit X une variable aléatoire de loi uniforme sur [0, 1]. Déterminer la fonction de
répartition de Y ∫= F −1 (X), oú F (y) est une fonction de répartition absolumment
y
continue F (y) = −∞ f (u)du arbitraire.
3. Montrer que la v.a. X = F∫ [Y ], où Y est une v.a. avec fonction de répartition abso-
y
lumment continue F (y) = −∞ f (u)du arbitraire, a une loi uniforme sur [0, 1].
4. Preciser un triple de Kolmogorov (méthode de simulation) ayant comme loi induite la
loi exponentielle.
5. Preciser un triple de Kolmogorov ayant comme loi induite une loi avec fonction de
répartition absolumment continue F (x) arbitraire.
§. Au lieu de décrire les processus par ”familles consistentes des lois jointes”, il est plus satisfaisant de
voir toutes ces lois comme images d’une seule probabilité mère.
16
6. Preciser un triple de Kolmogorov (méthode de simulation) ayant comme loi induite la
loi géométrique de paramètre p.
Ind : Considerer la fonction f : [0, 1]− > R, f (u) = ⌊−λ−1 ln(u)⌋ + 1.
P [f (u) = k] = P [k−1 ≤ −λ−1 ln(u) < k] = P [e−λ(k−1) ≥ u > e−λk ] = e−λ(k−1) −e−λk =
(e−λ )k−1 (1 − e−λ ).
1.8 Le paradoxe des anniversaires (*)

Exercice 1.33 Soit n le nombre des anniversaires possibles (sur la terre, n = 365). Un
nombre infini des personnes passent par une porte, un par un. Soit N le nombre des personnes
qui sont passés précedant la première coincidence d’anniversaires ; ainsi, N ∈ {1, ..., n} § .
a) Calculer P [N > k], P [N ≥ k], k = 1, 2, 3, ....
(n−1)(k)
R : P [N > k] = (1 − n1 )(1 − n2 )...(1 − nk ) = nk
= k = 1, 2, 3, ...n.
(n−1)(k−1)
P [N ≥ k] = P [N > k − 1] = nk−1 , k = 1, 2, 3, ...n
b) Calculer P [N = k], k = 1, 2, 3, ....
R : P [N = k] = P [N > k−1]−P [N ∑ > k], k = 2, 3, ...n, ∑
P [N = k] = 0, k = n+1, n+2, ....
c) Demontrer que ∀N ∈ N, E[N ] = ∞ k=0 P [N > k] = ∞
k=1 P [N ≥ k].
d) Calculer Qn := E[N ], dans notre exemple.
R:
∑
n
1 1 2 k 1 2 n−1
Qn = E[N ] = P [N ≥ k] = 1+(1− )+(1− )(1− )...(1− )+...(1− )(1− )...(1− )
k=1
n n n n n n n
Les premières valeurs sont Q1 = 1, Q2 = 32 , Q3 = 17

9
. Les prochaı̂nes valeurs sont
{ }
71 1569 899 355081 425331 16541017 5719087
, , , , , ,
32 625 324 117649 131072 4782969 1562500
Cf. Mathematica 5.2, il semble impossible de simplifier, ou de trouver une récurrence simple
satisfaite par cette suite. Par contre, il existe plusieures approximations asymptotiques, ob-
tenues souvent par des variations de la méthode de Laplace, qui donnent pour la valeur
1 + e365 ≈ 24, 6112 avec precision 10−4 !
Un peu d’histoire (*). Le premières résultats/questions sur l’approximation de la fonc-
tion de Ramanujan Qn (un cas particulier du taux de hasard Gamma) ont été implicitement
formulés comme ”exercices” par Ramanujan en 1911 et 1913 (première lettre à Hardy).
Ces exercices ont été resolus et peaufinés par Szegó, Watson (1928), Knuth (1962),
Flajolet et al (1992), et Jaansen, Leeuwaarden et Zwart (2007).
La fonction Qn donne aussi l’esperance du nombre d’essais N jusqu’a la repetition d’une
anniversaire, et le pb. d’approximer la mediane de N a été resolu par Brink (2012). Ce
dernier pb. date d’une observation de Davenport (1927), qui stipule que dans une classe de
23 etudiants, la probabilité d’avoir une coincidence d’anniversaires est plus grande que .5.
§. Voila aussi un autre scenario, ramenant à la même va : un pot contient n billets, numerotés 1, 2, ..., n.
On tire un billet et on le remet dans le pot. En suite un retire encore un, et ainsi de suite, en arretant au
premier moment quand un nombre deja tire reaparaı̂t. Soit N le nombre des billets vu précedant la première
reapparition.
17
L’interêt des probabilistes dans la fonction Qn de Ramanujan vient surtout du fait qu’elle
est intimement liée à la distribution de Poisson, car :
n−1
( n−1 )
−n n Q(n) −n n nn−2 nn−k
e =e + + ... + ... + 1 = P [P o(n) ≤ n − 1]
(n − 1)! (n − 1)! (n − 2)! (n − k)!
Rémarquons que
∫∞
P [P o(n) ≤ n − 1] γn (u)du xn−1
Q(n) = = n
, où γn (x) = e−x
P [P o(n) = n − 1] γn (n) Γ(n)
est precisement l’inverse du taux de hasard en n de la densité γn (x).

Le pb. plus générale d’approximer
( s ) ∫ ∞
−n n ns−1 ns−k us
P [P o(n) ≤ s] = e + + ... + ... + 1 = e−u du
s! (s − 1)! (s − k)! n s!
ou d’approximer
∫∞
P [P o(n) ≤ s] γs+1 (u)du
Qs (n) = = n
:= Bs−1 (n)
P [P o(n) = s] γs+1 (n)
est de grand interêt pratique dans la théorie des files d’attente, car Bs (n) represente la
probabilité de perte d’Erlang dans un systéme avec s serveurs et intensité des arrivées n.
La voie la plus simple pour obtenir de telles bornes passe par des representations inte-
grales. Par exemple, Ramanujan, voir aussi Flajolet et Sedgewick, pg 115, avait proposé
∫ ∞ √
−t πn 2
Qn = e (1 + t/n) dt ≈
n−1
+ + ...,
0 2 3
un cas particulier de ∫ ∞
Qn (s) = e−t (1 + t/n)s−1 dt ≈ ...
0
18
Chapitre 2
s:conv Convergence des variables aléatoires
2.1 Convergence en loi des mesures

Exercice 1 Soit Xn une v.a. de loi B(n, pn ). Si npn → λ > 0, alors Xn converge en loi vers
une v.a. X suivant une loi de Poisson P (λ).
Ind : Pour les v.a. discrètes, la convergence en loi est équivalente a la convergence des
probabilités pn (k) = P [Xn = k].
ex:key Exercice 2 Soit Xn une v.a. de loi uniforme sur i/n, i = 1, ..., n. Montrer que Xn converge
en loi vers X de loi uniforme sur [0, 1], par toutes les trois méthodes de démontrer conver-
gence en loi.
Exercice 3 Soit Xn une v.a. de loi géométrique de paramètre nλ . Alors Yn = Xn /n converge

en loi vers une v.a. X suivant une loi exponentielle Exp(λ), par toutes les trois méthodes de
démontrer convergence en loi.
Sol : a) F̄Yn (y) = P [Xn > yn] = (1 − nλ )⌈yn⌉−1 ≈ e− n (⌈yn⌉−1) → e−λy .

λ
∑ ∑
b) EesXn /n = ∞ k=1 e
sk/n
(1 − nλ )k−1 nλ = nλ ∞
k=0 (e
s/n
(1 − nλ ))k = nλ 1−es/n1(1− λ ) → 1
λ−s
, ∀s
∑⌈yn⌉ ∑ n
c) (*) On considère séparément k=0 et ∞ ⌈yn⌉ et on laisse y → ∞.
Exercice 4 Soit (Xn )n≥1 une suite de variables aléatoires indépendantes de loi uniforme
sur [0, 1] (i.e. fXn (x) = I[0,1] (x)). On pose Mn = max{X1 , . . . , Xn } pour n ≥ 1. Montrer que
L
n(1 − Mn ) −→ X et donner la fonction de répartition de X.
Généraliser pour Xn de loi arbitraire avec support [0, b].
Exercice 5 Soit (Xn )n≥1 une suite de variables aléatoires indépendantes de loi exponentielle
E(λ) où λ > 0 (i.e. fXn (x) = λe−λx I(x > 0)). On pose Mn = max{X1 , . . . , Xn } pour n ≥ 1.
a. Déterminer la fonction de répartition de Mn .
b. Montrer que
FMn −λ−1 log n (x)
convergent vers une fonction F (x), et verifier que F (x) est une fonction de répartition.
c. Généraliser pour le cas de Xn de loi arbitraire avec support [0, ∞), qui satisfont limx→∞ F̄ (x)
e−λx
=
k > 0.
19
Exercice 6 Soit (Xn )n≥1 une suite de variables aléatoires réelles de f.d.r. FXn définies par
{
0 si x < 0,
FXn (x) = x− sin(2πnx)
2πn
si x ∈ [0, 1],
1 si x > 1.
a. Montrer que pour tout n ≥ 1, Xn admet une densité fXn .

b. Montrer que Xn converge en loi vers une variable aléatoire X admettant une densité fX .
c. Montrer que (fXn )n≥1 ne converge pas vers fX (illustrant encore l’insuffisance des den-
sités pour décrire la convergence en loi).
∫x
Sol : a. FXn (x) = 0 (1 − cos(2πnu))du =⇒ fXn (x) = 1 − cos(2πnx)
b. limn→∞ FXn (x) = x, ∀x ∈ [0, 1]
2.0
1.5
1.0
0.5
0.2 0.4 0.6 0.8 1.0
Exercice 7 Est-ce que la convergence en loi implique toujours la convergence des :

1. moments ?
2. fonctions de répartition ?
3. fonctions génératrices des moments ?
4. fonctions charactèristiques ?
5. densités ?
2.2 Types de convergence des fonctions en analyse :

presque partout, en moyenne, et en probabilité
Exercice 8 Soit X une variable aléatoire de loi N (0, 1). Soit Xn = (−1)n X pour n ∈ N∗ .
a. Déterminer la loi de Xn .
b. Montrer que (Xn )n≥1 converge en loi.
c. Quid de la convergence en probabilité de (Xn )n≥1 ?
20
Exercice 9 L’inégalité de Markov. Soit X une variable aléatoire, définie sur un espace
probabilisé, prenant des valeurs positives X ∈ I ⊂ R+ p.s. Alors
EX
b ∈ I =⇒ P [X ≥ b] ≤
b
b) L’inégalité de Markov généralisé. Soit f : I− > R une fonction croissante et
positive. Alors,
Ef (X)
b ∈ I =⇒ P [X ≥ b] ≤
f (b)
c) L’inégalité de Bienaymé-Tchebychev. Soit une variable aléatoire d’espérance m
et de variance finie σ 2 (l’hypothèse de variance finie garantit l’existence de l’espérance).
Montrer que pour tout réel strictement positif
1
b > 0 =⇒ P [|X − m| ≥ kσ] ≤
k2
Exercice 10 Soit (Xn )n≥1 une suite de variables aléatoires.
a. Montrer que si la suite converge en moyenne quadratique vers une variable aléatoire X,
alors elle converge aussi en moyenne.
Ind : Utiliser l’inegalité de Cauchy-Schwartz E|X| ≤ [E(X 2 )]1/2 .
b. Montrer que si la suite converge en moyenne vers une variable aléatoire X, alors elle
converge aussi en probabilité.
Ind : Utiliser l’inegalité de Markov
c. Montrer que si la suite converge presque partout vers une variable aléatoire X, alors elle
converge aussi en probabilité.
Ind : Utiliser la convergence dominée.
Exercice 11 Montrer que la convergence en probabilité implique convergence en loi.
Ind : Soit Cn,ϵ = {|Xn − X| ≤ ϵ}, ∫ Dn,ϵ = {|Xn − X| > ϵ},∫ oú ϵ est tq P [Dn,ϵ ] ≤ δ,
et φ(x) = eitx . E|φ(Xn ) − φ(Xn )| = Cn,ϵ |φ(Xn ) − φ(X)|dP + Dn,ϵ |φ(Xn ) − φ(X)|dP ≤
∫
Cn,ϵ
|φ(Xn − X)|dP + 2δ. Sur Cn,ϵ , Xn − X est bornée. Utilisant le fait qu’une fonction
continue sur un interval borné est uniformement continue, on aurait pu choisir ϵ aussi tq
φ(z) ≤ ϵ, ∀z ∈ [0, ϵ]. Pour ce choix, E|φ(Xn ) − φ(Xn )| < 3δ → 0.
Exercice 12 Soit Xn : [0, 1]− > R, Xn (x) = ⌈nx⌉

n
Montrer que Xn converge pour chaque x
vers la variable X : [0, 1]− > R, X(x) = x de loi uniforme sur [0, 1]. Redémontrer ainsi la
convergence en loi de l’exo 2.
2.3 La loi des grands nombres en moyenne quadratique

La convergence la plus facile a démontrer (quand elle a lieu) est celle en moyenne qua-
dratique.
Exercice 13
a. Soit (Xn )n≥1 une suite de variables aléatoires telle que mn = E(Xn ) et σn2 = var(Xn ).
(2)
Montrer que si limn→+∞ mn = m et limn→+∞ σn = 0 alors Xn − m −→ 0 lorsque
n → +∞.
21
b. En déduire une preuve de la loi faible des grands nombres en moyenne quadratique pour
des variables aléatoires i.i.d. de variance finie.
c. En déduire une preuve de la loi faible des grands nombres en probabilité, pour des variables
aléatoires i.i.d. de variance finie, par l’inegalité de Bienaymé-Tchebychev.
Théorème 2.1 Soit X1 , X2 , . . . des variables aléatoires indépendantes identiquement dis-

tribuées et inrégrables d’espérance µ. Soit (Sn )n la suite des sommes partielles des (Xi )i .
Alors
n−1 Sn −→ µ p.s. et dans L1
Remarque 2.1 Cette ”loi forte” des grands nombres, au sense de convergence presque par-
tout et dans L1 , et sans supposer rien de plus que l’existence du premier moment, a une
demonstration très compliquée, obtenue par Kolmogorov. Une demonstration étonnement
courte est possible en utilisant un théorème de convergence des martingales.
2.4 Detour d’analyse : la convergence dominée

( )n
Exercice 14 Est-ce que la suite an = 1 + nx est monotone en n ? Calculer
∫ n(
x )n −2x
lim 1+ e dx.
n→+∞ 0 n
( ( ) x
)( )
n+x n
Sol : D[an , n] = log 1 + nx − 1+n x n
≥ 0, ∀x
n
Exercice 15 Soit (fn )n≥1 une suite de fonctions définies par fn (x) = n3/2 1+nx2 x2 sur [0, 1].
a. Etudier la convergence ponctuelle sur [0, 1] de (fn )n≥1 .
b. Etudier la convergence uniforme sur [0, 1] de (fn )n≥1 .
∫
c. Montrer que limn→+∞ [0,1] fn (x)dx = 0. Est-ce qu’il s’agı̂t d’une convergence monotone
des fn (x) ?
2.0
1.5
1.0
0.5
0.2 0.4 0.6 0.8 1.0
22
2.5 Théorème de limite centrale
Le théorème de limite centrale, le premier grand théorème des probabilités, concerne la
convergence en loi de la fonction de distribution Fn (x) d’une somme des v.a. Zi i.i.d., avec
Var Z = σ 2 :
∑n
i=1 (Zi − EZi )
(L)
lim = N(0,1) , (2.1)
n→∞ σn1/2
i.e.
∑n
i=1 (Zi − EZi )
P [S̃n ≤ x] → Φ(x), S̃n = ,
σn1/2
où Φ(x) est la fonction de répartition de la loi normale.
Ce théorème a une longue histoire, qui commence par le théorème De Moivre-Laplace
des convergence des sommes binomiales– voir
http ://w3.mi.parisdescartes.fr/smel/articles/ etoiles/cadre etoiles.html
La demonstration a pris des siècles, avant d’arriver à la forme fuselée d’aujourd’hui.
Question 2 Pourquoi la loi normale ?
Exercice 2.1 1. Montrer que la fonction génératrice des moments de la variable normale
est
2
EeuN0,v = evu /2 .
Remarquer le fait que la loi normale est characterisée
( uNpar) le fait que tous ses cumulants
(les coefficients du developpement limité de log Ee 0,v ) d’ordre plus grand que trois
sont nuls.
2. Calculer les premiers quatres moments de la loi normale directement par le developpe-
2
ment limité de la fonction génératrice des moments evu /2 , ou à partir des cumulants,
en utilisant les formules
m1 = κ1 , m2 = κ2 + κ21 , m3 = κ3 + 3κ1 κ2 + κ31 , m4 = κ4 + 4κ1 κ3 + 6κ1 κ22 + 3κ22 + κ41

κ3 = 2m1 3 − 3m2 m1 + m3 , κ4 = −6m1 4 + 12m2 m1 2 − 4m3 m1 − 3m2 2 + m4
(Ces formules sont obtenues par des developpements limités. En Mathematica par
exemple)
Series[Exp[κ1u + κ2 u2 /2 + κ3 u3 /6 + κ4 u4 /24], u, 0, 4]
Series[Log[1 + m1 u + m2 u2 /2 + m3 u3 /6 + m4 u4 /24], u, 0, 4]
Question 3 Comment démontrer le théorème de limite centrale ?
Une première idée vient de l’observation que la convergence du premier et du deuxième

moment sont assurée (avec egalité) par le centrage. Comme les premiers moments ne cha-
racterise pas la loi, il est naturel de considerer tous les moments.
Ça s’avère difficile -voir pourtant le prochaine exercice, et unnecessaire.
23
Exercice 2.2 1. Soit X, Y deux variables i.i.d. ayant des moments d’ordre k. Montrer
que
κk (X + Y ) = κk (X)κk (Y )
∑n
Soit Sn = i=1 Zi une somme des variables i.i.d. ayant des moments d’ordre k. Mon-
trer que
κk (Sn ) = nκk (Z1 )
2. Conclure que les variables Zi ayant tous les moments d’ordre k = 1, 2, ... obeissent le
théorème de limite centrale (2.1).
3. (*) Montrer directement la convergence des premiers quatre moments (ou cumulants)
d’une variable binomiale centrée vers ceux de la variable normale.
En conclusion, dans la presence de tous les moments de Zi , les cumulants et moments

de la somme centrée convergent vers ceux de la loi normale. Cela assure la convergence en
loi, et montre aussi que dans ce cas il n’y pas de convergence en moyenne quadratique : la
convergence en loi et la seule qui tienne.
Dans l’absence des moments au dela du deuxième, on est sauvé par une deuxième idée :
remplacer la convergence des moments par celle d’espérances d’autres ”fonctions test” φ(S̃n ).
Les premier candidates sont les fonctions φ(u) = eux , u ∈ C.
Mais, l’absence des moments de X va entraı̂ner le manque de differentiabilité de la
fonction EeuX autour de u = 0, et demande un travail trés precis d’analyse dans ce voisinage.
On est finalement sauvé par les fonctions charactéristiques ϕX (t) = EeitX , t ∈ R, qui sont
essentiellement des restrictions des fonctions génératrice des moments au sous-domaine u ∈
iR, ”où il est facile de les dominer”.
Il s’avère finalement que la convergence en loi est equivalente a celle des fonctions cha-
ractéristiques – c’est le résultat fondamental de ce domaine. L’exercice prochain sera utile
pour le developpement limité des fonctions charactéristiques qui offre la voie la plus simple
pour démontrer le théorème de limite centrale
ex:c Exercice 16 Montrer que
∏ ∏ ∑
1. |zi | ≤ 1, |wi | ≤ 1 =⇒ | i zi − i wi | ≤ i |zi − wi |
2. c > 0 =⇒ limn→∞ (1 − nc + o( n1 ))n − (1 − nc )n = 0, limn→∞ (1 − c
n
+ o( n1 ))n = e−c
Exercice 2.3 Démontrer le théorème de limite centrale en supposant que EZi3 < ∞.
R : Il suffit de supposer m1√= 0, c2 = 1. La convergence des fonctions charactéristiques

demande détudier limn→∞ φ(s/ n)n = (1 − 12 s2 /n +√hn )n . Pour obtenir la limite désirée,
|EeiZs/ n −1+ 1 s2 /n|
de démontrer que limn→∞ hnn = limn→∞
il suffit √ n
2
= limn→∞ |Er(Zs n
n )|
= 0 où
sn = s/ n, et r(s) = e − 1 − is + 2 s . Comme sn → 0, tout reste sur la disponibilité d’une
is 1 2
∫x 3 iu 3
borne convenable pour le reste du developpement limité |r3 (x)| = | 0 (x − u)2 i e2 du| ≤ x6 .
Remarque 2.2 On verra que l’hypothèse EZi3 n’est pas finalement necessaire pour le CLT,
car il existe une meilleure majorization de r(x) – voir Lemme 2.1.
l:fd Lemme 2.1 Montrer que
∫ 6 3 ∫
t2 t tx
|φX (t) − (1 + itEX − E(X )) ≤ t (
2 2
dFX (x) + x2 dFX (x)) = o(t2 )
2 − 6t 6 x∈[−
/ 6t , 6t ]
24
2 ∫x 3 iu 3
Ind : eix − (1 + ix − x2 ) = r(x) = 0 (x − u)2 i e2 du, |r(x)| ≤ min[x2 , x6 ] (admis)
Il suit que le premier integral dans la Lemme 2.1 converge vers 0 par convergence dominée
(par x2 ), et le deuxième integral converge vers 0 par l’existence du deuxième moment.
Remarque 2.3 En généralisant cet argument on trouve que dans la presence des n mo-
2 (it)n
ments, il suit que |φX (t) = (1 + itEX − t2 E(X 2 )... + (n−1)! E(X n )) + o(tn )
Exercice 17 Démontrer le théorème de limite centrale (2.1) de Lindeberg-Lévy pour sommes

des v.a. Zi i.i.d. avec Var Z = σ 2 < ∞, en utilisant les résultats auxiliaires du Lemme 2.1
et de l’exercice 16.
Exercice 18 Soit ϕX la fonction caractéristique d’une variable aléatoire réelle X. Montrer
que ϕX est uniformément continue sur R.
Ind : Rémarquer que |ϕX (t + h) − ϕX (t)| ≤ 2E|sin(hX/2)| ≤ hE|X|, ∀t, et par
conséquent le résultat est facile si E|X| < ∞. En général, il suffit d’utiliser le fait que
limh→0 E|sin(hX/2)| = 0, par convergence dominée.
2.6 Convergence presque partout et lemme de Borel-

Cantelli
Exercice 19 1. Soit Soit (Xn )n≥1 = 1IAn , où An sont des ensembles mesurables de l’es-
pace d’états [0, 1]. Soit pn = m(An ) ∈]0, 1[ pour n ≥ 1. Determiner une condition
necessaire et suffisante pour que Xn → 0 en probabilité.
2. Donner la loi de Xn et verifier directement que la même condition est necessaire et
suffisante pour que Xn → 0 en loi.
3. La condition obtenue garantit-elle la convergence presque sûre de (Xn )n≥1 vers 0 ?
Ind : Considérer le cas pn = n1 , avec les ”nuages” An adjacents et disjoints, et donner
la mesure de l’ensemble
{An i.s.} := ∩∞ ∞
n=1 ∪k=n An
où l’abbreviation i.s. est pour infiniment souvent.
4. Supposer maintenant que les variables aléatoires Xn sont aussi indépendantes. Donner
une condition necessaire et suffisante sur (pn )n≥1 pour avoir convergence presque sûre
p.s.
Xn −→ 0. ∏
Ind : On pourrait∑utiliser le fait qu’un produit converge dans le sens que limk→∞ ∞n=k (1−
pn )] = 1 ssi ssi ∞ p
n=1 n < ∞.
R : 2. Xn ∼ B(pn )
4. Soit An,ϵ = {Xn ≥ ϵ}. La condition necessaire et suffisante pour avoir convergence
1, ∀ϵ. Dans notre
presque sûre (en fait la définition) est P [{An,ϵ i.s.}] = 0 ⇐⇒ P [{Acn,ϵ p.t.}] =∏
exercice, An,ϵ = An , ∀ϵ < 1, ∑et P [{An p.t.}] = limk→∞ P [∩n=k An ] = limk→∞ ∞
c ∞ c
n=k (1−pn )] = 1
ssi le produit converge, ssi ∞ n=1 np < ∞.
Exercice 20 Démontrer les lemmes de Borel-Cantelli :

∑
a) P [An ] < ∞ =⇒ P [{An r.i.}] = P [∩∞ ∞
n=1 ∪k=n An ] = 0
n
⇐⇒ P [{Acn p.t.}] = P [∪∞ ∞
n=1 ∩k=n An ] = 1
c
Si An sont aussi indépendants, alors
25
∑
b) P [An ] < ∞ ⇐⇒ P [{An r.i.}] = P [∩∞ ∞
n=1 ∪k=n An ] = 0
n
⇐⇒ P [{Acn p.t.}] = P [∪∞ ∞
n=1 ∩k=n An ] = 1
c
∑
c) P [An ] = ∞ ⇐⇒ P [{An r.i.}] = P [∩∞ ∞
n=1 ∪k=n An ] = 1
n
⇐⇒ P [{Acn p.t.}] = P [∪∞ ∞
n=1 ∩k=n An ] = 0
c
Exercice 21 Soit (Xn )n≥1 une suite de vecteurs aléatoires à valeurs dans Rd .
a. Soit (Xn )n≥1 une suite de v.a. réelles i.i.d. telle que E(X1k ) = µk pour k = 1, 2.
Déterminer la limite presque sûre de
1 ∑( )2
n
Sn = Xi − X̄n .
n i=1
b. Soit (Xn )n≥1 une suite de v.a. réelles i.i.d. telle que E(X1k ) = µk pour k = 1, 2 et µ2 > 0.
Déterminer la limite presque sûre de
X1 + · · · + Xn
.
X12 + · · · + Xn2
p.s.
Ind : Si Xn −→ X où X est un vecteur aléatoire à valeur dans D ⊂ Rd et f : Rd → Rk
p.s.
est continue sur D, alors f (Xn ) −→ f (X).
Exercice 22 Soit (Xn )n≥1 une suite de variables aléatoires i.i.d. de loi U(0, 1).
P
a. Montrer que X(n) −→ X ∼ δ1 .
p.s.
b. Montrer que X(n) −→ X ∼ δ1 .
L
c. Montrer directement que X(n) −→ X ∼ δ1 .
Exercice 23 Soit (Xn )n≥1 une suite de variables aléatoires à valeurs dans {−1, 1} telle que
P (Xn = 1) = p ∈]0, 1[\{1/2}. On appelle marche aléatoire la ligne brisée reliant les points
(n, Sn )n≥0 où Sn = X0 + X1 + · · · + Xn avec X0 = 0 pour n ≥ 0.
a. Tracer les graphe de la marche aléatoire pour lorsque les 10 premières observées de
(Xn )n≥1 sont −1, −1, 1, 1, 1, −1, 1, −1, 1, 1.
b. On note An = {Sn = 0}. Calculer P (An ).
c. Montrer que la série de terme général P (An ) est convergente.
d. Montrer qu’avec probabilité 1, la marche aléatoire traverse l’axe des abscisses un nombre
fini de fois.
Exercice 24 Soit (Xn,1 , Xn,2 )n≥1 une suite de vecteurs aléatoires. Montrer qu’il y a équivalence
entre :
p.s.
(i) Xn,i −→ Xi pour i = 1, 2.
p.s.
(ii) (Xn,1 , Xn,2 ) −→ (X1 , X2 ).
26
2.7 Exercices
1. Soit (Xn )n≥1 une suite de variables aléatoires qui converge en probabilité vers une
variable aléatoire X.
a. Montrer que P (A\B) ≥ P (A) − P (B).
b. Montrer que pour ε > 0 on a
{X ≤ x − ε}\{|Xn − X| > ε} ⊂ {Xn ≤ x} ⊂ {X ≤ x + ε} ∪ {|Xn − X| > ε}.

L
c. Montrer que Xn −→ X.
2. Soit (Xn )n≥1 une suite de vecteurs aléatoires et X un vecteur aléatoire à valeurs dans
1/2
Rd muni de la norme euclidienne ∥x∥2 = (x21 + · · · + x2d ) .
a. Rappeler la définition de la convergence en probabilité de (Xn )n≥1 vers X.
b. Montrer que (Xn )n≥1 converge en probabilité vers X si et seulement si pour tout
k ∈ {1, . . . , d} la k-ième composante de (Xn )n≥1 converge vers la k-ième composante
de X.
c. Montrer le même résultat lorsque Rd est muni de la norme ∥x∥∞ = max1≤i≤d |xi |.
3. Soit (Xn )n≥1 une suite de variables aléatoires réelles indépendantes telle que pour n ≥ 1
Xn suit une loi exponentielle de paramètre λn = n.
a. Calculer la fonction de répartition (f.d.r.) de Yn = min{X1 , . . . , Xn } pour n ≥ 1.
Solution∑ : FYn (y) = P (Yn ≤ y) = 1−P (Yn > y) = 1−P (X1 > y; . . . ; Xn > y) = 1−
exp(−y nk=1 k) = 1 − exp(−yn(n + 1)/2) si y > 0 et 0 sinon. La quatrième égalité
résulte de l’indépendance des v.a. et de P (Xk > y) = exp(−λk y) = exp(−ky), la
cinquième de 1 + 2 + · · · + n = n(n + 1)/2.
L
b. Montrer qu’il existe une suite (αn )n≥1 telle que αn Yn −→ Y où l’on précisera les
valeurs des αn et la loi de Y . La suite (αn )n≥1 est-elle unique ?
Solution : FYn (2y/(n(n + 1))) = P (n(n + 1)Yn /2 ≤ y) = (1 − exp(−y))1{y>0} . Donc
L
pour αn = n(n + 1)/2 et Y ∼ E(1) on a Yn −→ Y . Le résultat de convergence reste
identique si l’on prend αn = n2 /2, donc le choix n’est pas unique.
P
c. Montrer que Yn −→ 0.
Solution : soit ε > 0. P (|Yn | > ε) = P (Yn > ε) = exp(−εn(n + 1)/2) → 0 lorsque
P
n → +∞, donc Xn −→ 0.
p.s.
d. Montrer que que Yn −→ ∑ 0. ∑ ∑
Solution : soit ε > 0. n≥1 P (|Yn | > ε) = n≥1 P (Yn > ε) = n≥1 exp(−εn(n +
∑ ∑ p.s.
1)/2) ≤ n≥1 exp(−εn/2) = n≥1 (exp(−ε/2))n < +∞, donc Xn −→ 0.
4. Soit (εn )n≥1 une suite de variables aléatoires indépendantes et identiquement dis-
tribuées de loi N (0, σ 2 ) où σ 2 > 0. Soit a ∈]0, 1[ et (Xn )n≥0 une suite de variables
aléatoires telle que X0 = x0 presque sûrement et Xn = aXn−1 + εn pour n ≥ 1.
a. Montrer que pour n ≥ 1
∑
n−1
n
Xn = a x 0 + ak εn−k .
k=0
27
Solution : Pour n = 1 on a X1 = ax0 + ε1 = aX ( 0n + ε1 .∑Supposons )la relation
vraie au rang n ≥ 1 alors Xn+1 = aXn + εn+1 = a a x0 + k=0 a εn−k + εn+1 =
n−1 k
∑ ∑ ′
an+1 x0 + n−1
∑ k=0 ak+1 εn+1−(k+1) +εn+1 = an+1 x0 + nk′ =1 ak εn+1−k′ +εn+1 = an+1 x0 +
n k′
k′ =0 a εn+1−k′ . Donc relation établie par récurrence.
L
b. Déterminer la loi de Xn et montrer que Xn −→ X où X ∼ N (0, σ 2 /(1 − a2 )).
Solution : Xn étant une combinaison linéaire de variables aléatoires normales
indépendantes, elle est normale de moyenne et variance : E(Xn ) = an x0 et
var(Xn ) = σ 2 (1 + a2 + · · · + a2(n−1) ) = σ 2 (1 − a2n )/(1 − a2 ). Donc si Φ est la
fdr d’une loi N (0, 1) on a pour tout x ∈ R
( ) ( √ )
x − an x0 x 1 − a2
P (Xn ≤ x) = Φ √ →Φ
σ (1 − a2n )/(1 − a2 ) σ
qui est la fdr de la loi N (0, σ 2 /(1 − a2 )).

c. On suppose maintenant que Xn = aXn−1 + b + εn pour n ≥ 1 où b ∈ R. Montrer
que (Xn )n≥0 converge en loi et déterminer sa loi asymptotique.
Solution : On établit par récurrence que
( ) ∑
n−1
n 1 − an
Xn = a x 0 + b + ak εn−k
1−a k=0
Xn étant une combinaison linéaire de variables aléatoires normales indépendantes,

elle est normale de moyenne et variance : E(Xn ) = an x0 + b(1 − an )/(1 − a) et
var(Xn ) = σ 2 (1 + a2 + · · · + a2(n−1) ) = σ 2 (1 − a2n )/(1 − a2 ). Donc si Φ est la fdr
d’une loi N (0, 1) on a pour tout x ∈ R
( ) ( √ )
x − a x0 − b(1 − a )(1 − a)
n n
(x − b/(1 − a)) 1 − a2
P (Xn ≤ x) = Φ √ →Φ
σ (1 − a2n )/(1 − a2 ) σ
qui est la fdr de la loi N (b/(1 − a), σ 2 /(1 − a2 )).
5. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes et identiquement dis-
tribuées suivant une loi de Poisson de paramètre λ > 0.
a. Calculer E[X1 ] puis E[X1 (X1 − 1)]. En déduire µ2 = E[X21 ].
∑ ∑
Solution : E[X1 ] = k≥0 k λk! e−λ = λ k≥1 (k−1)!
λk−1 −λ
e = λeλ e−λ = λ. De même on
k
∑ ∑
obtient E[X1 (X1 − 1)] = k≥0 k(k − 1) λk! e−λ = λ2 k≥2 (k−2)!
λk−2 −λ
e = λ2 eλ e−λ = λ2 ,
k
d’où µ2 = E[X21 ] = E[X1 (X1 − 1)] + E[X1 ] = λ2 + λ.

b. On admettra par la suite que var(X12 ) = 4λ3 +6λ2 +λ. On propose deux estimateurs
de µ2 :
1∑ 2
n
µ̂2 = X et µ̃2 = X̄n (X̄n + 1)
n i=1 i
∑
où X̄n = n−1 ni=1 Xi .
28
p.s. p.s.
(i) Montrer que µ̂2 −→ µ2 et µ̃2 −→ µ2 .
Solution : Comme les Xi2 sont i.i.d. et admettent une espérance mathématique
p.s.
égale à λ2 +λ on a µ̂2 −→ λ2 +λ = µ2 d’après la loi forte des grands nombres.
Comme les Xi sont i.i.d. et admettent une espérance mathématique égale à
p.s.
λ on a X̄n −→ λ d’après la loi forte des grands nombres. Or µ̃2 = g(X̄n )
où g : x 7→ x(x + 1) est continue sur R. Donc d’après le théorème des
p.s.
applications continues µ̃2 = g(X̄n ) −→ g(λ) = µ2 .
√ L
(ii) Montrer que n(µ̂2 − µ2 ) −→ X où l’on précisera la loi de X.
Solution : Les v.a. Xi2 étant i.i.d. et admettant une moyenne µ2 et une va-
riance 4λ3 + 6λ2 + λ une application directe du théorème de la limite centrale
donne √ L
n(µ̂2 − µ2 ) −→ X ∼ N (0, 4λ3 + 6λ2 + λ).
√ L
(iii) Montrer que n(X̄n − λ) −→ Y où l’on précisera la loi de Y .
Solution : Les v.a. Xi étant i.i.d. et admettant une moyenne λ et une variance
λ une application directe du théorème de la limite centrale donne
√ L
n(X̄n − λ) −→ Y ∼ N (0, λ).
√ L
(iv) Déduire de la question précédente que n(µ̃2 − µ2 ) −→ Z où l’on précisera
la loi de Z. √ √
Solution : remarquons que n(µ̃2 − µ2 ) = n(g(X̄n ) − g(λ)) où g est définie
√ L
par g(x) = x(x + 1) sur R. D’après la question (iii) n(X̄n − λ) −→ Y , de
plus g est continûment dérivable sur R, donc les hypothèses du théorème de
la δ-méthode sont réunies et on a
√ L
n(g(X̄n ) − g(λ)) −→ g ′ (λ)Y = Z.
Donc Z ∼ N (0, (2λ + 1)2 λ).

(v) Du point de vue de la variance asymptotique, lequel des deux estimateurs
est le plus avantageux ?
Solution : C’est l’estimateur de variance asymptotique la plus petite, c’est-à-
dire µ̃2 car sa variance asymptotique est égale à 4λ3 + 4λ2 + λ alors que celle
de µ̂2 est supérieure de 2λ.
c. Soit (Xn )n≥1 une suite de variables aléatoires i.i.d. de loi U(a, b) avec a < b. Soit
Sn = X1 + · · · + Xn pour n ≥ 1.
a. Déterminer la loi approchée de Sn lorsque n → +∞.
b. Déterminer la loi approchée de Sn3 lorsque n → +∞.
√
c. Déterminer la limite en loi n (exp(Sn /n)Sn /n − exp((a + b)/2)(a + b)/2) lorsque
n → +∞.
d. Soit (Xn )n≥1 une suite de variables aléatoires i.i.d. de loi B(x) où x ∈ [0, 1] et
f : [0, 1] 7→ R continue. On note
Sn = (X1 + · · · + Xn )/n
29
et pour δ > 0
ω(f, δ) = sup |f (x) − f (y)|
|x−y|≤δ
le module de continuité de f .
a. Déterminer Bn (f, x) = E[f (Sn )].
b. Donner une majoration de P (|Sn − x| > δ).
c. Démontrer que si fn est définie sur [0, 1] par fn (x) = Bn (f, x) alors
lim sup |fn (x) − f (x)| = 0.

n→+∞ x∈[0,1]
d. En déduire le théorème de Stone-Weierstrass.
e. Soit (Xn )n≥0 une suite de variables aléatoires i.i.d. de moyenne µ et de variance
σ 2 < +∞. On pose pour a ∈ R et n ≥ 1, Yn = aXn +Xn−1 et Sn = (Y1 +· · ·+Yn )/n.
Déterminer la limite en probabilité de (Sn )n≥1 lorsque n → +∞.
6. Soit Y ∼ γ(α, p) = (xp)α−1 e−px p, et soit (Xn )n≥1 une suite de variables aléatoires i.i.d.
de loi N (0, 1).
(a) Déterminer la fonction génératrice des moments et la fonction caractéristique de
Y.
(b) Déterminer la densité d’une loi du chi-deux à 1 degré de liberté. De quelle loi
gamma s’agit-il ?
∑
(c) Quelle est la loi de Yn = nk=1 Xk2 (loi du chi-deux à k ∈ N∗ degrés de liberté) ?
(d) Quelle est la limite en loi de (Yn /n)n≥1 ? [Est-ce que le résultat est en accord avec
la loi des grands nombres ?]
√
(e) Quelle est la limite en loi de ((Yn − n)/ n)n≥1 ? En déduire une approximation
de la fonction de répartition de Yn lorsque n → +∞.
(n) (n)
(f) Soit n ≥ 1 et Z1 , . . . , Zk k variables aléatoires indépendantes de loi géométrique
(n) (n)
de paramètre 1/n. On pose Sn = Z1 + · · · + Zk (une v.a. binomiale negative)
et Un = 2Sn /n. Montrer que (Un )n≥1 converge en loi vers une v.a. U dont on
déterminera la distribution.
30
Chapitre 3
Esperance conditionnelle par rapport
a des tribus et variables arbitraires
3.1 Conditionnement par une variable aléatoire discrète,

s:vdis ou par une partition au plus dénombrable
Soit Y une variable aléatoire discrète à valeurs distinctes dans un èspace fini V =
{y1 , y2 , ...}, et soit Ai = {Y = yi } ⊂ Ω . On conditionne souvent sur les valeurs possibles yi
d’une telle variable discrète Y .
Après avoir observé une valeur spécifique yi de Y , on a bien sur (1.1) :
∫
Ai
X dP
E (X | Y = yi ) = E (X | Ai ) = , ∀i = 1, ..., I. (3.1)
P (Ai )
Q : Comment définir E (X | Y ), avant que la valeur de Y soit connue ?

Si la valeur de Y n’est pas encore connue, (3.1) suggère définir E (X | Y ) par des formules
alternatives différentes, correspondant au cas qui sera observé ultérieurement :


 E (X | A1 ) si w ∈ A1


∑  E (X | A2 ) si w ∈ A2
E (X | Y ) (w) = E (X | Y = yi ) 11{Y =yi } (w) = . (3.2)

 ..
i∈I 

E (X | A ) si w ∈ A
I I
Exercice 3.1 Brzezniak Exemple 2.3. Calculer E (X | Y ) (w) si

{
1 w ∈ [0, 1/3)
Ω = [0, 1], X(w) = 2w2 , Y (w) = 2 w ∈ [1/3, 2/3]
0 w ∈ (2/3, 1]
Consequences de la définition de léspérance conditionelle (3.2).

1. La définition (3.2) implique que E (X | Y ) est une variable aléatoire, mesurable par
rapport à la tribu σ(Y ), ce qui se traduit ici en une variable aléatoire constante sur les
mêmes ensembles que Y .
31
2. Le coté droit de l’égalité (3.2) depend de Y seulement par la tribu σ(Y ) = {A1 , ..., AI }
engendrée par Y (i.e. la tribu minimale par rapport a la quelle Y est mesurable) et
pas sur les valeurs spécifiques yi . Par conséquent, elle defini plutot E [X | σ(Y )] , ce
qui sugère de voir (3.2) plutôt comme une définition de E [X | B] , où B est la tribu
engendrée par la partition. En suite,
Définition 3.1 Pour toute variable aléatoire discrète Y on definira l’espérance condi-
tionnelle de X par rapport à Y par
E (X | Y ) = E [X | B] , où B = σ(Y ). (3.3)
Remarque 3.1 Si nous savions aussi definir E[X | B], où B est une tribu arbitraire,
nous saurions immédiatement par la même stratégie definir E[X | Y ] = E [X | σ(Y )] ,
où Y est une v.a. arbitraire.
3. Pour Y discret, une propriété intéréssante de léspérance conditionnelle (3.2) est :
∫ ∫
E (X | Y ) dP = E (X | Ai ) P [Ai ] = XdP, ∀Ai ∈ σ(Y )
Ai Ai
Kolmogorov a introduit une définition générale (mais non constructive) de E[X | B],
comme une v.a satisfaisant aux propriétés ci-dessu –voir la prochaine section. L’unicité de
cette definition vient de :
l:z Lemme 3.1 Si une variable X ∈ B satisfait
∫
X = 0, ∀B ∈ B, alors X = 0 p.p.
B
Ind : P [|X| ≥ 1/n] = 0, ∀n.
Exercice 3.2 Brzezniak Exercices 2.3-2.5, et Prop. 2.1.
Kolmogorov a introduit l’espérance conditionnelle par rapport à une sous tribu B (ou
une variable Y ) arbitraire, pas forcement discrète comme une fonction satisfaisant cette
propriété :
t:K Théorème 3.1 - (définition de l’espérance conditionnelle pour des tribus arbitraires) -
Soit X une variable aléatoire réelle intégrable définie sur (Ω, A, P ) . Alors
1. Pour toute sous tribu B il existe une variable aléatoire appelée espérance conditionnelle de X
sachant B, et notée E (X | B) ou E B (X), telle que :
(i) E (X | B) est B-mesurable

∫ ∫
(ii) B E (X | B) dP = B XdP, ∀B ∈ B ⇐⇒
E[U [E (X | B)] = E[U X], ∀U ∈ B, U borné
2. Toute v.a. Z satisfaisant (i), (ii) est egale a E (X | B) p.p. 1

1. Démonstration :
32
Finalement, la probabilité conditionnelle par rapport à une tribu est juste un cas parti-
culier de l’espérance conditionnelle :
Définition 3.2 Pour tout A de A, on appelle probabilité conditionnelle par rapport à B la

variable aléatoire notée P B (A) ou P (A | B) définie par :
P (A | B) = E (11A | B)
Idée intuitive : On a defini ainsi l’espérance conditionnelle E[X|B] avant qu’on sait
dans quel ensemble B ∈ B (ou dans quelle partie d’une partition finie B = A1 ∪ A2 ...) on se
trouve. Le résultat est une variable aléatoire representant toute l’information qu’on pourra
obtenir plus tard sur X quand on va decouvrir le cas Ai qui s’est passé.
Bien sur, après avoir decouvert l’ensemble Ai , l’espérance conditionnelle de X devienne
juste une moyenne ponderée
∫
1
E (X | Ai ) = XdP.
P (Ai ) Ai
Avant de connaitre le cas pourtant, l’espérance conditionnelle est elle même une variable aléatoire,
mesurable par rapport a la tribu plus “grossiere” B, ce qui revient à dire dans le cas ou B
est fini qu’elle est constante sur les ensembles generateurs de B.
Remarque 3.2 (*) Il n’y a pas d’unicité ”absolue” de E (X | B), mais seulement p.s.-
P . Chaque v.a. vérifiant (i) et (ii) est appelée une version de l’espérance conditionnelle.
Toutefois, deux versions
∫ Y1 et ∫Y2 sont presque-sûrement égales (p.s. ou p.p.-P ) par la lemme
3.1, car ∀B ∈ B , B Y1 dP = B Y2 dP .
Il y a donc unicité p.s.-P et on parle de l’espérance conditionnelle en choisissant l’une
des versions.
Exemples : 1 B = {∅, Ω} :
Soit X une v.a.r. intégrable.
(i) ⇒ E (X | B) = k constante réelle.
• Supposons que X ≥ 0 : on définit une mesure positive ν sur B en posant :
∫
∀B ∈ B , ν (B) = XdP
B
Comme X est intégrable, ν est une mesure finie et elle est absolument continue par rapport à P (en effet : P (B) =
0 ⇒ ν (B) = 0 car on intègre sur un ensemble négligeable). D’après le théorème de Radon-Nikodym, il existe une fonction f ,
B-mesurable et intégrable telle que : ∫
∀B ∈ B , ν (B) = f dP
B
(en toute rigueur, on devrait écrire P|B au lieu de P mais ces deux mesures coı̈ncident sur B ...). Il est alors clair que f
vérifie les propriétés (i) et (ii).
• Si X n’est pas positive alors on écrit X = X + − X − avec X + = Sup (X, 0) et X − = Sup (−X, 0) = −Inf (X, 0) . Les
variables X + et X − sont alors positives (et intégrables) et on pose alors :
( ) ( )
E (X | B) = E X + | B − E X − | B
Remarque : Si X est dans L2 (Ω, A, P ) espace de Hilbert, alors on peut également définir E (X | B) = E B (X) comme la
projection orthogonale de X sur le sous-espace vectoriel fermé L2 (B) formé des classes d’équivalences f (pour l’égalité p.s.) des
éléments f de L2 (Ω, B, P|B ). Cet espace L2 (B) est souvent identifié à L2 (Ω, B, P|B ) car ils sont isomorphes (sans être forcément
égaux !).
33
D’où :
∫ ∫
E (X | B) dP = kdP = kP (Ω) = k
Ω ∫Ω
= XdP = E (X) d’après (ii)
Ω
Ainsi, on obtient que : E (X | B) = E (X)

2 B = {∅, A, Ac , Ω} avec A dans A tel que : P (A) ̸= 0 et P (A) ̸= 1 :
Soit X une v.a.r. intégrable.
La v.a. E (X | B)∫ est B-mesurable
∫ donc de la forme α11A + β11Ac avec α, β réels.
(ii) ⇒ ∀B ∈ B , B XdP = B (α1 ∫1A + β11A ) dP = αP (A ∩ B) +
c βP
∫ (Ac ∩ B)
1
En prenant B = A, on obtient : A X dP = αP (A) d’où α = P (A) X dP
c
∫ c 1
A
∫
En prenant B = A , on obtient : Ac X dP = βP (A ) d’où β = P (Ac ) Ac XdP .
1 (∫ ) 1 (∫ )
Ainsi : E (X | B) = A
XdP 11A + c Ac
XdP 11Ac
P (A) P (A )
3 B ⊃ σX : X ∈ B (i.e. B-mesurable) entraine
E (X | B) = X
(le coté droit satisfait evidemment la définition de l’espérance conditionnelle, et l’unicité p.p.
est assuré par la Lemme 3.1).
Remarque 3.3 En prenant en (ii) pour B tout l’espace Ω, où en prenant U = 1 en (ii)
on obtient une loi ET
EE (X | B) = EX
sur des espaces de probabilité générales !

Outrement dit, Kolmogorov defini l’espérance conditionnelle comme l’objet qui satisfait
la loi ET, et ça encore sur chaque sous-ensemble B ∈ B.
Dans le cas particulier B = σ(E1 , ..., EI ), on retrouve la loi ET somme :
∑ ∑
EX = E(X 11Ei ) = P (Ei ) E (X | Ei )
Les lois PT, ET deviennt :

∑ ∑
P (A) = P (Y = yi ) P (A | Y = yi ) = pY (y) P (A | Y = y)
y∈V
∑ ∑
E (X) = P (Y = yi ) E (X | Y = yi ) = pY (y) E (X | Y = y)
y∈V
oû pY (y) dénote la fonction de masse de la variable Y .
34
3.2 Conditionnement par rapport à une tribu arbi-
s:va traire
Définition 3.3 Pour toute variable aléatoire Y on defini l’espérance conditionnelle de X
sachant Y par
E (X | Y ) = E [X | σ(Y )] , ∀Y ∈ σ(Y ). (3.4)
La difficulté d’appliquer cette définition consiste au fait qu’elle n’est pas explicite. Si
nous aurions une formule, il serait a priori facile de verifier qu’elle satisfait la definition.
Q : Mais comment trouver une telle formule ? L’exemple 2.4 et les exercices 2.6-2.17 de
Brzezniak nous montrent comment procéder, cas par cas...
Remarque 3.4 Exemple 2.4 decortiqué. L’exemple 2.4 pour le calcul de E (X | Y ) où
X = ξ(W ), Y = η(W ) est déconcertant par rapport à la specification traditionelle des v.a.
par densités/distributions de masse, et par rapport à la méthode traditionelle de calcul de
E (X | Y ) à partir de la distribution jointe. Mais, la distribution jointe n’est pas specifié dans
l’exemple, et ça ne rajoute pas grande chose a la calculer.
Par contre, l’exemple nous devoile un peu la vision alternative de Kolmogorov, qui rem-
place toutes les distributions jointes dans un problème par une seule variable monde/universelle
W ”traditionnelle” avec distribution P (dw). Les autres v.a. sont des fonctions specifiques de
W , et leur distributions sont induites par cette dependence fonctionnelle.
L’espérance conditionelle E (X | Y ) est très simple quand X = ξ(W ), Y = η(W ) sont
produits pas des fonctions injectives, car dans ce cas
X = ξ(W ) = ξ ◦ η (−1) (Y ) (3.5)
se calcule à partir de Y en composant les deux fonctions ξ et η (−1) .

Le défi est de comprendre comment modifier (3.5) dans l’absence de l’injectivité.
Lemme 3.2 Lemme de Doob-Dynkin

Soient X, Y et Z trois variables aléatoires définies sur (Ω, A, P ), à valeurs dans
(R, B (R)) respectivement.
a) Si Z est σ (Y )-mesurable alors il existe une fonction borélienne φ de R dans R telle
que Z = φ (Y ) .
b) Il existe une fonction borélienne ”Doob-Dynkin” ϕ de R dans R telle que E (X | Y ) =
ϕ (Y ) .
L’exemple 2.4 nous illustre le cas où la variable monde est trés simple, car la mesure de
Lebesgue sur [0, 1] est juste la distribution d’une v.a. uniforme sur [0, 1], est la variable Y est
un mélange d’une variable discrète Y = 2 et une variable continue produite pas une fonction
injective identité. L’espérance conditionelle se construi en moyennant les valeurs de X sur
la partie discrète, et par composition des fonctions sur la partie continue.
Remarque 3.5 Le cas du conditionnement par des valeurs des variables continues
Y ou discrètes ramènent aux formules usuelles, comme
∫ ∫
xfX,Y (x, y)dx
E (X | Y = y) = φ(y) = xfX/Y (x/y)dx = ∫ (3.6)
fX,Y (x, y)dx
Aussi, les lois PT et ET pour le cas quand on conditionne sur les valeurs prises par une
variable réele discrète ou continue se reduisent aux formules bien connues :
35
∫
P (A) = P (A | Y = y) fY (y)dy,
∫ y
EX = E(X | Y = y) fY (y)dy
y
∑
EX = E(X | Y = yi ) P (Y = yi )
i
Exercice 3.3 Modelisation : Brzezniak Exercices 2.13 (parametriser sur [0, 1]2 ).
Exercice 3.4 Fonction de Doob-Dynkin : Brzezniak Exercices 2.7-2.9. Sol : Par (3.6),
∫
x(x + y)dx 1/3 + y/2 2 + 3y
E (X | Y = y) = φ(y) = ∫ = =
(x + y)dx 1/2 + y 3 + 6y
Nous avons vue deux cas simples où la fonction de Doob-Dynkin EX|Y = φ(Y) est
calculable : le cas (plutôt théorique) où les variables X, Y sont produites de la ”variable
monde par des fonctions injectives, et le cas où les variables X, Y ont une distribution joint
connue.
Exercice 3.5 L’exercice 2.6 ajoute un nouveau cas : η bijective. Une approche générale
pour determiner la fonction de Doob-Dynkin commence par fixer un ensemble infinitesimal
y + = [y, y + dy] des valeurs possibles de Y = η(w), et en suite par determiner l’ensemble des
preimages Ady = η −1 (y+ ) = ∪Ii=1 yi+ , où I est le nombre des images inverses correspondant a
P [yi+ ]
y + . En suite, on associe a chaque images inverse la mesure wi = ∑I + . Finalement,
i=1 P [yi ]
∑
I
φ(y) = ξ(yi )wi .
i=1
Dans l’exercice 2.6 la mesure wi est uniforme par symmetrie ce qui resulte en
ξ(y/2) + ξ(1 − y/2)
φ(y) = , y ∈ [0, 1].
2
Ou, comme y/2 = w pour w ≤ 1/2,
ξ(w) + ξ(1 − w)
E[X|Y](w) =
2
qui est valable en effet pour tout w ≤ 1.
Défi 1 : Repetons cet exercice, quand P est une mesure nonuniforme, par exemple avec
densité proportionelle à x−1/2 § .
Défi 2 (*) : Repetons cet exercice, quand η est la fonction de Cantor.
§. Soit Y une variable aléatoire définie sur (Ω, A, P ), à valeurs dans (Ω1 , A1 ) avec Ω1 ⊂ Rn et soit X
une variable aléatoire intégrable à valeurs dans (Ω2 , A2 ) avec Ω2 ⊂ R.
Alors on a : E (X | Y ) = φ (Y ) où φ est définie sur A = {y ∈ Ω1 ; fY (y) ̸= 0} par :
∫ ∫
[Y =y] [Y =y]
φ (y) = xdPX (x) = xfX (x) dµ2 (x)
où on a supposé pour la deuxième formule que PX admet une densité fX par rapport à une mesure σ-finie
µ2 sur Ω2 et que P(X,Y ) admet une densité f(X,Y ) par rapport à µ2 ⊗ µ1 où µ1 est une mesure σ-finie sur Ω1 .
36
Exercice 3.6 Brzezniak 2.14-2.15 (application de la definition de Kolmogorov), et 2.17.
Remarque 3.6 Il ne faut pas oublier que dans le cas continu, les fonctions conditionnelles
P (A | Y = y) , E(X | Y = y), f(X|Y ) (x | y) sont seulement definies p.p, et que en fixant une
valeure precise pour y on peut arriver a des contradictions, comme le paradoxe de Borel-voir
(Pitman, http ://www.stat.berkeley.edu/users/pitman/s205f02/index.html lec 15 : pour une
v.a. uniforme dans le demicercle x2 + y 2 ≤ 1, y ≥ 0 on a
3 1
lim P [Y ≥ 1/2||θ − π/2| ≤ α] = ̸= P [Y ≥ 1/2|θ = π/2] =
α→0 4 2
3.3 Propriétés de l’espérance conditionnelle

pro Proposition 3.1 Soit X une variable aléatoire intégrable définie sur (Ω, A, P ) , et B une
sous-tribu. On a alors les propriétés suivantes :
(1) X = a constante réelle ⇒ E (X | B) = a
(2) E (. | B) est linéaire
(3) X ≥ 0 ⇒ E (X | B) ≥ 0
(4) X ≤ Y ⇒ E (X | B) ≤ E (Y | B)
(5) |E (X | B)| ≤ E (|X| | B)
(6) E (E (X | B)) = E (X)
(7) Soient B et C deux sous-tribus de A telles que : C ⊂ B. Alors on a :
E (E (X | B) | C) = E (E (X | C) | B) = E (X | C)
(8) Supposons maintenant que X, Y et XY sont intégrables, et X est B-mesurable ; alors
on a :
E (XY | B) = XE (Y | B)
Exercice 3.7 Démontrer la derniére propriété. Ind : Considerer d’abord le cas de X borné.
Exercice 3.8 Démontrer :
E[X/Z1 , . . . , Zk ] = EE[X/Y1 , . . . , Yj , Z1 , . . . Zk ]
pour le cas des variables discrètes.
R : Since the collections of random variables Z1 , . . . , Zk and Y1 , . . . , Yj can be both viewed

as single vector variables Y = Y1 , . . . , Yj , Z = Z1 , . . . , Zk , this is equivalent to showing that
E[X/Z] = EE[X/Y, Z] (3.7) on
We will only establish this for discrete random variables and in its simplest form stating
that
E[X] = E E[X/Y ] (3.8) tw

(The apparently more general form (3.7) reduces to applying the ( 3.8) for each fixed value
Z = z.)
∑ Let us denote by px the probability that X takes a certain value x, so that E[X] =
x xpx . Let us denote by px,y the joint probabilities and
∑ by px/y the conditional probability
that X = x given that Y = y, so that E[X/Y = y] = x xpx/y . Alors,
37
∑ ∑ ∑
E E[X/Y ] = py E[X/Y = y] = py ( xpx/y )
y y x
∑ ∑ ∑
= xpy px/y = xpx,y = xpx
y,x y,x y
= E[X]
Remarque : L’espérance conditionnelle est au fin du jour une mesure ; donc, elle va

posseder toutes les propriétés generales des mesures, passes en revue en Section ??.
38
Chapitre 4
Processus et champs aléatoires, en
temps discret et continu
Nombreuses problèmes de modélisation aléatoire en physique, biologie, etc, ramène à

l’étude des processus/champs aléatoires.
Il s’agit de collections des variables aléatoires Xt , t ∈ I, où l’ensemble des indices I peut
être par exemple Nd , Zd , Rd , d ∈ N, un ensemble fini, etc.
Définition 4.1 Soit I un ensemble quelconque. On appelle processus aléatoire X indexé
par I toute famille (Xt )t∈I , de vecteurs aléatoires définis sur un même espace de probabilité
(Ω, A, P ) et à valeurs dans d’états E.
L’espace I est souvent le temps, ainsi :
I = N : instants successifs à partir d’un instant initial t0 .
I = Z : instants successifs avant et après un instant t0 .
I = R ou R+ : idem mais processus à temps continu.
I = Z2 : images.
I = Z3 : modèle de la matière.
Nous allons considèrer ici surtout des processus à indices unidimmensionels, à temps
discret N, Z ou continu R (les premièrs deux cas étant appellés aussi séries chronologiques
en statistique). L’étude est facilité alors par l’existence d’un ordre complet entre les indices.
Dans le cas des espaces d’états E finis ou dénombrables, les variables Xi , i ∈ I sont
appellées discrètes ; pour E = Rd , on etudie surtout des variables continues ou melangés.
Le cas discret est le cas plus simple, car il permet d’éviter plusieurs details téchniques
(par exemple, dans ce cas, l’ensemble des evenements mesurables pour une variable Xi0 est
simplement l’ensemble de toutes les parties de E).
Pour modéliser un champs/processus il est necessaire de spécifier de manière consistente
l’ensemble de toutes ses distributions jointes d’ordre fini.
Définition 4.2 Soit X. = Xt , t ∈ I un champs aléatoire et soit J ⊂ I un sous ensemble
fini. On dénotera par XJ la distribution jointe des variables Xt , t ∈ J. L’ensemble XJ : J ⊂
I, |J| < ∞ sera appellé la famille des distributions jointes d’ordre fini de X.
Remarque 4.1 Lorsque E = Rp ou Cp et p = 1, une seule valeur est observée à chaque
”instant” t, alors que lorsque p > 1, plusieurs variables sont observées et on parle de processus
multidimensionnels ou multivariés.
En pratique, des proprietés supplementaires sont necessaires pour reduire la complexité
inherente des processus stochastiques, comme la propriété de Markov – voir chapitre 6, ou
de martingale – voir chapitre 11.
39
4.1 Premiers exemples des processus stochastiques
Les processus les plus simples sont les processus à variables i.i.d. Le cas particulier des
va avec un nb. fini des valeurs mérite une mention a part.
Définition 4.3 La famille des processus i.i.d. inclue les processus ”multi-Bernoulli” à va-
riables Xt ∈ {1, 2, ...K}, t ∈ Z, avec Xt i.i.d. ayant une loi discrète p = (p1 , p2 , ..., pJ ) qu’on
peut voir comme des resultats X0 , X1 , ..., Xt ... des jetées d’un dé ou d’une monnaie biaisée,
avec un nb fini des faces. Dans ce cas, les lois jointes sont simplement des produits de la loi
marginale p.
Exercice 4.1 Des femmes et des hommes arrivent dans un magasin, après des temps fixes,
unitaires. Chaque instant, une femme arrive avec probabilité λF , ou un homme arrive avec
probabilité λH , ou il n’y a pas d’arrivée, avec probabilité q = 1 − λF − λH . On a donc un
processus stochastique Xt ∈ {H, F, 0}, t ∈ N, defini par des distributions jointes produits de
la loi discrète (λH , λF , q). On considère le temps d’arrêt T = inf{t : Xt ∈ {H, F }}
a. Trouver la probabilité qu’une femme entre avant un homme, i.e.
P [XT = F ]
Indication : Conditionnez sur le premier instant t = 1, ou sur le nombre T d’instants jusqu’à
la première arrivée.
b. Trouver la probabilité que au moins trois femmes entre avant le premier homme, et
que exactement trois femmes entre avant le premier homme.
c. Reformulez et resolvez l’exercice en temps continu, en utilisant la ”competition des
exponentielles” de l’exercice 5.10.
Remarque 4.2 Dans cet exercice nous utilisons la très importante méthode de condition-
nenent sur le premier pas. Un autre exemple qui illustre son utilité est le calcul de l’espérance
m de la variable géometrique, i.e. du nombre des essaies necessaires jusqu’à lárrivée de la
première pile (en l’incluant). On a
1
m = p × 1 + (1 − p)(1 + m), =⇒ m =
1−p
Pour comprendre cette méthode, il est utile de dessiner l’arbre de toutes les possibilités,
en indiquant sur chaque branche a) la proba associée et b) la modification du ”côut” associée
(dans le cas des problèmes de nombre des essaies esperé, le côut est 1)
En suite, il y aura des branches la contribution des quelles peut être déterminée après
le premier pas, et des branches où on ”recommence” après le premier pas, après avoir tenu
compte du côut du premier pas.
Après les processus multi-Bernoulli et les sommes des v.a.’s independants, le prochaı̂ne
degré de complexité en modélisation est obtenu en utilisant les processus Markoviens.
En temps discret, ce sont des processus controlés par des ”monnaies biaisées”, qui de-
pendent du dernier résultat pour decider la prochaine position (i.e. la loi de Xt =la ”monnaie
jetée” depend de la position précédente Xt−1 ). En temps continu, ce sont des competitions
des competitions d’exponentielles qui decident la prochaine position.
40
Chapitre 5
Introduction aux processus de
s:Mark Markov
Exercice 5.1 a) Démontrer la ”loi d’evolution”

P [Xt1 = ei1 , Xt2 = ei2 ..., Xtk = eik ] = P [Xt1 = ei1 ] P [Xt2 = ei2 |Xt1 = ei1 ]
[ ]
P Xtk = eik |Xt1 = ei1 , Xt2 = ei2 ..., Xtk−1 = eik−1
b) Démontrer la ”loi d’evolution conditionée”

P [Xt1 = ei1 , Xt2 = ei2 ..., Xtk = eik |F] = P [Xt1 = ei1 |F] P [Xt2 = ei2 |Xt1 = ei1 ,F ]
[ ]
P Xtk = eik |Xt1 = ei1 , Xt2 = ei2 ..., Xtk−1 = eik−1 , F
Cet exercice nous montre que les lois jointes ont une structure assez compliquée, en
général. La situation devienne plus simple pour les processus de Markov.
Définition 5.1 -Proprietè de Markov
Un processus X = (Xt )t≥0 , avec t unidimmensionel a la proprietè de Markov si, et
seulement si ses probabilités conditionelles ne depend pas du passé que par le passé imediat,
i.e.
P [Xt ∈ A | Xt0 = ei0 , ..., Xtk = eik ] = P [Xt ∈ A | Xtk = eik ]
∀ 0 ≤ t0 < t1 < · · · < tk < t , ti ∈ R, et ∀ ei0 , ei1 , ..., eik , ei ∈ E.
Un processus ayant la proprietè de Markov s’apelle processus de Markov.
Interprétation de la propriété de Markov : si on considère que le processus est indicé par

le temps, cette propriété traduit le fait que le présent ne dépend du passé qu’à travers le
passé immédiat.
Une des famille des processus le plus utilisés en applications sont les chaı̂nes de Markov
discrètes, observés en temps discret : n = 0, 1, 2, ..., et avec un nombre fini, disons J d’états
possibles. On a alors J lois de transition, qu’on arrange dans une matrice P stochastique
(ayant la somme de chaque ligne 1).
Oz Exercice 5.2 Le temps au pays d’Oz. Soit Xn une chaı̂ne supposée (à tort) Markovienne
sur les états { pluie, nuageux, soleil}, avec matrice des transitions
( )
3/8 1/2 1/8
P = 1/6 1/2 1/3
0 1/4 3/4
Calculer :
41
1. La probabilité de pluie demain, en sachant qu’il est nuageux aujourd’hui
2. La probabilité de pluie demain et soleil le lendemain, en sachant qu’il est nuageux
aujourd’hui
3. La probabilité de soleil le lendemain, en sachant qu’il est nuageux aujourd’hui.
Remarque 5.1 La distribution de X1 conditionné par (en partant de) X0 = i, est donné
par la ligne i de la matrice P . Par conséquent, la réponse à la première question est 1/6.
La réponse à la deuxième question est 1/6 × 1/8 (par la loi d’evolution conditionée). La
troisième question concerne une transition après deux pas (sans s’interesser a la situation
après un pas).
Cette question nous suggère l’importance d’étudier les probabilités de transition entre
deux moments arbitraires.
5.1 Matrices de transition

Définition 5.2 Matrices de transition
Pour tous 0 ≤ s ≤ t, pour tous i, j dans I, et pour chaque processus stochastique, on
définit les probabilités de transition par :
pij (s, t) = P ([Xt = ej ] | [Xs = ei ]) .
Définition 5.3 Homogeneité des transitions Un processus est dit homogène si, et
seulement si :
∀ i, j ∈ I , ∀ 0 ≤ s ≤ t , pij (s, t) = pij (0, t − s) .
On note alors pij (s, t)= pij (t − s), et la matrice pij (t) est appellée matrice de transition
après temps t.
Hypothèse de travail : (H1) On ne considérera ici surtout des processus homogènes.

L’exemple le plus simple des processus de Markov est fourni par les chaı̂nes de Markov
homogènes en temps discret et à espace d’états fini ou dénombrable.
Dans ce cas, il suffit de connaı̂tre les matrices de transition P (n) après temps n ∈ N.
La matrice de transition aprés un pas P = (pij )i,j∈I est la plus importante charac-
teristique d’une chaı̂ne homogène. Cette matrice P est stochastique, c’est-à-dire :
1) ∀ i, j ∈ I , ∑
pij ≥ 0 et
2) ∀ i ∈ I , pij = 1 ; la somme des termes de chaque ligne égale à 1. En notation
j∈I
vectorielle, on a P 1 = 1, ou 1 denote un vecteur avec toutes les composantes 1.
∑ 3) Il sera aussi utile d’étudier les matrices sous-stochastiques, satisfaisant ∀ i ∈ I ,
pij ≤ 1, avec au moins une inégalité étant stricte.
j∈I
Remarque 5.2 La propriété P 1 = 1 des matrices stochastiques équivaut au fait que 1 est
une valeur propre, avec vecteur propre à droite 1.
Exercice 5.3 Montrez que si λ est une valeur propre d’une matrice stochastique P , alors
forcemment |λ| ≤ 1.
42
Ind : Pour fixez les idées, considérez d’abord le cas où n = dim(P ) = 2.En suite,
normaliser le vecteur propre v de λ tq son élément de valeur absolue maximale soit 1, et
utiliser l’équation P v = λv correspondant a ce vecteur.
Remarque 5.3 Même qu’on utilise parfois le terme ”matrice” si l’espace d’états E est
infini, la théorie dans ce cas est plus compliquée.
Exercice 5.4 Démontrer la ”loi d’evolution” pour les chaı̂nes de Markov homogènes
P [X1 = ei1 , X2 = ei2 ..., Xk = eik |X0 = ei0 ] = P (i0 , i1 )P (i1 , i2 )..., P (ik−1 , ik ),
En revenant a notre Exercice 5.2, conditionnons sur toutes les cas possibles aprés un
jour. On trouve :
  
∗ ∗ ∗ ∗ ∗ 1
 1 
8
1 11 11 13 7
(2) 1
P (N, S) = 6 2 3 1
∗ ∗ 3
= + + = = P 2 (N, S)
68 23 34 16
∗ ∗ ∗ 3
4
En conclusion, la réponse a la question sur la transition après deux pas se trouve dans
la matrice  43 15 59 
192 32 192
P2 =  7
48
5
12
7
16

1 5 31
24 16 48
Plus généralement, la distribution de Xn en partant de X0 = i est donné par la ligne i

de la matrice P n . Par exemple
   
0.0982749 0.3665 0.535225 0.0979365 0.366194 0.53587
P 10 =  0.09786 0.366124 0.536016  , P 11 =  0.0977182 0.365996 0.536286 
0.0972273 0.365551 0.537221 0.0973855 0.365695 0.53692
Clairement, y a convergence vers une matrice avec lignes egales (on démontrera ça plus tard
en utilisant la decomposition spectrale de P ).
5.2 Probabilités de transition après n étapes

Définition 5.4 Pour tout n de N, la matrice des probabilités de transition en n étapes, est
( )
(n) (n)
definie par P (n) = pij où pij = P ([Xn = ej ] | [X0 = ei ]) .
i,j∈I
L’exercice 5.2 illustre le resultat le plus important de la théorie des chaı̂nes de Markov :
Théorème 5.1 Les matrices de transition en n étapes ont une structure de semi-group, i.e.
P (m+n) = P (m) P (n) (5.1)
43
Démonstration: Soit (Xn )n∈N une chaı̂ne de Markov homogène de matrice de transition
P et de loi initiale µ (0), à valeurs dans (E = {ei ; i ∈ I} , P (E)). En conditionnant sur la
position k après m pas, on a :
(m+n)
∑ (m) (n)
∀ i, j ∈ I , ∀ m, n ∈ N , pij = pik pkj
k∈I
QED
Corollaire 5.1 La matrice des probabilités de transition en n étapes (sans s’interesser dans
l’évolution intermediaire) est simplement la puissance n de la matrice de transition P :
P (n) = P n , i.e. le semi-groupe des matrices de transition est ”generé” par la matrice P
de transition après temps 1.
Ce corollaire très important s’appelle l’equation de Chapman-Kolmogorov .

Demonstration : on montre ça par récurrence sur n, en partant de P (1) = P , et en tenant
compte que P (n+1) = P (n) P (par l’equation de semigroupe (5.1)) QED
Par conséquent, la matrice P specifie entièrement toutes les probabilités de transition
d’une chaı̂ne de Markov.
5.3 Classification des états

Nous verrons ici qu’une chaı̂ne de Markov a deux types d’états :
1. transitoires/transients, qui sont visités un nombre fini des fois
2. récurrents (”éternels”) qui sont visités un nombre infini des fois.
Définition 5.5 Soient ei et ej deux éléments de E. On dit que ei conduit à ej (on note
(n)
ei → ej ) ssi il existe n > 0 tel que pij > 0 et on dit que ei et ej communiquent (et on note
ei ↔ ej ) si ei conduit à ej et ej conduit à ei .
Rémarque : la relation de ”communication réciproque” ” ↔ ” est clairement symétrique,

reflexive et transitive, une relation d’équivalence. Par conséquent, elle partage l’espace d’états
dans des classe d’équivalence.
Définition 5.6 On appelle classes de communication la chaı̂ne : les classes d’équivalence

induites par la relation ” ↔ ” sur E.
Définition 5.7 Une classe d’equivalence dans une chaı̂ne de Markov finie qui n’a pas de
transitions vers l’exterieur est dite récurente ; les autres classes s’appellent transientes.
Remarque 5.4 Les classes récurentes sont les classes maximales de la relation d’ordre in-
duite par → sur les classes.
Définition 5.8 Le graphe de communication d’une chaı̂ne est un graphe sur les états (in-
diqués par des points du plan), avec des cotés représentant les transitions possibles, ayant
des probabilité de transition pij > 0. Les transitions possibles sont indiqués par des flèches,
avec la valeur de la probabilité de transition notée parfois au dessus.
44
L’identification des classes récurrentes et transientes est souvent plus facile en inspectant
le graphe de communication, qui permet de determiner visuellement les classes de communi-
cation.
e:cl Exercice 5.5 Exemple d’une chaı̂ne avec des elements transients et récurrents.
L’espace des etats d’une chaine est S = 1, 2, 3, 4, 5, 6 et la matrice de transition est
 
0 14 12 14 0 0
 0 1 01 0 02 0 
 0 0 0 3 0 
P = 3
 0 0 0 0 0 1 

 0 0 1 0 3 0 
4 4
1
4
0 0 0 34 0
a) Dessinez le graphe de communication.
b) Identifiez les classes de la chaîne. Classifier les classes en récurrentes et transientes.
R : Les classes récurrents sont {2} et {3,5}.
Remarque 5.5 La matrice obtenue en rangeant les elements de la même classe ensemble
(par exemple {2, 1,4,6, 3,5} dans l’exemple anterieur) a une structure des blocques. Les
sous-blocs correspondant a une classe recurrente sont des matrices stochastiques (qu’on peut
analyser séparément plus facilement), et le bloc correspondant a tous les elements transients
est une matrice sous-stochastique.
Remarque 5.6 Les sous-matrices obtenues de la matrice de transition en retenant seule-

ment une classe transiente/récurrente sont sous-stochastiques/stochastiques.
Remarque 5.7 La distinction entre elements transients et recurents a une grande portée
sur la valeur des limites limn→∞ P n (i, j). On verra que pour j transient, elle est toujours 0
Définition 5.9 Une chaı̂ne de Markov est dite irréductible si elle n’admet qu’une seule
classe recurente.
5.4 L’évolution avec le temps de la loi de probabilité

d’une chaı̂ne
Définition 5.10 Pour tout n de N et tout i de I, on note µi (n) = P [Xn = ei ] et µ (n) =
(µi (n))i∈I . Le vecteur µ (n) définit une probabilité sur (E, P (E)) appelée loi à l’instant n.
On appelle loi initiale de la chaı̂ne (Xn )n∈N le vecteur µ (0) .
Comme dans la démonstration de l’equation de Chapman-Kolmogorov, en conditionnant

sur la position k un pas en avant, on verifie que µ (1) = µ (0) P, et
µ (n + 1) = µ (n) P (5.2)
et alors par induction on trouve
µ (n) = µ (0) P n (5.3)
45
Exemple 5.1 Soit (Xn )n∈N une chaı̂ne de Markov homogène sur(l’ensemble {1, ) 2}, de dis-
tribution initiale µ(0) = (µ1 , µ2 ) et de matrice de transition P = 1 −
b
a a
1−b
Calculez P{X0 = 2, X1 = 2}, c2 (1) = P{X1 = 2}, P{X0 = 2|X1 = 2}, P{X0 = 2, X1 =
2, X2 = 1}, c2 (2) et P{X0 = 2, X2 = 1}.
Comme illustré dans les exemple ci-dessus, en utilisant la distribution initale µ (0) et la
matrice de transition P on peut calculer la distribution µ (n) a n’importe quel temps, par
exemple µ (1) , µ (2) .... et aussi les distributions jointes pour n’importe quel ensemble fini
des temps (en utilisant la loi de multiplication des probabilités conditionnelles). En effet, on
peut donner une formule explicite pour les distributions jointes d’ordre fini d’une chaı̂ne, en
fonction de la matrice de transition P et la distribution initiale µ(0).
Théorème 5.2 Pour une chaı̂ne de Markov, les distribution jointes sont données pour :
∀t0 < t1 < · · · < tk , ti ∈ R, et ∀ ei0 , ei1 , ..., eik ∈ E explicitement par
t −t
P [Xt0 = ei0 , ..., Xtk = eik ] = µi0 (t0 )Pit01,i−t
1
0
...Pikk,ik−1
k−1
(5.4)
Définition 5.11 La chaı̂ne de Markov associé à une matrice stochastique P est la famille
des mesures Pµ(0) définies par (5.4), avec operateurs d’espérance associés Eµ(0) (donc pour
obtenir une seule mesure, il faut encore specifiér la mesure initiale µ(0)).
Remarque 5.8 Algébriquement, une chaı̂ne de Markov est characterisée par un ”duo”
(P, µ(0)), l’element principal du duo étant la matrice de transition P .
Définition 5.12 On appellera une chaı̂ne ergodique lorce’qu’il existe une distribution li-
mite π(∞) = limn→∞ µ (n) , independamment de la distribution de départ.
Examinons maintenant pour ergodicité un exemple ou P n et π se calculent explicite-

ment :
e:2 Exercice 5.6 Chaı̂ne a deux ètats. Soient a, b ∈ [0, 1] et la matrice de transition :
( )
P = 1− b
a a
1−b
a) Montrer en calculant les valeurs et vecteurs propres que
1 ( b a ) (1 − a − b)n ( a −a )
Pn = + −b b
a+b b a a+b
( b) Montrez
) que avec a, b ̸= (0, 0), et a, b ̸= (1, 1), la limite P = limn→∞ P n =
b a
a+b a+b . En suite, calculez cette limite dans tous les cas possibles.
b a
a+b a+b
Remarque 5.9 En conclusion, on voit que avec a, b ∈ (0, 1), la limite matrice P =
b a
limn→∞ P n existe et qu’elle a des lignes identiques, la distribution limite π = ( , )
a+b a+b
étant independante du point de départ. On apelle cette propriété ergodicité.
Exemple : la marche aléatoire sur les sommets d’un polygon
46
5.5 Lois invariantes/stationnaires et lois limites/asymptotiq
Une question très importante pour les chaı̂nes de Markov est de déterminer l’ensemble
des distributions “limites/asymptotiques/a la longue” d’une chaı̂ne specifié par µ(0) et P ,
définies
π(∞) = π(∞)µ(0) = lim µ (n) = lim µ(0)P n (5.5)

n→∞ n→∞
Remarque 5.10 A priori, il pourrait y exister une limite (5.5) différente pour chaque dis-
tribution de départ µ(0), et en particulier pour chaque point de départ deterministe specifié
par µ(0) = ei = (0, 0, ..., 1, 0, ..., 0), mais il se trouve que sous des conditions verifiées assez
fréquement, la limite est unique, indépendante de µ(0).
Pour clarifier dans quel cas on se trouve, il suffit d’investiguer les limites
π(∞)i = lim ei P n
n→∞
obtenues pour chaque point de départ deterministe ei , i ∈ {1, ..., I} possible. Comme ei P n
est précisement la ligne i de la matrice P n , la question revient a investiguer si la limite
P := lim P n
n→∞
existe, et si ses lignes sont identiques. On appelera P la matrice de transition asymptotique.

On verifie facilement que si elle existe, il s’agit d’une matrice stochastique idempotente (P 2 =
P ), les lignes de la quelle sont les points extremaux de l’ensemble convexe des toutes les
distributions asymptotiques possibles.
Définition 5.13 L’ensemble des distributions limite π(∞)µ(0) d’une chaine P, obtenues en
variant la distribution initiale µ(0), sera appellé l’ensemble des distributions asympto-
tiques.
En conclusion, on s’interesse en trois questions concernant la matrice P :

1. existence (E)
2. unicité (U)
3. ergodicité (ERG) = existence + unicité, ce qui est equivalent à la question :
Est-ce-que la limite matrice P (en supposant qu’elle existe) a des lignes
identiques, i.e. est-ce-que on a
P = 1π
où 1 denote un vecteur colonne, et π denote un vecteur ligne (forcemment vecteur

propre à gauche pour la valeur propre λ = 1) ?
Les réponses aux questions (E),(U) et (ERG) peuvent-être abordées par la théorie spec-
trale (valeurs propres, vecteurs propres), en utilisant le théorème de Perron-Frobenius, et
aussi par des approches probabilistes.
47
5.6 Equations de stationnarité/invariance/équilibre glo-
bal
Req Remarque 5.11 En supposant que la limite (5.5) existe (ce qui n’est pas toujours le cas),
on déduit à partir de µ(n + 1) = µ(n)P que chacune des distributions limite doit satisfaire
les équations π(∞) = π(∞)P
Définition 5.14 Les équations
π = πP (5.6)
sont appelées équations d’équilibre global/stationnarité/invariance. Un vecteur des

probabilités qui les satisfait est appelé distribution stationnaire ou invariante.
Autrement dit : une distribution invariante π est un vecteur de probabilités qui est aussi
vecteur propre a gauche de P associé à la valeur propre 1.
Remarque 5.12 Le nom invariant vient du fait que si µ(0) = π, alors on a µ(n) = π pour
chaque n.
Par la rémarque (5.11), il suit que :

inc0 Corollaire 5.2 Les distributions asymptotiques d’une chaı̂ne de Markov homogène se trouvent
parmi les distributions invariantes.
Le système d’équilibre (5.6) est donc la clé du calcul des distributions asymptotiques. Deux
questions fondamentales ici sont celles de l’existence d’au moins une solution, et de l’unicité.
Questions (E-U) : 1) Est-ce que c’est possible qu’il n’existent pas des vecteurs
des probabilités qui satisfont le système d’équilibre (5.6) (i.e. est-ce que c’est
possible qu’il n’y ait pas des vecteurs propres pour la valeur propre 1 qui ont
toutes les composants nonnégatives) ? 2) Est-ce que c’est possible qu’il existent
plusieurs vecteurs des probabilités qui satisfont le système d’équilibre (5.6) ?
Exemple 5.2 L’inexistence de la limite P = limn→∞ P n pour les chaı̂nes cycliques.

La limite P n’existe pas toujours, comme on voit immediatement en examinant une chaı̂ne
de Markov qui bouge cycliquement sur les noeuds d’un graphe. Par exemple, pour n = 3,
(
avec la matrice )
de transition ( )
0 1 0 0 0 1
3n 3n+1 3n+2 2
P = 0 0 1 , on a : P = I3 , P = P et P =P = 1 0 0 .
1 0 0 0 1 0
2 3 4
On voit immediatement que la suite P, P , P = I, P = P, ... est cyclique et donc sans
limite.
Ici, la distribution stationnaire π = (1/3, 1/3, 1/3) est unique, mais instable.
Exercice 5.7 Les équations d’équilibre sont linéaires, et donc leur solution explicite est
toujours possible en principe, même symboliquement, avec deux bemols : 1) la matrice G =
P − I est singulière, et 2) si la réponse (après simplification, bien sûr) est trop longue, notre
vie ne suffira peut être pas pour la lire !
Soyons quand même optimimistes. Demander a votre logiciel symbolique préféré quelle
est la solution du systême πG = 0, pour G de dimension 3. Est-ce que la réponse pour π(1)
peut être interprété en termes des chemins conduisant à 1, i.e. {2, 3, 1}, {3, 2, 1}, {2, 1}, {3, 1} ?
48
Remarque 5.13 Dans le cas d’une seule classe récurente, la singularité du système peut être
enlevé en efaçant une ligne. Plus généralement, on peut obtenir les solutions d’un système
singulier (quand elles existent) en utilisant des ”PseudoInverses”. Comme il y en a plusieures
possibilités, le résultat du logiciel symbolique ne peut pas être garanti, si on utilise cette
commande. Par contre, la commande Solve devine souvent ce qu’on attend d’elle.
Notons aussi ne observation intéréssante de Stewart : en définissant GI = (G + tu′ )−1
(qui s’apelle perturbation de rang 1 de la matrice G) avec t, u ”presque arbitraires”, permet
de trouver π en normalisant u′ G.
inc Remarque 5.14 Une chaı̂ne ayant des distributions limite en partant de chaque point i,
ayant
1. une distribution stationnaire unique π, et
2. au moins une distribution limite (qui sera forcemment egale à π, par le corrollaire
(5.2))
est ergodique. En effet, 1) implique l’unicité de la classe recurrente, et 2) le fait que cette
classe n’est pas périodique.
Le cas ergodique est très important dans les applications, a cause du :
moy Théorème 5.3 (*) Soit X(n) une chaı̂ne de Markov ergodique à distribution
∑ asymptotiques
π, et soit une fonction ”coût” f tel que la ”moyenne spatiale” Eπ f(X. ) = j∈E πj fj est bien
definie. Alors, la moyenne temporelle des coûts converge presque partout vers la moyenne
spatiale, for any initial distribution :
∑
n ∑
−1
lim n f (Xn ) = πj fj
n→∞
i=1 j∈E
Examinons maintenant un exemple ou P n n’est pas disponible explicitement ; quand

même, la distribution stationnaire π est unique et donc la limite des coûts moyenne tem-
porelles se calcule facilement :
e:pap Exercice 5.8 1) Calculer les distributions µ (1) , µ (2) pour une marche sur le graphe pa-
pillon, en sachant que :
a) le départ est surement à 0
b) le départ est avec probabilités egales en 0 ou en U, i.e. µ (0) = (1/2, 0, 0, 0, 1/2).
O U
f:pap A C
Figure 5.1 – Marche aléatoire simple sur le graphe papillon
2) Montrez que la marche aléatoire sur le graph papillon a une distribution stationnaire
unique π.
3) Calculez l’espérance du coût moyenne de cette marche, si f (A) = 10, f (B) = 1 et les
autres coûts sont 0.
49
Remarque 5.15 Dans le cas des espace d’états dénombrables, avec une seule classe
récurrente B, on distingue deux cas :
1. ergodique positive, quand la distribution limite satisfait πi > 0, ∀i ∈ B et
2. ergodique nul, quand elle satisfait πi = 0, ∀i ∈ B (ce dernier cas étant impossible
pour des espace d’états finies).
Dans la literature, le terme ergodique signifie parfois ce que nous appelons ici ergodique
positive.
5.7 Un exemple de chaı̂ne reducible, avec plusieures

classes de communication
Nous allons examiner maintenant une chaı̂ne pour la quelle la distribution stationnaire
n’est pas unique (”non-ergodique”).
ne Exemple 5.3 Exemple de non unicité de la distribution stationaire π : Dans

5 ∑
5
l’exemple défini par la matrice ci dessous, cherchons π ∈ (R+ ) tel que πP = π et πi = 1.
i=1
 1 1

0 0
2
0 2
 0 0 14 14 
1 {
 1 
2 π2 = 0
 
πP = π ⇐⇒ (π 1 π 2 π 3 π 4 π 5 )  2 0 2 0 0  = π ⇐⇒
1 π1 = π3
 0 0 0 1 1  π 5 = 2π 4
2 2
0 0 0 14 34
Ces équations ont comme solution π = (a, 0, a, b, 2b) avec 2a+3b = 1, donc pas d’unicité.
Cette chaı̂ne étale des “pathologies”, qu’on peut percevoir en examinant le graphe de
communication de la chaı̂ne :
Remarque : afin d’apercevoir la structure de la chaı̂ne et de calculer plus facilement
n
P , il peut être intéressant de renuméroter les états en sorte que des états qui conduisent
l’un à l’autre) soient groupés ensemble.
Dans cet exemple, si on échange les états e2 et e3 , on obtient, après le rangement facilitant
des éléments dans l’ordre 1, 3, 2, 4, 5, la matrice de transition :
 1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 1 1 1 
 0 0 
 2 4 4 
 0 0 0 1 1 
2 2
1 3
0 0 0 4 4
a une structure : ( )
B1 0
P =
0 B
   
( 1 1
) 1 1 1
B1 0 0
2 4 4
avec B1 = 2
1
2
1 et B =  0 1
2
1
2
 et encore P =  0 Q q2  .
2 2 1 3
0 4 4
0 0 B2
50
Remarque 5.16 Il y’a deux ”traits speciaux” dans cet exemple :
1. il existe un élément “transient” 2 (qu’on peut quitter sans retour pour toujours)
2. le graph de communication se décompose en deux classes : (1, 3) et (2, 4, 5) qui ne
communiquent pas et la matrice de transition a une structure block diagonale, appellée
“réducibilité” en probas.
Le fait que la réducibilité se traduise dans une structure de matrice à ”blocs”, montre
immédiatement qu’on peut traiter (1, 3) et (2, 4, 5) séparément. Aussi, en enlevant l’élément
“ transient” 2, il nous restent deux ”classes de communication fermées”, (1, 3) et (4, 5),
appellées ”classes de récurrence”, où on reste pour toujours une fois entré.
Remarque 5.17 Rémarquons que B1 et B2 , correspondant respectivement aux états récurrents
(1, 3) et aux états récurrents (4, 5), sont des matrices stochastiques, et Q, correspondant à
l’état transient 2, est une matrice sous-stochastique.
Remarque 5.18 On voit clairement que dans la presence des deux classes recurrentes im-
plique qu’il n’y a pas d’unicité de la distribution stationnaire/vecteur
(1 propre
) a (gauche. 1Par )
exemple, les distributions stationnaires des classes recurrentes 2 , 0, 2 , 0, 0 et 0, 0, 0, 3 , 23
1
sont des vecteurs propres a gauche, ainsi que toutes leurs combinaisons convexes.
On verifie facilement que :

 
B1n 0 0
P n =  q1 (n) Qn q2 (n) 
0 0 B2n
en reflexion du fait qu’on peut étudier les trois chaı̂nes correspondant aux B1 , B2 et Q
séparément.
Remarque 5.19 Les questions fondamentales de la théorie des chaı̂nes de Markov sont :
1. le calcul des probabilités de transition P n
2. le calcul des limites P = limn→∞ P n
3. le calcul des∑probabilités d’absorbtion qi (n), i = 1, 2, ... et des probabilités de
survie 1 − i qi (n).
Concernant la matrice sous-stochastique Q contenant les probabilités de transition

entre les éléments transients (appellée aussi projection de la matrice P sur la réunion des
classes transients), remarquons que ses puissances convergent vers 0.
Théorème 5.4 (*) Toutes les valeurs propres d’une matrice sous-stochastique Q ont valeurs
absolues inferieurs à 1. Par conséquent
lim Qn = 0
n→∞
i.e. la limite des probabilités de transition entre les états transients est 0.
On verifie ici que P n (2, 2) = (1/2)n , en illustrant le théorème ci-dessus. En conclusion,

 1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 
P = lim P = 
n
 0 0 0 x1 x2  
n→∞
 0 0 0 1 2 
3 3
0 0 0 13 23
51
Il reste encore à déterminer x1 , x2 . Une approche directe par un systéme des récurrences
nous montrera que ces deux quantités sont aussi x1 = 31 , x2 = 23 .
Ce dernier problème peut être aussi abordé algébriquement via la décomposition spec-
trale, et aussi par un raisonnement probabiliste, basé sur le fait qu’une fois arrivé dans la
classe ergodique {4, 5}, la chaı̂ne oubliera sa position initiale et finira dans la distribution
(d’incertitude) stationnaire. Dans notre cas, on sait aussi que la chaı̂ne arrivera dans la classe
ergodique {4, 5} avec probabilité 1, d’ou le resultat.
Donc, dans notre exemple, le fait qu’il existe une seule classe destination possible pour
l’élément transient 2, et donc que l’absorption dans cette classe est sûre, implique p2 (4̂) =
p2 (5̂) = 1. En conclusion  1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 
P =  0 0 0 1
3
2 
3 
 0 0 0 1 2 
3 3
0 0 0 31 23
En general, intuitivement, avec plusieures destinations (classes ergodiques) possibles, il
va faloir encore multiplier leurs distributions stationnaires par les probabilités d’absorbtion
respectives § .
Définition 5.15 Soit i un élément transient d’une chaı̂ne Xn , et soit j un élément aparte-
nant à une classe de récurrence ĵ. On appelera probabilité d’absorbtion pi (ĵ) la proba-
bilité que la chaı̂ne commençée en i finisse en ĵ § .
On peut montrer que si la limite P = limn→∞ P n existe, elle satisfait :
limn→∞ P n (i, j) = pi (ĵ) π(j)
où on a dénoté par pi (ĵ) la probabilité d’absorption dans la classe de récurrence de j et par
π(j) la probabilité stationnaire de j dans sa classe (qui coincide avec limn→∞ P n (i, j) pour
i ∈ ĵ). Ce deuxième facteur reflète le fait évident qu’une fois absorbée dans une classe fermée,
la marche oubliera sa position initiale et donc aura exactement les probabilités limites de la
classe.
Mais, si dans l’exemple 6.3 l’élément transient aurait eu des possibilités de passage vers
les deux classes récurrentes existantes, ça nous aurait obligé de résoudre un problème d’ab-
sorbtion avant de calculer la limite limn→∞ P n .
Considerons par exemple
 1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 21 
P =  0 5
0 1
5
3 
5 
 0 0 0 1 1 
2 2
0 0 0 14 34
§. Rigoureusement, on utilise une décomposition de ”la vie de la chaı̂ne” dans la partie qui précede
l’absorbtion, et la partie qui s’ensuit.
§. Le calcul des probabilités d’absorbtion sera abordé en detail plus tard.
52
Ici, evidemment,  
1 1
2 2
0 0 0
 1 1
0 0 0 
 2 2 
P =

11
25
11
25
0 14
35
24 
35 
 0 0 0 1 2 
3 3
1 2
0 0 0 3 3
Considerons maintenant  1 1

2
0 0 0
2
 1
0 0 0 
1
 2 2 
P =
 0 1
5
1
5
0 3 
5 
 0 0 0 12 12 
0 0 0 14 34
Ici,  
1 1
2 2
0 0 0
 1 1
0 0 0 
 2 2 
P =

11
24
11
24
0 13
34
23 
34 
 0 0 0 1 2 
3 3
1 2
0 0 0 3 3
La probabilité d’absorbtion x = p2 (1̂) satisfait
1 1 1 1
x= + x + × 0, =⇒ x =
5 5 5 4
La probabilité d’absorbtion p(4̂) = 1 − p(1̂) = 43

En conclusion, une procédure qui fournisse la limite P doit :
1. établir si elle existe, ce qui n’est pas toujours le cas, comme on voit en examinant les
chaı̂nes de Markov périodiques (qui bougent cycliquement sur les noeuds d’un graphe)
2. inclure la résolution des problèmes d’absorbtion de la chaı̂ne de Markov dans les
classes récurentes
3. calculer la distribution stationnaire des classes récurentes.
5.8 Quelques exemples de modélisation par les chaı̂nes

de Markov
Pour modéliser une situation par une chaı̂ne de Markov, on a besoin d’abord de choi-
sir un espace d’états convenable, et ensuite de déterminer la matrice de transition. Si le
processus est ainsi complètement déterminé, alors la proprieté de Markov sera satisfaite
automatiquement.
Exemple 5.4 Supposons que une pluie eventuelle demain depend de la situation du temps
dans les trois jours précédents, ainsi : a) S’il y a eu de la pluie dans les deux jours précédents,
alors il va pleuvoir avec probabilité .8. b) S’il y a pas eu de la pluie dans aucun des trois
jours précédents, alors il va pleuvoir avec probabilité .2. c) Autrement, la situation va etre
la meme comme dans le jour precedent avec probabilité .6. Modéliser cette situation par une
chaı̂ne de Markov, en donnant l’espace des états et la matrice de transition.
53
Exemple 5.5 Un processus qui n’est pas une chaı̂ne de Markov a priori, mais qu’on peut
”rendre” Markov par un bon choix de l’espace d’états . Soit (Xn )n∈N un processus à deux
états, notés e1 et e2 . On suppose que les transitions entre les étapes n et n + 1 s’effectuent
selon le procédé suivant :
{
Si Xn−1 = Xn alors P ([Xn+1 = e1 ] | [Xn = ei ]) = 34
Si Xn−1 ̸= Xn alors P ([Xn+1 = e1 ] | [Xn = ei ]) = 12
a) Montrer que (Xn )n∈N n’est pas une chaı̂ne de Markov. b) Construire un espace d’états
permettant de modéliser ce processus par une chaı̂ne de Markov et donner alors son graphe.
Solution : b) On construit l’espace d’états suivant : {e1 ∗ e1 , e1 ∗ e2 , e2 ∗ e1 , e2 ∗ e2 }. Sur

cet’espace, le processus devient Markovien, et la matrice de transition s’écrit :
 3 1 
4 4
0 0
 0 0 1 1 
P = 1 1 0 0 
2 2 
2 2
0 0 34 14
Exemple 5.6 Une companie d’assurance voiture a un système de bonus avec cinq
niveau 1 : 0% réduction
niveau 2 : 25%réduction
niveaux pour les assurés sans sinistres déclarés : niveau 3 : 40% réduction Pour
un assuré, la probabilité de ne pas avoir de sinistre dans un an est de 0.8. Les regles selon
on passe d’un niveau (état)à l’autre sont :
Aprs̀ une année sans sinistre on passe au niveau supérieur suivant ou on reste au
niveau 5
Aprs̀ une année avec un ou plusieurs sinistres
on diminue d’un niveau si l’année précedente, il n’y a pas eu de déclaration de
sinistre.
on diminue de deux niveaux si l’année précedente il y a eu au moins une
déclaration de sinistre.
1. Notons par X(t) le niveau,soit 1, 2, 3, 4 ou 5, de l’assuré pour l’année t. Expliquez
pourquoi {X(t)}∞ t=1 n’est pas une chaı̂ne de Markov.
2. En augmentant le nombre de niveaux, définissez un nouveau processus stochastique
{Y (t)}∞ t=1 qui soit Markov et de telle manière que Y (t) représente le niveau de réduction
pour l’assuré dans l’année t.
3. Déduire la matrice de transition pour la chaı̂ne de Markov {Y (t)}∞ t=1 .
Solution :
1. {X(t)} n’est pas Markov parce que, par exemple, P[Xt+1 = 3 | Xt = 4, Xt−1 = 3, . . .]
ne peut pas se réduire à P[Xt+1 = 3 | Xt = 4].
2. Définition des nouveaux niveaux :
3=40% réduction cette année, aprs̀ 25% l’année dernière
4=50% réduction cette année, aprs̀ 40% l’année dernière
3a=40% réduction cette année, aprs̀ 50% l’année dernière
4a=50% réduction cette année, aprs̀ 60% l’ann’ee dernière
3. La matrice de transition est alors
54
1 2 3 4 5 3a 4a
1 0.2 0.8 0 0 0 0 0
2 0.2 0 0.8 0 0 0 0
3 0 0.2 0 0.8 0 0 0
4 0 0 0 0 0.8 0.2 0
5 0 0 0 0 0.8 0 0.2
3a 0.2 0 0 0.8 0 0 0
4a 0 0.2 0 0 0.8 0 0
5.9 Le paradoxe du singe savant

”Donnons du temps au temps.”
Avec suffisamment de temps, un chimpanzé qui tape au hasard sur le clavier dune ma-
chine à écrire, produira sûrement (ac. proba 1) une copie de la pièce de théâtre Hamlet de
Shakespeare.
Mais combien de temps faut-il attendre avant que ça arrive ? Voila une version allegée
de cette question.
Exercice 5.9 1. On considère une pièce non équilibrée que l’on lance un nombre indéterminé
de fois. La probabilité d’obtenir pile est p ∈]0, 1[, et la probabilité de sortir face est égale
à q = 1 − p. Les lancers sont indépendants. On note N le temps d’attente du premier
pile, c’est-à-dire le nombre de lancers qu’il faut effectuer pour obtenir le premier pile, en
incluant le pile (N ∈ {1, 2, ...}). Par exemple, si X1 = F, ...Xj−1 = F et Xj = P, j ≥ 1,
la valeur de N est j.
Dessinez l’arbre de toutes les possibilités pour cet experiment.
2. Calculez pk = P [N ] = k, k = 0, .... Quelle est la loi de N ? Calculez le premier moment
m = EN.
3. Formuler une équation pour le premier moment m = EN par la méthode du condi-
tionnement sur le premier pas, et la résoudre § .
4. Trouvez l’espérance m2 = EN2 du nombre des essais jusqu’à ce qu’on obtient deux
piles consécutives, en incluant les deux derniers résultats.
Ind : Sauf m2 , il faudra trouver en même temps m1 = E1 N(2) du nombre des essais
jusqu’à ce qu’on obtient deux piles consécutives, à partir du moment qu’on a obtenu la
première.
5. Généraliser pour k = 3 piles consécutives, et pour k arbitraire. Indication : On pourrait
utiliser un processus de Markov qui retient l’information minimale nécessaire pour
décider si l’événement désiré a eu lieu, et qui contient l’état final desiré, et tous ses
prefixes.
6. Trouvez l’espérance m̃ du nombre des essais jusqu’à ce qu’on obtient pile-face-pile,
en incluant les trois derniers résultats.
7. (*) ”Mieux
∑∞ que les moments :” Trouvez la fonction génératrice des probabilités φ∗N (z) =
Ez = k=0 pk z , et deduisez l’espérance EN (en calculant φ′ (1)), et aussi m2 = EN2 .
N k
8. (*) Soit k = 2. Abordez les mêmes questions pour φ∗N (k) (z), ainsi que pour φ∗N (k)′ (z),
où la dernière variable représente le nombre des essais jusqu’à ce qu’on obtient k piles
consécutives, en incluant la suite finale des piles.
Trouver les probabilités P [N (2) = k] pour q = 1/3.
§. on utilise la relation L(N |X1 = F ) = L(1+N ), qui est une conséquence de la décomposition ”premier
pas + le reste” N = 1 + N ′ et du fait que les distributions conditionnées par le premier pas du ”reste” N ′
sont connues : a) (N ′ |X1 = P ) ≡ 0 et b) L(N ′ |X1 = F ) = L(N ) par le fait que la seule difference entre
les réalisations possibles de N ′ et ceux de N est le moment ”de départ de la montre”, qui n’affecte pas la
distribution d’une chaı̂ne homogène
55
9. (*) Reabordez la question précédente pour k = 3.
Solutions :
1. L’espace des experiments se decompose en : E = {P, F P, F F P, F F F P, ...} = {P } ∪
F (E). En representant l’espace comme un arbre, on trouve une branche avec une seule
feuille {P }, et une branche qui est identique au arbre initial, après avoir enlevé la
feuille initiale {F }. Rémarquons cette structure recursive, qui est la clé du pb !
Les probas sont pk = pq k , k = 0, 1, .... On a à faire avec une distribution bien connue
(la géométrique ! !).
2. Il est quand même intéressant de remarquer que l’espérance peut aussi se calculer par
un conditionnement sur le premier pas :
q
m = p × 0 + q(1 + m) ⇔ m = §
p
′
Note : Pour l’autre définition d’une variable g’eométrique N (1) := N + 1 ∈ {1, 2, ...}
(en incluant la première face), on obtient par le résultat précedent
1
n := EN (1)+1 = E(N + 1) = ,
p
ou encore par conditionnement sur le premier pas :
n = E[N (1)+1 ] = P[X1 = P ]E[N (1)+1 |{X1 = P }] + P[X1 = F ]E[N (1)+1 |{X1 = F }]
= P[X1 = P ]1 + P[X1 = F ](1 + E[N (1)+1 ]) = p ∗ 1 + q ∗ (1 + n) = 1 + q ∗ n
3. Méthode A : Cherchons encore une fois une decomposition de l’espace des experiments,
en regardant simultanement l’arbre associé : E = {F P P, F F P P, ..., P F P P, P F F P P, ..., P P, } =
F (E) ∪ P F (E) ∪ {P P }.
Les trois evenements F (E), P F (E), P P fournissent une decomposition de l’espace
d’états . Par conséquant, la formule ET donne :
q + 2p 1+p
m2 = q(m2 + 1) + pq(m2 + 2) + 2p2 ⇔ m2 = =
1 − q − pq p2
Méthode B : Après le premier pas, on a une decomposition
E = F (E) ∪ P (E1 )
où on a dénoté E1 l’arbre de toutes les experiments pour arriver a deux piles, en partant
d’une pile.
Cette decomposition donne m2 = q(1 + m2 ) + p(1 + m1 ). Finalement, la decomposition
E1 = F (E) ∪ {P P }
donne m1 = q(1 + m2 ) + p(1 + 0)
§. Cela est une conséquence de la décomposition ”premier pas + le reste”
N1 = 1 + N ′
et du fait que les distributions conditionnées par départ du ”reste” sont connues : a) (N ′ |X1 = P ) ≡ 0 et
b) L(N ′ |X1 = F ) = L(N1 ) par la proprieté de Markov (oubli du passé), et par le fait que la seule difference
entre les réalisations possibles de N ′ et ceux de N1 est le moment ”de départ de la montre”, qui n’affecte
pas la distribution d’une chaı̂ne avec matrice de transition stationnaire.
56
4. Remarquons que les quatre evenements F, P F, P P F, P P P fournissent une decompo-
sition de l’espace d’états qui permet soit de constater que notre evenement d’arrêt
est arrivé, soit de relancer le processus du debut. Le conditionnement ces evenements
2 )+3p3 2
donne : n = q(n + 1) + pq(n + 2) + p2 q(n + 3) + 3p2 ⇔ n = q(1+2p+3pp3 = 1+p+p
p3
2 k−1
On devine que pour k piles consecutives, le résultat sera 1+p+ppk+p .
Méthode C : Alternativement, on peut utiliser une chaı̂ne de Markov sur l’espace
{0P, 1P, 2P, 3P }, avec état absorbant 3P (X(t) = nP signifie ici que la suite observé
au temps t contient exactement n piles à la fin. Pour illustrer, voila un exemple d’un
experiment possible et de l’evolution associé pour la chaı̂ne de Markov
( )
P F F P F P P P
0 1 0 0 1 0 1 2 3
 
q p 0
Soit Q = q 0 p la matrice des transitions entre les états transients 0, 1, 2. Le
q 0 0
vecteur m des trois espérances inconnues m = (x0 , x1 , x2 ) satisfait m = 1 + Qm =⇒
m = (I − Q)−1 1. La réponse est
1 1+p 1 + p + p2
x2 = , x 1 = , x 0 =
p3 p3 p3
5. La méthode des fonctions génératrices.
Le calcul de Ez N demande de remplaçer chaque terme de l’espace des experiments
E = {P, F P, F F P, F F F P, ...} = {P } ∪ F (E) par pnb.P q nb.F z nb.F +nb.P (avec nb.P = 1).
Soit φ(z) le résulat obtenu en ajoutant tous les termes. Observons qu’en rajoutant tous
les termes avec nb.H + nb.T = n, on obtient precisement ∑ pn z n , et donc la somme totale
est la fonction génératrice des probabiltés φ(z) = n pn z n .
∑
En rajoutant tous les termes, utilisant la formule de pn , on obtient φ(z) = ∞ n
n=0 pn z =
p
1−qz
.
Mais, il est beaucoup plus efficace d’exploiter la structure recursive, qui implique la
p
décomposition φ(z) = p + qzp(z), qui implique encore φ(z) = 1−qz .
′ q
Finalement, EN = φ (1) = p .
Rem : La méthode des fonctions génératrices (qui n’est pas vraiment necessaire
dans cet exercice simple) s’avère une des méthodes les plus puissantes pour les espaces
d’états infinis.
6. Les probabilités pk sont moins evidentes à obtenir. Ind : Utilisons la chaı̂ne de Markov
associé sur l’espace E = {0P, 1P, 2P }, avec état absorbant 2P .
p0 = p2 , p1 = qp2 , p2 = q 2 p2 , p3 = qp2 + pqp1 , ...pn = qpn−1 + pqpn−2 , ∀n ≥ 3. On trouve
n n
√ une récurrence à coefficients constants, qui donne pn = C+ λ+ + C− λ− , λ± =
ainsi
q± q(4−3q) p2 (q−λ− )
2
. Le systême C+ + C− = p2 , C+ /λ+ + C− /λ− = 0 donne C+ = λ+ −λ−
, C+ =
p2 (λ+ −q)
λ+ −λ−
.
On peut trouver la même réponse à partir de la mgf
p2 C+ C−
= + .
1 − qz − pqz 2 1 − z/λ+ 1 − z/λ−
57
7. Utilisons la chaı̂ne de Markov sur l’espace {0P, 1P, 2P, 3P }, avec état absorbant 3P .
Soit Q la matrice des transitions entre les états transients 0, 1, 2. Le vecteur φ des
fonctions génératrices des moments satisfait φ(z) = z(Qφ(z) + t).
Rem : On peut aussi trouver une formule generale pour m = φ′ (1). En differentiant
le système, on trouve φ′ (z) − zQφ′ (z) = Qφ(z) + t ⇒ (I − Q)φ′ (1) = Q1 + t = 1.
Dans le chapitre 11 on vera une solution plus simple, qui nous permettra de calcluler
l’espace d’états du temps pour qu’un chimpanzé qui tape au hasard produit le mot ABRA-
CADABRA (et le pb. analogue pour produire Hamlet sera asigné en devoir maison).
5.10 La dernière ampoule a s’éteindre, le coureur et la

tortue, les statistiques d’ordre, et la competition
des exponentielles
ex:compexp Exercice 5.10 Soit {Xi , i = 1, 2}, deux variables exponentielles indépendantes à paramètres
λi , i = 1, 2, qui representent les temps necessaires pour deux ampoules a s’ éteindre, ou le
temps des deux competiteurs pour finir un parcours. Par exemple, λ2 = .01 (la tortue), et
λ1 = .99 (le coureur).
1. Calculer les fonctions de répartition et survie de V = max[X1 , X2 ].
R : P [V ≤ t] = P [X1 ≤ t, X2 ≤ t] = (1−e−λ1 t )(1−e−λ2 t ) = 1−e−λ1 t −e−λ2 t +e−(λ1 +λ2 )t
P [V > t] = e−λ1 t + e−λ2 t − e−(λ1 +λ2 )t ∑
Rémarquez
∑ qu’il s’agit d’une combinaison d’exponentielles P [V > t] = i wi e−si t , avec
i wi = 1, mais wi pas forcemment positifs. Ce genre des lois sont aussi apellées lois
matrice-exponentielles (car elles sont representables comme F̄ (t) = αeAt 1, où A est
une matrice, et α, 1 denotent des vecteurs ligne et colonne).
2. la loi du minimum U = min[X1 , X2 ].
R : P [U > x] = P [min[X1 , X2 ] > x] = P [X1 > x, X2 > x] = e−λ1 x e−λ2 x = e−(λ1 +λ2 )x
Cet exercice est très simple en utilisant directement l’independance (sans passer par la
densité conjointe, conditionnement, ...) !
Pour comparaison, utilisons aussi une approche de decomposition en deux cas, calcu-
lables comme integrales doubles :
P [U > x] = P [x < X1 < X2 ] + P [x < X2 ≤ X1 ] = λ1λ+λ 1
2
e−(λ1 +λ2 )x + λ1λ+λ
2
2
e−(λ1 +λ2 )x =
e−(λ1 +λ2 )x (cette approche peut également être vue comme un conditionnement sur
l’ordre des Xi ).
3. calculer la transformée de Laplace φV (s) = E[e−sV ] de V , et la decomposer comme
produit des transformées de Laplace de deux lois. À partir de cette decomposition,
suggérer une decomposition de V comme somme des deux variables, avec une distribu-
tion conjointe qu’on identifiera.
4. Soit I la v.a. défini par U = XI . Calculer
P [I = 2, U > t],
ainsi que la loi de la variable I donnant l’index qui realise le minimum.
R:
∫ ∞ ∫ ∞
P [I = 2, U > t] = P [t ≤ Y ≤ X] = f2 (y)dy( f1 (x)dx)
∫ ∞ t y
λ2
= λ2 e−λ2 y e−λ1 y dy = e−(λ1 +λ2 )t = P [U > t] P [I = 2|U > t]
t λ 1 + λ 2
58
Comme P [I = 2|U > t] ne depend pas de t, il suit que U, I sont des variables indepen-
dantes § ! La généralisation de ce fait pour une competition des n exponentielles est la
fondation de la construction des processus de Markov en temps continu.
5. Soit W = V − U . Calculer P [W > t|I = 1] et P [W > t|I = 2]
6. Calculer la fonction de survie P [W > t] de W .
7. Montrer que U et W sont independantes.
8. Trouver la loi du minimum de n variables exponentielles indépendantes {Xi , i =
1, ..., n}, à paramètres λi , i = 1, ..., n, ainsi que la loi de la variable I qui donne l’index
qui realise le minimum.
9. Obtenez la loi du maximum Vn de n variables exponentielles indépendantes, avec pa-
ramètres egaux λ.
R : Vn = W0 + W1 + W2 + Wn−1 , où Wi sont des va independantes, de loi E(λ(n − i)).
5.11 Processus de Markov en temps continu(*)

Remarque 5.20 On peut aussi considerer des processus ”multi-Bernoulli” et de Markov
en temps continu, en remplaçant les jetées de dé par des ”competition des exponentielles”,
qu’on a vu dans l’exercice 5.10.
A partir de la ”competition des exponentielles” on peut aussi construir le processus de
Poisson – voir Chapitre ?? – qui compte le nb. des arrivées dans un interval donné (l’analogue
du processus binomial).
Remarque 5.21 Les processus de Markov etendent au domaine aléatoire le concept d’evolu-
tion controlée par une équation differentielle. Ils sont specifiés par un mechanisme de transi-
tion, ils ont des conditions initiales, et possiblement des limites asymptotiques. La classe des
processus Markoviens est extremement riche, avec une complexité qui depend des ensembles
E, I.
Remarque 5.22 (*) Au lieu de la matrice de transition P , on peut aussi baser l’étude des
chaı̂nes de Markov sur la matrice G = P − I ⇔ P = I + G. En temps continu, cette formule
devient
P (dt) ≈ I + dtG =⇒ P (t) ≈ (I + dtG)t/dt → etG
où G est la matrice des taux de transition du processus.
L’étude des chaı̂nes et processus de Markov contient trois types des problèmes. En ordre
de difficulté, il s’agı̂t de :
1. distribution déquilibre : limn→∞ P n et limt→∞ etG
2. distributions de premier passage, concernant le temps et la position au temps du pre-
mier passage d’une frontière
3. distributions transitoires P n et etG
Deux méthodes de base sont fondamentales pour l’étude des processus de Markov : a)
la méthode du conditionnememnt, qui permet de deriver des équations pour les espérances
conditionnés par létat initial, et la resolution des équations en utilisant des transformées (de
Laplace, Fourier, fonctions génératrices, ...)
Trois familles des processus qui jouent un role important dans les applications sont les
marches aléatoires/sommes des variables i.i.d. – voir chapitre 9, les processus stationnaires
(les processus i.i.d. étant un exemple de la deuxième famille) et les processus de Markov –
voir chapitre 6.
§. Cela est tout a fait surprenant (a priori, les chances de gagner sont .99 et .01 ; supposons que le temps
de la course est tres petit U ∼ 1/4 ; paradoxalement, ça ne change en rien la proba que le coureur a gagné !).
59
Chapitre 6
Chaı̂nes de Markov :
ch:Mark approfondissement
s:per 6.1 La périodicité

La periodicité est mieux abordée probabilitiquement, en analysant, pour chaque état ei ,
l’ensemble Ai de temps pour lequels il est possible de se trouver en i en partant de i, i.e.
(n)
Ai = {n ∈ N : pii > 0}
Remarque 6.1 Cet ensemble est fermé sous l’opération d’addition, i.e. cet ensemble est un
sous groupe de N.
{ }
(n)
Définition 6.1 Soit ei dans E. On appelle période de ei l’entier d (i) = p gcd n > 0 ; pii > 0
(autrement dit : pii > 0 ⇒ ∃m ∈ N∗ tel que n = md (i) ).
(n)
Si d (i) = 1 , l’état ei est dit apériodique.
Remarque 6.2 La période ne dépend que de la classe. Une classe de période 1 est dite
apériodique.
Remarque 6.3 On remarque, en regardant le graph de l’exercice (5.5), ou sa matrice après

le rearrangement {5, 3, 1, 4, 6, 2}
 3 1 
0 0 0 0
4 4
 0 0 0 0 
2 1
 3 3 

P = 0 0 14 0 14 
1
2 
 03 0 01 0 1 0 
4
0 4 0 0 0
0 0 0 0 0 1
que la classe transiente 1,4,6 a une propriété speciale : chaque’un de ses elements peut être
visité seulement aux dates qui sont congruents mod(3). Cette propriété, apellée périodicité,
est aussi rendue evidente en calculant les puissances de
( )
0 41 0
Q = P{1,4,6 } = P projeté sur {1, 4, 6} = 0 0 1 ,
1
4
0 0
1
qui satisfait Q3 = 16
.
60
On peut aussi detecter la periodicité en calculant les valeurs propres, i.e. les racines du
pol char. Dans l’exercice (5.5), elles sont : [(1 − x)(1 − 12x)](1 − 16x3 )(1 − x) (les trois
termes correspondent aux projections sur les trois classes). Rémarquer que les trois racines
cubiques satisfaisant λ3i = 1/16, i = 1, 2, 3 provenant de la classe transiente à Q = P{1,4,6 }
qui satisfait Q3 = 1/2Id, exhibent aussi une périodicité de degré 3, ”diminuant vers 0”.
Remarque 6.4 L’existence d’une boucle, i.e. pii > 0, assure l’apériodicité.
Exemple 6.1 Une classe de communication à matrice de transition P̃ , pour laquelle il existe
un entier c tel que P̃ c = I, apellée cyclique d’ordre c, est forcement périodique, et la période
d est parmi les diviseurs de c. Par exemple, en changeant la classe transitoire dans l’exemple
ci-dessus en sorte qu’elle contient un cycle de longueur 4 et un de longueur 2, on obtient
une classe cyclique d’ordre 4 et période 2.
L’existence de la matrice des distributions à la longue est liée à la question de la

périodicité.
per Exemple 6.2

 1 1

2 2
0 0 0 0 0
 0 0 1 0 0 0 0 
 1 1 1 1 
 0 0 0 4 
P = 0 0 0 0 
4 4 4
 0 1 0
 0 1 0 0 0 0 0  
 0 0 0 0 0 13 23 
0 0 0 0 0 12 12
On aperçoit immédiatement la classe récurrente 6, 7 et les classes transitoires 1 et 2, 3, 4, 5.

La dernière classe est le collage des deux cycles de période 3, ce que donne immédiatement
que A2 = {3k, k ≥ 0} = {3, 6, 9, ...}. Si par contre un de ces cycles avait une longueur pas
divisible par 3, par exemple 4, on aurait eu : A2 = {3k + 4l, k, l ≥ 0} = {3, 4, 6, 7, 8, 9, ...},
dans quel cas A2 contien tous les nombres en partant de 6.
On voit que les ensembles Ai contiennent toujours tous les nombres de la forme k d(i),
pour k assez grand (cela est un résultat valable pour n’importe quel semigroup de N). En ce
qui concerne la périodicité, il y a deux possibilités pour Ai , en dépendant de d=p.g.c.d de
la longueur des deux cycles :
1. Dans le cas d = 1, cet ensemble contient “tous les nombres assez grands” (en partant
d’un certain point).
2. Dans le cas d > 1, cet ensemble est un sous ensemble du sous groupe d N. Donc, la
matrice P (n) = P n ne peut converger quand n → ∞ (car il y aura des 0 qui alternent
avec des nombres positives pour toujours : voir par exemple la marche cyclique sur
Z3 ).
Remarque 6.5 On vera que la périodicité des classes transitoires n’empêche pas du tout
le calcul de la matrice de distributions à la longue, parce que la masse totale de la partie
transitoire d’une chaı̂ne converge vers 0 (voir la troisième remarque qui suit le théorème
??).
61
Par contre, la périodicité dans une classe récurrente rend la convergence impossible. On
peut démontrer que son absence assure la convergence, car cela est équivalent à l’absence
des valeurs propres qui sont racines de l’unité, et à l’absence des valeurs propres de valeur
absolue |λ| = 1, sauf λ = 1 (par Perron-Frobenius). Finalement, le fait que λn converge pour
chaque valeur propre λ assure l’existence de la limite limn→∞ P n .
Donc, la limite à la longue P = limn→∞ P n (i, j) d’une chaı̂ne existe ssi il n’y a
pas des classes récurrentes périodiques.
6.2 Ou on revoit les probabilités de premier passage in-

tervenant dans le comportement limite des chaı̂nes
Nous considerons ici le calcul des distributions ”à la longue” (ou simplement limites)
d’une chaı̂ne spécifiée par c(0) et P :
π ∞ = lim µ (n) = lim µ(0)P n (6.1)

n→∞ n→∞
pour n’importe quelle distribution initiale µ(0).

L’existence des distributions limite (6.1) est evidemment équivalente à l’existence de la
limite
P = limn→∞ P n . (6.2)
Rq : L’element generique de cette matrice
P i,j = limn→∞ Pi [Xn = j]
represente la limite des probabilites de trouver le processus en j après n pas, à partir de i.

Cf. le théorème ergodique, la limite existe (6.2) ssi il n’y a pas des classes recurrentes
periodiques, et, avec une seule classe de communication, elle est une matrice de
rang 1 de la forme
P = 1π,
où π est la ”distribution invariante”.
Q : Pourquoi 1 et π aparaissent dans la limite, et pourquoi le rang de la limite est 1
dans le cas d’une seule classe de communication ?
R : Les reponses deviennent evidentes par une ápproche algébrique, à partir de la de-
composition spectrale. Aparemment, l’”ergodicité” est equivalente algebriquement aux faits
que :
1. Une matrice stochastique P n’a pas des valeurs propres supérièures ou égales en valeur
absolue à la valeur propre λ = 1, sauf λ = 1, et que les vecteurs propres correspondant
à ces valeurs disparaissent dans la limite.
2. La multiplicité de la valeur propre 1 est égale à 1, et ses vecteurs propres á droite et à
gauche sont 1, π
Dans ce chapitre, nous allons approfondir le comportement limite des chaı̂nes de Markov,
à partir de la decomposition spectrale de la matrice de transition P . Avant le cas général,
nous analyserons en detail deux cas particuliers :
62
1. les chaı̂nes (faiblement) ergodiques, donc avec I = 1 classes récurrentes, et matrice de
transition ( )
Q q
P =
0 Pr
et où q contient les probabilités de trasition dans les états récurents.
2. les chaı̂nes absorbantes, i.e avec les classes récurrentes étant toutes de cardinalité 1.,
i.e. avec  
Q q (1) q (2) ...
0 1 0 ... 
 
 .. 
P = 
0 0 1 . 
0 .. 
.
..
 0 . 
.. .. .. ..
. . . .
6.2.1 Le cas purement absorbant : les probabilités d’absorbtion

Le cas
( le plus) simple est celui des chaı̂nes qui n’ont que des états récurrents absorbants,
Q q
où P = et où q contient comme colonnes les probabilités d’absorption immédiate
0 I
dans les états absorbants.
Comme lim Qn = 0, P doit être de la forme
( )
0 X
P =
0 I
En utilisant P P = P , on trouve la solution explicite
X = (I − Q)−1 q = P (abs) ⇐⇒ x(i) = Qx(i) + x(i) ,
oú x(i) sont les colonnes de la matrice X.

On reconnait que x(i) sont précisément les probabilités d’absorption dans la classe re-
currente i (et parfois, le ”système d’absorption” trouvé en conditionnant sur le premier pas
est la méthode la plus convenable de les obtenir.).
(abs)
Lemme 6.1 Pour une chaı̂ne absorbante, la matrice des probabilités limite P i,j = P i,j , ∀i
transitoire, ∀j absorbant a comme elements les probabilités d’absorption pi (j) = Pi {XT =
j}.
Rq : Le resultat est en fait evident, en tenant compte de l’interpretation des probabilités

limite P (i, j).
En conclusion, on trouve que la matrice limite est
( )
0 P (abs)
P =
0 I
Exercice 6.1 Calculez la matrice X dans le cas d’un seul element absorbant.
Exercice 6.2 Que devient la décomposition spectrale (7.3) et les vecteurs propres à droite
et gauche de la valeur 1 dans le cas absorbant ?
63
Solution : Cherchons à trouver un vecteur propre à droite v j et un vecteur propre à
gauche π j pour chaque élément absorbant j.
On trouve π j = ej = (0, 0, ..., 1, ..., 0). Décomposant v j = (aj , 0, 0, ..., 1, ..., 0) on trouve
que aj contiens les probabilités d’absorbtion dans la classe j.
6.2.2 La distribution limite dans le cas faiblement ergodique

Exercice 6.3 Calculez par l’approche algébrique (donc en résolvant les équations P v =
v, πP = π, πv = 1) la matrice limite P si
 
0 a1 0 a 0
 0 0 b1 0 b 
P = c1 0 0 0
 0 0 0 2/3 1/3 
c 
0 0 0 1/4 3/4
erg Théorème 6.1 Soit Xn une chaı̂ne de Markov finie avec une seule classe récurrente, qui
est apériodique.
a) Cela est algébriquement équivalent à une multiplicité un pour la valeur propre λ = 1,
et à l’absence des autres valeurs propres de valeur absolue |λ| = 1.
b) La distribution limite est unique et la limite P est une matrice de rang 1 :
P = lim P n = 1 × (0 |π ∞ ) (6.3)
n→∞
où π ∞ est la distribution stationnaire de la classe récurrente.
Rq : Ce resultat est aussi evident, en tenant compte de l’interpretation des probabilités

limite P (i, j), sauf que le resultat est cette fois determinée par ”la vie eternelle” d’après
absorbtion.
Dem : La démonstration du théorème
( 6.1
) b) par l’approche algébrique est immédiate.
Q q
En effet, prenons v = 1. Soit P = et cherchons a trouver un vecteur propre à
0 P1
gauche de la forme p = (pt , p1 ), donc satisfaisant
pt Q = pt , pt q + p1 P1 = p1 ⇐⇒
pt = (I − Q)−1 0 = 0, p1 = π
En conclusion, la structure de la matrice limite P pour les chaı̂nes faiblement ergodiques

est assez simple, pareille à celle du théorème fondamental ergodique ; il suffit de trouver la
distribution stationnaire π ∞ de la seule classe récurrente, et a ”l’étendre” par des zeros sur
les classes transitoires. En suite on utilise la formule
P =1p
où p est le vecteur π ∞ completé avec des zeros. Rémarquons encore que 1, p sont des vecteurs
propres à droite et gauche, normalisés tel que p est un vecteur des probabilités et tel que
< p, 1 >= 1, et donc la décomposition ci-dessus est un cas particulier de la forme specifiée
en (7.3).
64
6.2.3 Echauffement pour le cas general
Nous allons examiner maintenant une chaı̂ne decomposable (pour la quelle la distribu-
tion stationnaire n’est pas unique, mais peut prendre toute valeur possible dans l’ensemble
convexe engendré par les distributions stationnaires des classes recurents).
ne Exemple 6.3 Exemple de non unicité de la distribution stationaire π : Dans

5 ∑
5
l’exemple défini par la matrice ci dessous, cherchons π ∈ (R+ ) tel que πP = π et πi = 1.
i=1
 1 1

0 0 0
2
 0 1 0 1 1 
2 { π =0
 1 2 1 4 4  2
π1 = π3
πP = π ⇐⇒ (π 1 π 2 π 3 π 4 π 5 ) 
 2 0 2
0 0  = π ⇐⇒
 π5 = 2π4
 0 0 0 1 1  sum i πi = 1
2 2
0 0 0 14 34
(1 ) ( )
On voit clairement qu’il n’y a pas unicité (par exemple 2
, 0, 12 , 0, 0 et 0, 0, 0, 31 , 23 sont
des distributions stationnaires).
Cette chaı̂ne étale des “pathologies”, qu’on peut percevoir en examinant le graphe de
communication de la chaı̂ne :
Remarque : afin d’apercevoir la structure de la chaı̂ne et de calculer plus facilement
P n , il peut être intéressant de renuméroter les états en sorte que des états qui conduisent
l’un à l’autre) soient groupés ensemble.
Dans cet exemple, si on échange les états e2 et e3 , on obtient, après le rangement facilitant
des éléments dans l’ordre 1, 3, 2, 4, 5, la matrice de transition :
 1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 1 1 1 
 0 0 
 2 4 4 
 0 0 0 1 1 
2 2
0 0 0 14 34
 1 1 1 
( ) ( 1 1 )
A 0 2 4 4
a structure : P = avec A = 2
1
2
1 et B =  0 1 1 
et encore P =
0 B 2 2
2 2 1 3
  0 4 4
A 0 0
 0 B1 B1,2  où A, correspondant aux états (1, 3) (qui conduisent l’un à l’autre) et
0 0 B2
B2 , correspondant aux états (4, 5) (qui conduisent l’un à l’autre aussi) sont des matrices
stochastiques, et B1 , correspondant aux transitions entre les états transitoires ((2) est une
matrices sous-stochastique.
Il y’a ici deux pathologies par rapport au cas ergodique :
1. il existe un élément transitoire 2 (qu’on peut quitter sans retour pour toujours)
2. le graph de communication se décompose en deux classes : (1, 3) et (2, 4, 5) qui ne
communiquent pas et la matrice de transition a une structure block diagonale, appellée
“réducibilité” en proba.
65
La structure de matrice à ”blocs”, montre immédiatement qu’on peut traiter (1, 3) et
(2, 4, 5) séparément. Aussi, en enlevant l’élément “ transitoire” 2, il nous restent deux ”classes
de communication fermées”, (1, 3) et (4, 5), appellées ”classes de récurrence”, où on reste
pour toujours une fois entré.  n 
A 0 0
On verifie facilement que : P n =  0 B1n B1,2,(n) 
0 0 B2n
en reflexion du fait qu’on peut étudier les trois chaı̂nes correspondant aux A, B1 et B2
séparément.
Concernant la matrice B1 contenant les probabilités de transition entre les éléments
transitoires (appellée aussi projection de la matrice P sur la réunion des classes transitoires),
remarquons d’abord que elle est une matrice sous-stochastique.
Définition 6.2 Une matrice Q s’appelle sous-stochastique si la somme des éléments de
chaque ligne est ≤ 1, avec inegalité stricte dans au moins une ligne.
Théorème 6.2 Toutes les valeurs propres d’une matrice sous-stochastique Q ont valeurs
absolues strictement inferieurs à 1. Par conséquent
lim Qn = 0
n→∞
i.e. la limite des probabilités de transition entre les états transitoires est 0.
On verifie ici que P n (2, 2) = (1/2)n , en illustrant le théorème ci-dessus. En conclusion,

 1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 
P = lim P = 
n
 0 0 0 x 1 x 2


n→∞
 0 0 0 1 2 
3 3
0 0 0 13 32
Il reste encore à déterminer x1 , x2 .

Exercice 6.4 Montrer par une approche directe par un systéme des récurrences que ces deux
quantités sont aussi x1 = 31 , x2 = 32 .
Le calcul des elements P (i, j) où i ∈ T , j ∈ ∂ peut être abordé

1. algébriquement via la décomposition spectrale, ou
2. par une approche probabiliste qui décompose la vie d’une particule dans la partie
”transitoire” qui précede l’absorbtion, et la partie ”éternelle” qui s’ensuit.
Dans notre exemple avec une seule classe recurrente, on ”sent” que la reponse tiens de
la ”vie éternelle”.
Avec plusieurs destinations possibles (classes recurrentes), il va faloir tenir compte des
probabilités de toutes les fins possibles.
Définition 6.3 Soit i un élément transitoire d’une chaı̂ne Xn , et soit j un élément aparte-
nant à une classe de récurrence ĵ. On appelera probabilité d’absorbtion pi (ĵ) la proba-
bilité que la chaı̂ne commençée en i finisse en ĵ.
66
Le calcul des probabilités d’absorbtion sera abordé en detail plus tard.
Finalement, on arrivera à la conclusion que si la limite P = limn→∞ P n existe, elle
satisfait :
limn→∞ P n (i, j) = pi (ĵ) π(j)
où on a dénoté par pi (ĵ) la probabilité d’absorption dans la classe de récurrence de j et par
π(j) la probabilité stationnaire de j dans sa classe (qui coincide avec limn→∞ P n (i, j) pour
i ∈ ĵ). Ce deuxième facteur reflète le fait évident qu’une fois absorbée dans une classe fermée,
la marche oubliera sa position initiale et donc aura exactement les probabilités limites de la
classe.
Dans notre exemple, le fait qu’il existe une seule classe destination possible pour l’élément
transitoire 2, et donc que l’absorption dans cette classe est sûre, implique p2 (4̂) = p2 (5̂) = 1.
En conclusion  1 1 
2 2
0 0 0
 1 1 0 0 0 
 2 2 
P = 1
 0 0 0 31 32 
2 
 0 0 0 
3 3
1 2
0 0 0 3 3
Mais, si dans l’exemple 6.3 l’élément transitoire aurait eu des possibilités de passage
vers les deux classes récurrentes existantes, ça nous aurait obligé de résoudre un problème
d’absorbtion avant de calculer la limite limn→∞ P n .
En conclusion, une procédure qui fournisse la limite P doit :
1. établir si elle existe, ce qui n’est pas toujours le cas, comme on voit en examinant les
chaı̂nes de Markov qui bougent cycliquement sur les noeuds d’un graphe
2. inclure la résolution des problèmes de Dirichlet concernant l’absorbtion de la chaı̂ne
de Markov dans les classes récurentes
3. calculer la distribution stationnaire des classes récurentes.
67
Chapitre 7
L’approche algébrique aux chaı̂nes de
Markov
7.1 Demonstration algébrique du théorème ergodique,

par la decomposition spectrale
L’approche alternative algébrique au comportement limite des chaı̂nes de Markov est
utile pour mieux comprendre l’ergodicité, ainsi que pour examiner la vitesse de convergence
vers la distribution limite.
l:dec Lemme 7.1 a) Supposons qu’une matrice A satisfait A = CΛL où Λ = diag(λi ) est une
matrice diagonale. Soit ci les colonnes de C, et li les lignes de L. Alors, on a une decompo-
sition en matrices de rang 1 : ∑
A= λi c i l i
i
b) Soit une matrice A de dimension n ayant un ensemble de n vecteurs propres à droite
independants di , et donc aussi un ensemble de n vecteurs propres à gauche independants g ′i ,
calculés en prenant les lignes de la matrice G = D−1 , où D = (d1 | d2 | ... dn ) (ce cas
a lieu par exemple quand toutes les valeurs propres de P sont distinctes).
Alors, la décomposition spectrale A = DDiag(λi )D−1 := DDiag(λi )G peut-être aussi
écrite comme : ∑
A= λi di g i
i
où λi sont les valeurs propres.
∑
Dem : b) Decomposons Diag(λi ) = i λi Ei , où Ei est la matrice projection sur la
coordonné i. Alors
∑ ∑ ∑
A = D( λi Ei )G = λi (DEi G) = λi di g i
i i i
e:er Exercice 7.1 Déterminer la limite P := limn→∞ P n pour une chaı̂ne ayant
1. des valeurs propres de P distinctes (ce qui est ”le cas générique”), et
2. 1 comme la seule valeur propre de module 1.
R : Il suit immediatement par la décomposition spectrale que
 
1 0 ... 0
n n −1 
lim P = D lim Diag(λi )D = D 0 0 ... 0  D−1 = 1 π
n→∞ n→∞
... ... ... ...
68
Alternativement, par la Lemme 7.1
∑
lim P n = lim λni di g i = 1 π
n→∞ n→∞
i
Remarque 7.1 La première condition dans l’exercice 7.1 n’est pas nécéssaire. L’abondance
du cas ergodique s’explique donc par la décomposition spectrale, par la rarité du cas des
valeurs propres qui tombent précisement sur le cercle unitaire.
Remarque 7.2 Si des valeurs propres de module 1 différentes de 1 existent, il suit imme-
diatement que limn→∞ P n n’existe pas. Ces valeurs doivent satisfaire λm = 1, m ≤ dim(P ) !
Ce cas, appelée périodique, sera examiné dans la section 6.1.
∑
Remarque 7.3 Sauf la decomposition spectrale P = DDiag(λi )D−1 = i λi di g i , d’autres
méthodes de solution sont possibles, comme le Thm. de Cayley-Hamilton p(P ) = 0, où p(z) =
det(zI − P ). Dans l’exercice 5.6, on trouve
P n = xn P − yn I, x2 = 2 − a − b, y2 = 1 − a − b, ....
Aussi, ∑
pour un element fixe, une decomposition avec coefficients indeterminés comme
n
P11 (n) = i ai λi peut-être obtenue, à partir de premières valeurs de la suite (avec des
valeurs numériques, une recherche sur http ://oeis.org/ pourrait aussi aboutir)
Remarque 7.4 Il est aussi possible de determiner les classes de communication
∑ en identi-
fiant les elements nonnuls dans la matrice fondamentale (I − sP )−1 = ∞ i=0 sn n
P , mais
dans des exemples de grande dimension cela demande l’utilisation des logiciels.
7.2 Le calcul de la limite des matrice des transitions à

la longue
Le calcul de
lim µ0 P n := µ0 P
n→∞
est facile à obtenir via une approche completement algébrique, en utilisant :

1. le théorème de Perrron-Frobenius. Plus precisément, on utilise les faits que
(a) 1 est la valeur propre PF (réele, maximale) pour les matrices stochastiques P
(exercice (7.5), et
(b) dans l’absence des classes périodiques, toutes les autres valeurs propres sont stric-
tement inférièures à 1 en valeur absolue.
2. La décomposition spectrale. Revisons ici le cas le plus simple des matrices P avec forme
Jordan diagonale (par exemple avec valeurs propres λi distinctes). Soit Λ la matrice
diagonale des valeurs propres, et soit V une matrice ayant les vecteurs propres à droite
v i comme colonnes.
Remarquons que la diagonalisation
P V = V Λ ⇔ P = V ΛV −1
nous permet d’écrire
P = V ΛΠ (7.1)
69
où Π = V −1 et une matrice dont les lignes π i sont des vecteurs propres à gauche,
normalisés tq π i v j = δi,j .
La représentation spectrale (7.1) de P s’écrit aussi (vérifier !) comme
∑
P = λi v i π i (7.2)
i
Rq : La représentation (7.2) nous permet d’écrire une matrice arbitraire comme somme
de n matrices de rang 1.
En utilisant la représentation (7.2), on trouve dans le cas diagonalisable que
∑
P n = V Λn Π = λni v i π i
i
et que convergence peut avoir lieu seulement dans l’absence des valeurs propres λi ̸= λP F tq
|λi | = λP F (i.e., de périodicités). Finalement
∑
R
n
P =⇒ P = viπi = V Π (7.3)
i:λi =1
où R est le nb des classes recurrentes, et V Π sont les matrices ayant vi et π i comme colonnes
et lignes, respectivement.
Cette formule reste encore valable dans le cas général, même que la décomposition de
Jordan peut contenir des blocs nondiagonales, car les blocs de Jordan associées à des valeurs
propres tq |λ(i) | < 1 disparaissent dans la limite n → ∞ (vérifier !). On obtient donc que dans
l’absence des périodicités dans les classes récurrentes, la limite de P n est donnée toujours
par (7.3).
Théorème 7.1 1. La multiplicité de la val. propre 1 est egale au nombre R des classes
recurentes.
2. Les vecteurs propres à gauche/droite correspondant à une classe recurente r sont res-
pectivement de la forme π r 1r , où πr est la distribution stationnaire de la classe r
(completé en suite par des 0 en multipliant par 1r ), et vr = (ar , 1r ), où ar denote le
vecteur des probabilité d’absorbtion dans la classe r.
3. La limite P = limn→∞ P n existe ssi la matrice P n’a pas des valeurs propres avec
|λ| = 1 à part la valeur propre de Perron-Frobenius λP F = 1 (i.e. s’il n y a pas des
périodicités), dans quel cas elle
∑ est donnée par (7.3).
Dans ce cas, elle est egale à A v A πA .
Corollaire 7.1 1. La distribution stationnaire est unique ssi la valeur propre de Perron-
Frobenius λ = 1 a multiplicité 1.
2. Une chaı̂ne de Markov est ergodique, i.e. P n =⇒ 1π ssi les deux conditions ci dessus
sont verifiées.
En conclusion, l’étude de l’existence et l’unicité de distributions à la longue, et l’étude
du comportement asymptotique de P n , peuvent être abordés algébriquement.
Il convient quand même de s’intéresser aussi aux interprétations probabilistes, comme
par exemple, au fait que νP F coincide avec le nombre de classes récurrentes, et nous abor-
derons ensuite plusieurs aspects probabilistes du théorème de Perron-Frobenius (en fait, la
théorie des chaı̂nes de Markov finies/dénombrables peut être conçue comme une explication
probabiliste du théorème de Perron-Frobenius).
70
7.2.1 La structure probabiliste de la matrice de distributions a la
longue
Nous donnerons maintenant une méthode pour la détermination des distributions “a la
longue” d’une chaı̂ne, dans l’absence des classes récurrentes périodiques. Soit
 
Qt T1 ... ... TI
 0 P1 0 ... 0 
 .. 
 
P =  0 0 P2 0 .
 
 0 0 . . . . . . ... 
0 0 ... ... PI
une décomposition de la matrice de transition P , avec Pi , i = 1, ..., I étant les projections de
la matrice P sur les classes récurrentes, et avec Qt étant la projection de la matrice P sur
les classes transitoires. Il est facile de verifier que la puissance P n est de la forme :
 n 
Qt T1,n ... ... TI,n
 0 P1n 0 ... 0 
 .. 
 
Pn =  0 0 P2n 0 . 
 .. 
0 0
.. ..
. . . 
0 0 ... ... PIn
Cette formule de décomposition reflète les idées suivantes :
1. Les classes récurrentes ”ne savent” pas du tout qu’il existe un ”monde extérieur” ;
par conséquent, la projection Pi de la matrice P sur une classe récurrente î est elle
même une matrice stochastique et la projection de la puissance P n sur la classe i
est précisément Pin ; ce calcul peut être effectué en ignorant le reste des éléments. Le
même est vrai pour les probabilités de transition Qn (i, j) entre i et j transitoires, i.e.
la projection de la puissance P n sur les classes transitoires est précisément Qn et peut
être donc aussi calculée en ignorant le reste des éléments.
2. Les probabilités P n (i, j) pour i, j récurrentes mais dans des classes différentes sont
toujours 0 (comme pour n = 1) et alors la limite est aussi 0. Le même est vrai pour
les probabilités P n (i, j) pour i récurrent et j transitoire.
3. La limite de Qn sera toujours 0, parce que la matrice Q est sous-stochastique, et les
limites de Pin seront donné par le théorème ergodique.
En conclusion, si la limite P existe, elle est de la forme :
 
0 X1 ... ... XI
0 Π1 0 ... 0 
 .. 
 
P = 0 0 Π2 0 . 
 
0 0 . . . . . . ... 
0 0 ... ... ΠI
où X1 , ..., XI sont encore à détérminer, cf. la lemme 7.2 ci-dessous, en résolvant un pb
d’absorbtion.
Exercice 7.2 Que devient la décomposition spectrale (7.3) dans le cas décomposable et sans
éléments transitoires ?
71
7.2.2 Le calcul de la distribution limite dans le cas général
Nous considerons maintenant le cas général à plusieurs classes récurrentes. Il nous reste
seulement de calculer les limites X(i, j) := limn→∞ P n (i, j) pour i transitoire et j récurrent.
Nous avons vu dans nos exemples qu’il y a deux vecteurs de probabilités à déterminer :
a) pi (ĵ), de finir dans la classe de récurrence de j à partir de l’élément transitoire i, et
b) π(j) la probabilité stationnaire que la chaı̂ne soit observée dans l’état j (ou la pro-
portion de temps passé dans l’état j.
Pour cela, on utilisera :
mult Lemme 7.2
limn→∞ P n (i, j) = pi (ĵ) π(j) (7.4)
où on a dénoté par pi (ĵ) la probabilité d’absorption dans la classe de récurrence de j (et par
π(j) la probabilité stationnaire de j dans sa classe).
En forme matricielle, Xĵ = pĵ × π ĵ
Cette loi multiplicative est assez claire intuitivement : elle reflète l’indépendance entre
le comportement avant et après absorption, et se verifie facilement 1 .
Donc, le calcul des limites limn→∞ P n (i, j) pour i transitoire et j récurrent demande le
calcul des probabilités d’absorbtion pi (ĵ) et l’application de la lemme 7.2.
p1 Exemple 7.1 Calculer la matrice P = limn→∞ P n pour l’exemple :
 
0 a b 1−a−b 0 0
 0 1 0 0 0 0 
 0 0 12 0 1
0 
P =  0 0 0 0
2
0 1 

 0 0 12 0 1
0 
2
1 0 0 0 0 0
Solution : Après le rangement facilitant des éléments dans l’ordre 1, 4, 6, 2, 3, 5 la matrice
de transition devient :
 
0 1−a−b 0 a b 0
 0 0 1 0 0 0 
 
 1 0 0 0 0 0 

P = 
0 0 0 1 0 0 
 
 0 0 0 0 2 2 
1 1
0 0 0 0 12 12
1. En conditionnant sur la position k d’arrivée dans la classe de récurrence ĵ de j après le temps T de
transition de la partie transitoire, on trouve que :
∑
limn→∞ P n (i, j) = Pi {XT = k} limn→∞ P n (k, j) (par propr. Markov) (7.5)
k∈ĵ
∑
= Pi {XT = k} π(j)(par ergodicité de la classe récurrente) (7.6)
k∈ĵ
∑
= π(j) Pi {XT = k} = pi (ĵ) π(j) (7.7)
k∈ĵ
72
On aperçoit par la structure de matrice à ”blocs” qu’on peut traiter les classes (2) et
(3, 5) séparément. Ici, l’absorption dans les classes récurrentes se fait toujours en partant de
1, et alors les probabilités d’absorption de 4 et 6 sont identiques aux celles de 1. En plus,
l’absorption se fait avec les probabilités données a, b dans les classes récurrentes (2) et (3, 5),
respectivement.
Finalement, on trouve par la lemme (7.2)
 a b 1 b 1 
0 0 0 a+b a+b 2 a+b 2
 0 0 0 a b 1 b 1 
 a+b a+b 2 a+b 2 
 0 0 0 a b 1 b 1 
P =  0 0 0 1
a+b a+b 2 a+b 2 
 0 0  
 0 0 0 0 1 1 
2 2
1 1
0 0 0 0 2 2
Le problème du calcul de P a été simplifié ci-dessus par la connaisance immédiate des
probabilités d’absorption pi (ĵ) dans chaqune des classes récurrentes.
En applications, il faudra calculer les probabilités d’absorption pi (ĵ) séparément pour
chaque classe, sauf une, en résolvant un système d’absorption correspondant, obtenu en
”collant ensemble” toutes les éléments de chaque classe (pour la dernière classe, on peut
obtenir les probabilités d’absorption comme complémentaires de celles dans les autres classes)
p2 Exemple 7.2 Calculer la matrice P = limn→∞ P n pour l’exemple :

 1 1 1 1

0 3 6 3 6
0
 0 1 0 0 0 0 
 0 0 1−a 0 0 
P =  0 1
a 
1 
 2
0 0 0 2 
0 0 b 0 1−b 0
1 0 0 0 0 0
Solution : Aprés le rangement des éléments dans l’ordre 1, 4, 6, 2, 3, 5 la matrice de

transition devient :
 1 1 1 1

0 3
0 3 6 6
 0 0 1 1
0 0 
 2 2 
 1 0 0 0 0 0 
P = 0


 0 0 1 0 0 
 0 0 0 0 1−a a 
0 0 0 0 b 1−b
Le système d’absorption :
1 1 1
p1 (2) = p4 (2) + 1 + 0
3 3 3
1 1
p4 (2) = p4 (2) + 1
2 2
p6 (2) = p1 (2)
donne p1 (2) = 3/5 = p6 (2) et p4 (2) = 4/5, et alors les probabilités complémentaires sont :
p1 (3̂) = 2/5 = p6 (3̂) et p4 (3̂) = 1/5 (les résultats auraient pu être dévinés, en observant que
73
l’absorption dans les classes récurrentes se fait seulement en partant de 1 et de 4, tandis que
a b
6 a les mêmes probabilités d’abs. que 1. Posant ã = a+b , b̃ = a+b on trouve finalement :
 
0 0 0 35 25 b̃ 25 ã
 0 0 0 4 1 b̃ 1 ã 
 5 5 5 
 0 0 0 3 2 b̃ 2 ã 
P =  0 0 0 15 50 50 

 
 0 0 0 0 1 1 
2 2
0 0 0 0 12 12
Exercice 7.3 Démontrer la lemme 7.2, à partir des deux équations P P = P , P P = P .

Que devient la décomposition (7.3), i.e. les vecteurs propres à droite et gauche de la valeur
1 dans le cas général ?
Solution : Cherchons à trouver un vecteur propre à droite v (j) et un vecteur propre à

gauche π (j) pour chaque élément absorbant j.
On trouve π (j) = (0, 0, ..., π j , ..., 0), la distribution stationnaire de la classe j. Décomposant
v (j) = (v t , 0, 0, ..., 1, .., 1, 0, ..., 0) on trouve v t = pj , où pj sont les probabilités d’absorbtion
dans la classe j.
En travaillant en forme matricielle, on trouve les matrices de rang 1 Xj = pj × π j .
7.2.3 Le théorème de Perron-Frobenius

Exercice 7.4 Est-ce qu’il existent des matrices réeles 2 × 2, sans éléments négatifs, et avec
des valeurs propres complexes ?
La réponse est un cas particulier du :
Théorème 7.2 (Perron-Frobenius) Soit P une matrice finie sans éléments négatifs. Alors :
1. Parmi les valeurs propres de module maximal il existe toujours une, λ = λP F qui est
réelle positive, qu’on apellera la valeur propre PF (de Perron-Frobenius). Dès
lors, toutes les autres valeurs propres ont une valeur absolue inférièure ou égale à la
valeur propre λP F .
2. Le bloc de Jordan correspondant à λP F a une structure diagonale (i.e. la multiciplité
algebrique νP F de λP F est égale à la dimension de son espace de vecteurs propres), et les
espaces des vecteurs propres à droite et à gauche de λP F contiennent chacun une base
(P F ) (P F )
de vecteurs propres v i , π i , i = 1, 2, ..., νP F ayant toutes leurs composantes
nonnégatives.
3. S’il y a d’autres valeurs propres égales à λP F en valeur absolue, elles doivent être des
1/p
racines de λP F , i.e. de la forme λP F , p ∈ N.
Rémarque : Le théorème de PF a plusieurs implications pour l’analyse des chaı̂nes

de Markov homogènes à espace d’états fini. Par exemple, l’existance des valeurs propres
qui sont des racines de λP F est équivalente à la presence des périodicités dans la suite des
puissances P n , n = 1, 2, ...
e:PF Exercice 7.5 Démontrer qu’une matrice stochastique P n’a pas de valeurs propres avec
module plus grand que 1, et donc sa valeur propre PF est égale à 1. Ind : Intuitivement, les
moyennes ponderées de v données par P v ne peuvent pas augmenter les composantes de v.
74
Exercice 7.6 Montrez que le théorème de Perron-Frobenius implique :
1. Une chaı̂ne homogène à espace d’états fini a au moins une distribution stationnaire.
2. La dimension de l’espace d’états des distributions stationnaires coincide avec le nb des
classes de récurrence.
Conclusion : On voit que la connaissance de la structure du graphe de communication

simplifie considerablement le problème du calcul de la limite P .
75
Chapitre 8
Problèmes de Dirichlet/premier
passage/absorbtion pour les chaı̂nes
et processus de Markov
Exercice 8.1 On lance une monnaie biaisée, avec la probabilité de sortir face égale à q et
celle de sortir pile égale à p = 1 − q, jusqu’à ce qu’on obtient une pile. Soit N (1) le nombre
de faces précedant la première pile (N (1) = 0, 1, 2, ...). Par exemple, si X1 = F, ...Xj−1 = F
et Xj = P, j ≥ 1, la valeur de N (1) est j − 1.
1. Calculez pk = P [N (1) ] = k, k = 0, .... Quelle est la loi (distribution) de N (1) ?
2. Trouvez les moments m1 = EN(1) , et m2 = E(N(1) )2 par la méthode du conditionnement
sur le premier pas, en utilisant la relation L(N (1) |X1 = F ) = L(1 + N (1) ) (qui est une
conséquence de la décomposition ”premier pas + le reste”
′
N (1) = 1 + N ′
et du fait que les distributions conditionnées par le premier pas du ”reste” N ′ sont
connues : a) (N ′ |X1 = P ) ≡ 0 et b) L(N ′ |X1 = F ) = L(N (1) ) par le fait que la
seule difference entre les réalisations possibles de N ′ et ceux de N (1) est le moment ”de
départ de la montre”, qui n’affecte pas la distribution d’une chaı̂ne homogène).
3. Trouvez l’espérance m = EN(2) du nombre des essais jusqu’à ce qu’on obtient deux
piles consécutives.
4. Généraliser pour k = 3 piles consécutives, et pour k arbitraire.
5. ”Mieux que les moments :” Trouvez la fonction génératrice des probabilités φ∗N (1) (z) =
∑
EzN = ∞ ′
(1) k (1)
k=0 pk z , et deduisez l’espérance EN , en calculant φ (1).
6. Les mêmes questions pour φ∗N (2) (z) et pour φ∗N (3) (z), ainsi que pour φ∗N (2)′ (z) et pour
φ∗N (3)′ (z), où les dernières variables représentent les nombres des essais jusqu’à ce qu’on
obtient deux/trois piles consécutives, en incluant la suite finale des piles.
Solutions :
1. L’espace des experiments est : E = {P, F P, F F P, F F F P, ...} = {P } ∪ F E.
pk = pq k , k = 0, 1, .... On a à faire avec une distribution bien connue (la géométrique ! !).
2. Il est quand même intéressant de remarquer que l’espérance peut aussi se calculer par
un conditionnement sur le premier pas :
q
m1 = p × 0 + q(1 + m1 ) ⇔ m1 =
p
76
′
Note : Pour l’autre définition d’une variable g’eométrique N (1) := N (1) + 1 ∈ {1, 2, ...}
(en incluant la première face), on obtient par le résultat précedent
1
n := EN (1)+1 = E(N (1) + 1) = ,
p
ou encore par conditionnement sur le premier pas :
n = E[N (1)+1 ] = P[X1 = P ]E[N (1)+1 |{X1 = P }] + P[X1 = F ]E[N (1)+1 |{X1 = F }]
= P[X1 = P ]1 + P[X1 = F ](1 + E[N (1)+1 ]) = p ∗ 1 + q ∗ (1 + n) = 1 + q ∗ n
3. Remarquons que les trois evenements P P, P F, F fournissent une decomposition :
G = {F G} ∪ {P F G} ∪ {P P }
de l’espace d’états qui permet soit de constater que notre evenement d’arrêt est arrivé,
soit de relancer le processus du debut. Par conséquant :
q(1 + 2p) 1+p

n = q(n + 1) + pq(n + 2) + 0p2 ⇔ n = = −2
1 − q − pq p2
4. Remarquons que les quatre evenements F, P F, P P F, P P P fournissent une decomposi-

tion de l’espace d’états qui permet soit de constater que notre evenement d’arrêt est ar-
rivé, soit de relancer le processus du debut. Le conditionnement sur F, P F, P P F, P P P
2)
1+p+p2
donne : n = q(n + 1) + pq(n + 2) + p2 q(n + 3) + 0p2 ⇔ n = q(1+2p+3p
p3 = p3
− 3 (et
pour inclure les derniéres trois piles, on ajoute 3).
5. La méthode des fonctions génératrices :
Remplaçons chaque terme de l’espace des experiments par pnb.P q nb.F z nb.F (nb.P = 1).
Soit p(z) le résulat obtenu en ajoutant tous∑
les termes. Observons qu’en rajoutant tous
les termes, on obtient precisement φ(z) = ∞ n p
n=0 pn z = 1−qz .
Nous pourrions aussi remarquer la décomposition φ(z) = p + qzp(z), qui implique
p
encore φ(z) = 1−qz .
Finalement, EN(1) = φ′ (1) = pq .
Rem : La méthode des fonctions génératrices (qui n’est pas vraiment necessaire
dans cet exercice simple) s’avère une des méthodes les plus puissantes pour les espaces
d’états infinis.
6. Les probabilités pk sont moins evidentes à obtenir. Ind : Utilisons une chaı̂ne de Markov
associé, sur l’espace E = {0P, 1P, 2P }, avec état absorbant 2P .
p0 = p2 , p1 = qp2 , p2 = q 2 p2 , p3 = qp2 + pqp1 , ...pn = qpn−1 + pqpn−2 , ∀n ≥ 3.
7. Ind : Utilisons une chaı̂ne de Markov associé, sur l’espace E = {0P, 1P, 2P, 3P }, avec
état absorbant 3P . Soit Q la matrice des transitions entre les états transitoires 0, 1, 2.
Le vecteur φ des fonctions génératrices des moments satisfait φ(z) = z(Qφ(z) + t).
Rem : On peut aussi trouver une formule generale pour m = φ′ (1). En differentiant
le système, on trouve φ′ (z) − zQφ′ (z) = Qφ(z) + t ⇒ (I − Q)φ′ (1) = Q1 + t = 1.
77
Exercice 8.2 Etant donnée une chaı̂ne finie avec deux états absorbants 0, B et le reste des
états transitoires, Obtenez un système et une formule explicite pour le vecteur b = (bi =
Pi [XT = B], i ∈ T ).
Sol : b = Qb+ aB ⇔ b = (I − Q)−1 aB où aB est le vecteur des probabilités d’absorbtion

directe en B (i.e. après un pas).
Sommaire : Nous étendrons en suite l’approche de cette section aux plusieurs problèmes
concernant l’absorbtion de marches aleatoires, pour les chaı̂nes de Markov de transition P .
Brèvement, après avoir associé à chaque chaı̂ne un operateur G = P − I, nous obtiendrons
les mêmes équations linéaires en fonction de G (la seule difference étant le fait que les
solutions au cas des pbs de grande taille demandent l’utilisation des méthodes numériques
plus pointues).
8.1 Les chaı̂nes de Markov absorbantes

Définition 8.1 Une chaı̂ne s’apelle absorbante si tous ses états récurrents sont absorbants,
i.e. Pi,j = δi,j pour chaque état i récurrent.
Motivation : Parfois, une chaı̂ne/marche est forcée de rester dans un sous-ensemble

de son espace d’états initial par des diverses méchanismes de contrainte. Par exemple, une
marche sur Z qui est contrainte à rester nonegative, donc en N, pourrait être absorbée en
0 pour toujours, ou ”réfléchie”, i.e retournée en N dés qu’elle arrive dans le complement
∂ = Z − N.
Le méchanisme de contrainte le plus simple est l’absorbtion. On appellera l’ensemble des
états absorbants ”cimetière” ∂ ; ceux-ci sont characterisés par des probabilités de transition
Pi,j = δi,j , ∀i ∈ ∂, ∀j.
8.2 Les problèmes de Dirichlet/premier passage

Les problèmes de Dirichlet ont comme objet l’étude des temps de sortie N , de la distri-
bution du point de sortie XN ∈ ∂, et des diverses autres fonctions comme des prix finaux ou
des coûts accumulés par la marche jusqu’au moment de son absorbtion en ∂.
Pour les marches aléatoires, on a vu que tous ces problèmes aboutissaient dans des
équations de différences (ou différentielles, si l’espace d’états était Rd ). On verra maintenant
que pour les chaı̂nes de Markov, ces problèmes aboutissent dans des équations impliquant la
matrice G = P − I. La méthode pour établir ces équations est toujours le conditionnement
sur le premier pas. ∪
Soit Xk une chaı̂ne de Markov absorbante à espace d’états S = T ∂ = {1, 2, ...I, C1, C2, ..},
où
( les états en) T sont transitoires, et les états ∂ = {C1, C2, ...} sont absorbants. Soit
Q | q (T ,∂)
la matrice de transition et soit α la distribution initiale.
0 | I
Définition 8.2 Soit Xt une chaı̂ne absorbante, soit ∂ l’ensemble des états absorbants, et soit
T le sous-ensemble (complémentaire) d’états transitoires. On appélera temps de premier
passage/sortie/absorbtion N le premier temps quand le processus Xt n’est plus en T (et
donc est arrivé en ∂)
N = inf{t : Xt ∈ / T } ∈ {1, 2, ...}
78
Remarque 8.1 N est precisement le nombre de temps t ∈ {0, 1, 2, ...N − 1} passés en T ,
en incluant la position initiale.
8.3 La loi multivariée du temps de premier passage, et

de la position finale
On s’intéresse dans la distribution et l’espérance des variables d’absorbtion, comme
le temps d’absorbtion N jusqu’au premier passage dans l’ensemble des états l’absorbants ∂,
la position après absorbtion XN et la position avant absorbtion XN −1 , par exemple :
1. La distribution de N .
2. Les espérances des temps d’absorbtion n = (ni , i ∈ T ), où ni = Ei N.
3. Les probabilités d’absorbtion dans les différents états absorbants (s’il y en a plusieurs).
On vera qu’elles sont toutes calculables en utilisant la loi ”multivariée” du temps de
premier passage N conditionnée par le point de départ x et joint avec le point final y. Plus
precisement, nous allons étudier d’abord les matrices de dimension |T | × |∂| et |T | × |T |,
respectivement, ayant comme elements les probabilités jointes d’absorbtion en k pas et survie,
avec départ en x et point final en y :
p(k) = P{N = k, X(k) = .} = (px,y (k), x ∈ T , y ∈ ∂), px,y (k) := Px {N = k, X(k) = y}

P (k) = P{N > k, X(k) = .} = (P x,y (k), x ∈ T , y ∈ T ), Px,y (k) := Px {X(k) = y} (8.1)
t:mv Théorème 8.1 a) Pour une chaı̂ne de Markov absorbante à matrice de transition
( )
Q | q (T ,∂)
0 | I
les probabilités multivariées (8.1) sont données par :
P (k) = Qk ,
∑
∞
P ∗ (z) := z k P (k) = (I − zQ)−1
k=0
k−1 (T ,∂)
p(k) = Q q ,
k−1 (T ,∂)
p(k)1I∂ = Q q 1I∂ = Qk−1 q = (I − Q)Qk−1 1IT ,
où q = q (T ,∂) 1I∂ = (I − Q)1IT

b) Avec distribution initiale α, et en considerant toutes les points finales possibles, on
a:
P{N > k} = P{N ≥ k + 1} = αQk 1IT

P{N = k} = α(I − Q)Qk−1 1IT
∑
∞
φN (z) = EzN−1 = zk−1 P{N = k} = α(I − Q)(I − zQ)−1 1IT
k=1
79
Exercice 8.3 Démontrez le théorème. Ind : Les matrices p(k), P (k) satisfont les recur-
rences :
p(k) = Qp(k − 1), p(1) = q, et P (k) = QP (k − 1), P (0) = I
qui ramènent (en itérant) au résultat :
∑
Démonstration alternative : IN =k = x0 ,x1 ,...,xk−1 ∈T ,y∈∂ IX0 =x0 ,X1 =x1 ,...,Xk−1 =xk−1 ,Xk =y∈∂∈T .
Dès lors,
∑
Px0 {N = k, Xk = y} = Qx0 ,x1 Qx1 ,x2 ...Qxk−2 ,xk−1 q (T ,∂)
xk−1 ,y = Q
k−1 (T ,∂)
q (x0 , y)
x1 ,...,xj−1 ∈T
Les résultats en b) sont obtenus en prenant somme en y et somme en x, ponderé par les
poids α.
Remarque 8.2 Cette demonstration peut-être visualisée en utilisant ”l’arbre de toutes les
cas possibles”.
Définition 8.3 Une variable n ∈ N ayant une loi representable comme
P{N = k} = α(I − Q)Qk−1 1, k ≥ 1
où Q est une matrice sous-stochastique, et α est un vecteur ligne des probabilités, sera
appellée de type matrice-géométrique, et aussi de type ”phase”.
8.4 Les espérances des lois de type phase

t:EN Théorème 8.2 a) Les espérances n = (nx , x ∈ T ) du nombre des pas jusqu’à l’absorbtion
à partir des états transitoires satisfont le système d’absorbtion
n = Qn + 1
b) Elles sont données explicitement par :
n = (I − Q)−1 1
c) Avec une distribution initiale α, l’espérance n̄ = Eβ N du temps d’absorbtion est :
n̄ = EN = α(I − Q)−1 1
Remarque 8.3 Comme toujours, le système et la méthode donné au point a) sont plus im-
portants que la formule explicite donnée en b) ; en effet, l’inversion des matrices n’est pas
forcement la meilleure solution pour résoudre un système. Aussi, il existe beaucoup de varia-
tions de ce problème, ramènant a une diversité des formules expilcites, pendant que le principe
pour obtenir les systèmes et toujours le même : conditionnement sur le premier pas.
Ce problème fournit donc une illustration du fait que conceptuellement et numériquement,
les systèmes d’équations sont plus utiles que leurs solutions explicites !
Demonstration par conditionnement sur le premier pas : a) est équivalent au
système ∑ ∑ (T ,∂)
ni = Qi,j (nj + 1) + qi,j ∗ 1,
j∈T j ∈T
/
obtenu par un conditionnement sur le premier pas.

b) est simplement la solution du système donné en a).
80
Exercice 8.4 Montrez que
∑
∞
EN = P{N ≥ k}
k=1
Rémarque : Cet exercice nous fournit une deuxième démonstration du Théorème 8.2,
à partir du théorème 8.1 :
∑
∞ ∑
∞
n = P{N ≥ k} = P{N ≥ k, X(k − 1) = .}1IT
k=1 k=1
∑
∞
= Qk−1 1IT = (I − Q)−1 1IT
k=1
Dir1 Corollaire 8.1 Soit G e := Q − I. Les espérances des temps d’absorbtion à partir des tous
les états transitoires n satisfont le satisfont le système
e +1=0
Gn (8.2)
ni = 0, ∀i ∈ ∂
Remarque 8.4 Ceci est notre premier exemple de ”système de Dirichlet” faisant intervenir
e Formulé comme ci-dessus, il est valable aussi en temps continu (et en fait pour
l’operateur G.
tous les processus de Markov).
Remarque 8.5 La matrice G e a seulement ses valeurs propres avec partie réelle negative,
étant par conséquent inversible.
Remarque 8.6 La matrice (I − Q)−1 intervenant dans la formule
[∑
∞
]
n = (I − Q)−1 1 = (Q)i 1
i=1
a une interprétation probabiliste importante. Remarquons d’abord la décomposition en

indicateurs
∑∞
N= Ik
k=0
∑∞
où Ik est l’indicateur d’être dans la partie transitoire au temps k. Donc, ni = k=0 Ei Ik .
Remarquons aussi la décomposition en indicateurs
∑
Ik = Ik,j , Ik,j = 1I{X(k)=j}
j∈T
où Ik,j est l’indicateur d’être en position j ∈ T au temps k. Ces décompositions nous four-
nissent une troisième démonstration du Théorème 8.2
∑
∞ ∑ ∑
∞ ∑
ni = Ei Ik,j = (Q)ki,j
k=0 j∈T k=0 j∈T
81
Changeant l’ordre de sommation nous ramène à
(∞ )
∑ ∑ ∑ ∑
ni = k
(Q)i,j = (I − Q)i,j := ni,j
j∈T k=0 j∈T j∈T
où
ni,j = (I − Q)i,j
est le temps total esperé passé en j avant le passage dehors les états transitoires.
La ligne i de la ”matrice fondamentale” (I − Q)−1 nous fournit ”le bilan de la vie”, avec
état initial i !
8.5 Exemples des distributions de type phase

( )
p | 1−p
e:N Exemple 8.1 Soit une chaı̂ne sur {1, 2} définie par la matrice de transition
0 | 1
avec X0 = 1 (i.e., la loi initiale est c0 = (1, 0)).
Soit N le nombre des transitions jusqu’à l’absorbtion, en partant du temps 0
a) Quelle est la valeur de N si X0 = X1 ...Xk−1 = 1 et Xk = 2 ? Quellle est l’espace
d’états de N ?
b) Trouvez l’espérance n = EN du nombre des pas N jusqu’à l’absorbtion, en partant du
premier état (i.e. X0 = 1, α = (1, 0)).
( )
q 1 p1 | 0
ser Exercice 8.5 Soit la matrice de transition 0 q2 | p2
0 0 | 1
a) Trouvez l’espérance de N , et le bilan de la vie.
b) Soit N = N1 + N2 , où Ni est le nombre de fois qu’on reste en i. Montrez que la
distribution de N1 conditionné par N est uniforme et calculez la distribution de N , si q1 =
q2 = q.
c) Généralisez au cas des matrices de ce type (série) de taille K + 1.
Remarque 8.7 Avec q1 = q2 = q, on peut aussi résoudre l’exercice en remarquant que

Ni sont des variables géométriques, et donc N est hypergéométrique (une somme des
géométriques).
( )
q1 0 | p1
par Exercice 8.6 Soit la matrice de transition 0 q2 | p2 et la distribution initiale (β1 , β2 , 0).
0 0 | 1
Trouvez l’espérance et la distribution de N , et le bilan de la vie.
Exercice 8.7 a) Pour une chaı̂ne a deux états 0, 1 avec P0,1 = λ, P1,0 = µ, calculez l’espe-
rance t0 du temps de retour T0 (retour en 0, conditionné par un départ en 0).
b) Verifiez l’identité t0 = π0−1 /P0 [X1 ̸= 0], valable pour toutes les chaı̂nes ergodiques.
c) Quelle est la distribution du T0 ?
Conclusion : Les distributions de type phase demandent le calcul des puissances/exponentielles

de matrices. Ces expressions sont très vite obtenues par logiciels comme Matlab, etc ; comme
pour la plupart des matrices, les valeurs propres ne sont pas accessible analytiquement, leur
calcul demande en effet une évaluation numérique.
82
8.6 Les probabilités d’absorbtion
Définition 8.4 Soit Xt un processus, soit E un sous-ensemble arbitraire de l’espace d’états
, et soit ∂ son complémentaire. On appelera processus absorbé en l’ensemble d’arrêt ∂
le processus X̃t obtenu à partir de Xt en modifiant tous les états en ∂ en sorte qu’ils soient
absorbants.
Dans le prochaine exemple, nous utilisérons plusieurs ensembles d’arrêt.
Exemple 8.2 Pour une marche aléatoire Xt , t = 0, 1, 2, ... sur le graphe papillon
ci-dessous, calculer :
O U
A C
1. L’espérance nU en sortant de U du nombre de pas N jusqu’au noeud O. Indication :

Utiliser la symmetrie.
2. Les probabilités stationnaires de chaque noeud.
3. L’espérance en sortant de O du nombre de pas ÑO jusqu’au premier retour à O.
4. La probabilité pA = PA {XN = O} = PA {NO < NU }, où N = min[NU , NO ].
Solution : 4) En résolvant le système d’absorbtion pour pA , pB , pC , on trouve pA =

3/4, pB = 1/2, pC = 1/4.
Supposons qu’il y a plusieurs états absorbants à probabilités d’absorbtion p(j) , j ∈ S − ∂,
qui donnent des ”prix finals” f = {fj , j ∈ ∂}, posons p̂i = Ei f(N), et p̂ = {p̂i , i ∈ S − ∂}
le vecteur de prix finals esperés. Le calcul de p̂ est le fameux problème de Dirichlet. Par
exemple, pour f j = {0, ..., 0, 1, 0, ...} = {δj (i), i = 1, 2, ...} (avec le 1 sur la position j) on
obtient les probabilités d’absorbtion p̂i (j) = Pi {XN = j} = Ei I{XN =j} .
La théorie des chaı̂nes pour les quelles tous les états récurrents sont absorbants peut être
utilisée pour étudier n’importe quelle chaı̂ne, en modifiant certaines transitions.
Théorème 8.3 Le vecteur p̂ d’espérances d’un ”prix final” f satisfait le système d’ab-
sorbtion
p̂ = Qp̂ + q (T ,∂) f
En particulier
83
Théorème 8.4 Les probabilités d’absorbtion p̂(j) dans un état absorbant fixe j satisfont le
système d’absorbtion
(j)
p̂(j) = Qp̂(j) + p(T ,∂)
(j)
où p(T ,∂) denote le vecteur des probabilités de transition dans l’état absorbant j.
La matrice P (abs) des probabilités d’absorbtion satisfait :
P (abs) = QP (abs) + q (T ,∂)

et donc
P (abs) = (I − Q)−1 q (T ,∂)
Dir2 Corollaire 8.2 Soit G := P − I. Avec un prix final arbitraire f , les prix finaux espérés p
à partir de tous les états satisfont le système d’absorbtion
Gp = 0 (8.3)
pi = fi , ∀i ∈ ∂ (8.4)
Corollaire 8.3 Avec une distribution initiale α, avec un prix final arbitraire f , on a l’espace
d’états :
p̂ = α(I − Q)−1 )q (T ,∂) f
8.7 L’opérateur associé à une chaı̂ne de Markov

L’opérateur associé (ou générateur) à une chaı̂ne de Markov est la ”matrice génératrice”
G = P − I.
Définition 8.5 Une matrice G satisfaisant
1. gij ≥ 0 si i ̸= j, gii ≤ 0 et
∑
2. gi,i + j̸=i gi,j = 0
sera appellée matrice génératrice. ∑
Une matrice G satisfaisant 1. et gi,i + j̸=i gi,j ≤ 0 sera appellée sous-génératrice.
Exercice 8.8 Pour une matrice (sous)stochastique arbitraire, la matrice G = P − I est une
matrice (sous) génératrice.
Remarque 8.8 Il est facile de verifier que la matrice G = P − I a les mêmes vecteurs
propres comme P , et que ses valeurs propres sont translatées par −1.
Les équations de Dirichlet –voir ci dessus– concernant les chaı̂nes de Markov en temps
discret peuvent être formulées egalement en termes de P ou de G, mais l’avantage de la
dernière formulation et qu’elle generalise pour le temps continu.
84
Chapitre 9
Les marches aléatoires/sommes des
ch:MA variables i.i.d. au temps fixes
Motivation : Les marches aléatoires sont parmi les modèles probabilistes les plus utiles
(par exemple en physique, mathématiques financières, files d’attente, statistique, etc...). Ils
sont aussi parmi les modèles les meilleurs compris, car ils permettent souvent des solutions
analytiques.
9.1 Marches aléatoires sur Rd

Définition 9.1 Marches aléatoires sur Rd .
Soit (Zn )n∈N une suite de variables aléatoires réelles i.i.d (i.e. indépendantes et de même
loi), à valeurs en Rd .
Le processus Xn ∈ Rd , n = 0, 1, ... donné par la somme de ces variables
Xn = X0 + Z1 + Z2 + · · · + Zn , n∈N (9.1)
s’appelle marche aléatoire. Comme alternative, la marche aléatoire peut être definie
récursivement par la récurrence
Xn = Xn−1 + Zn (9.2)
Exemple 9.1 Marches aléatoires sur Zd Typiquement, on s’interesse au cas où l’espace
d’états est un maillage régulier comme Zd , i.e. X0 , Zn ∈ Zd ont une loi discrète p = (pi , i ∈
Zd ) (dans ce cas, nous avons à faire à une chaı̂ne de Markov à espace d’états dénombrable).
Exemple 9.2 Si en plus |Zn | = 1, i.e. pi ̸= 0 ssi i est un voisin de l’origine, le processus
(9.1) est appelé une marche aléatoire simple.
Exemple 9.3 Pour une marche aléatoire simple en dimension d = 1, la loi de Zn est de
la forme pδ1 + (1 − p) δ−1 , i.e. P [Zn = 1] = p et P [Zn = −1] = 1 − p avec 0 < p < 1. Si
p = q = .5 on parle d’une marche aléatoire symmetrique, et avec p ̸= q on parle d’une
marche aléatoire biaisée.
n
∑n Notes : 1) On a à faire ici à des sommes des v.a. i.i.d.. Donc, P (0, :) la loi de la somme
i=1 Zi , est donnée par la n-ième convolution de la loi p de Zi (et la fonction génératrice des
moments est la puissance n de la fonction génératrice des moments de p). Le comportement
des puissances P n pour n → ∞ est lié au théorème de la limite centrale.
85
9.2 Moments et cumulants des marches aléatoires
Exercice 9.1 Les moments et cumulants de la marche simple. Soit X0 = 0 ∈ N le
capital initial d’un joueur. Au temps n = 1, 2, ..., le joueur gagnera Zn = 1 avec probabilité p
et perdera Zn = −1 avec probabilité 1 − p, où 0 < p < 1. Soit Xn = X0 + Z1 + Z2 + · · · + Zn
son capital au temps n.
Calculez :
1. L’espérance du son gain en = EXn .
2. La variance du son gain vn = Var Xn .
3. La fonction génératrice des moments M (u, n) = EeuXn .
4. La fonction génératrice des cumulants κ(u, n) = log(EeuXn ).
5. La fonction génératrice des cumulants κ̃(u, n) = log(EeuX̃n ) de la variable ”norma-
lisée” X̃n = X√n −e
vn
n
Notes : 1) Il est clair que ces propriétés de linéarité (de l’espérance , de la variance, et
de la fonction génératrice des cumulants), sont vraies pour chaque marche aléatoire.
2) La connaissance de la loi ou de la fonction génératrice ∑n des moments d’une variable
X sont typiquement equivalents. Mais, pour une somme i=1 Zi des v.a. i.i.d., pendant
∗,n
que la loi est
∑n
la n-ième convolution p de la loi p de Zi , la fonction génératrice des mo-
ments Eeθ i=1 Zi est beaucoup plus simple à obtenir (ètant la n-im̀e puissance de la fonction
génératrice des moments EeθZ1 ).
Exercice 9.2 Soit ∑ munn = mn (X),

∑ n = 0, 1, 2, ... les moments d’une va X, soit κX (u) =
un
log MX (u) = log( n n! mn ) = n n! cn (X) la fonction génératrice des cumulants, où cn =
n κ(u)
cn (X) = ∂(∂u) n sont les cumulants.
u=0
Montrez (en utilisant eventuellement un logiciel symbolique) que
∀X, m2 = c2 + c21 , m3 = c31 + 3c1 c2 + c3 , ... ⇐⇒

c0 = 0, c1 = m1 , c2 = Var (X) = m2 − m21 , c3 = m3 − 3m1 m3 + 2m31 , ...
Nt : 1) Le cumulant d’un ordre donné est un polynome dans les moments d’ordre plus
petit ou égal, et reciproquement.
2) Les coefficients de l’expansion des moments en fonction des cumulants sont donné par
des nombres des partitions (de Stirling).
3) Les cumulants d’une variable centré (m1 = 0) coincident avec les moments jusqu’au
troisième ordre. C’est le quatrième cumulant, la ”kurtosis”, donné dans le cas centré par
c4 = m4 − 3m22 , qui joue un role important dans certaines tests statistiques (comme de
nonnormalité, par exemple).
Exercice 9.3 Pour la marche simple, calculez

1. Le premier, deuxième et troisième cumulants∑κi (n), i = 1, 2, 3 de Xn , i.e. les premiers
trois coefficients dans l’expansion κ(u, n) = i κi (n)ui en puissances de u.
2. Le deuxième moment de Xn . Quelle est la particularité du cas p = 1/2 ?
3. Le troisième moment de Xn .
86
Un des pb les plus anciennes des probas a été d’etablir que la repetition d’un expe-
riment (comme la jetée d’une monnaie) un grand nb des fois devoile sa moyenne), et que
le histogramme (loi) des deviations de la moyenne converge vers ”la courbe en cloche de
Gauss”. Pour reviser ces lois importants et d’autres, nous ferons un detour par les modes de
convergence possibles, dans la Section 2.
Théorème 9.1 Les marches aléatoires sont des processus de Markov. Les marches
aléatoires sur Rd ont la propriété de Markov.
Démonstration: Ce résultat est assez compliqué à démontrer en général en partant de

(9.2), mais nous allons considérer seulement les marches aléatoires sur Zd , pour rester dans
le cadre des processus à espace d’états dénombrable. Dans ce cas, il est essentiellement
suffisant d’exhiber la matrice de transition .
∑
Exemple 9.4 Les marches aléatoires Sn = ni=1 Zi , Zi i.i.d. satisfont la proprit́é de Markov ;
cette famille est aussi une trasformation simple des processus à variables indépendants, et
ça simplifie son étude (par exemple la démonstration du CLT), et aussi la preuve que ces
processus sont Markoviens – voir Exe 5,6 en Philippe-Viano, qui demontrent que chaque
processus defini par une récurrence
Xn+1 = f (Xn , Zn )
où Zn sont i.i.d. est Markovien.
Pour les marches sur Z, la matrice de transition

P = (pij = P{Xn = j/Xn−1 = i} = P{Zn = j − i})i,j∈N a aussi la propriété que Pi,j =
pi−j , où pk = P{Zn = k} ; les matrices de cette forme, i.e. à “diagonales” constantes, s’ap-
pellent matrices Toeplitz.
Exercice 9.4 Exercices 4,7,8 en Philippe-Viano.
87
Chapitre 10
Problèmes de premier passage des
marches aléatoires et relations de
récurrence
10.1 La méthode du conditionnement sur le premier pas

Exercice 10.1 La marche aléatoire symetrique. On cherche a trouver la probabilité
d’un joueur qui s’engage dans une série de parties (indépendantes) à un jeu où à l’issue de
chaque partie il gagne 1F avec une probabilité 1/2 et perd 1F avec une probabilité 1/2, et qui
décide de s’arrêter de jouer dès qu’il aura B francs en poche, ou dès qu’il n’a plus d’argent.
Pour tout n ∈ N, on note Xn la fortune du joueur au bout de n parties, et X0 = i sa fortune
à l’entrée dans le Casino.
Ca revient a étudier la marche aléatoire symetrique
Xn = X0 + Z1 + Z2 + · · · + Zn , Xn ∈ Z
avec P [Zn = 1] = P [Zn = −1] = 1/2, jusqu’au ”temps d’arrêt/sortie” T = min[T0 , TB ]

quand le process sort de l’interval [0, B] (en prenant 0 et B comme états absorbants). On
dénotera par Ei l’espérance en commençant de i (conditionnant sur X0 = i), et on designe
par E l’événement que le joueur gagne, i.e.
E = {xT = B} = [∃n ∈ N tel que Xn = B, Xk > 0, k = 1, ..., n − 1] .
Pour tout i de {0, ..., B}, on pose :
bi = P (E | [Xt0 = i])
(la probabilité du ”bonheur”).

1. En supposant B = 3, enumerer et esquisser l’espace de tous les chemins du bon-
heur/ruine qui commencent avec X0 = 1, en developpant ”l’arbre de toutes les pos-
sibilités”. Calculer la probabilité du chaque chemin, et verifier que leur somme vaut
1.
2. Expliquer graphiquement sur ”l’arbre de toutes les possibilités” les équations b1 =
1/2b2 , b2 = 1/2b1 + 1/2, en assoc. Déduiser b0 , b3 , et en suite b1 , b2 .
3. En supposant B = 4, calculer b1 , b2 et b3 .
4. Calculer bi , i = 0, ..., B pour B quelconque.
5. Calculez l’espérance du nombre des pas du jeux, pour B quelconque.
R : On pourrait essayer de calculer bi en ajoutant les probabilités de tous les chemins du

bonheur qui commencent avec X0 = 1 (en regardant l’arbre de toutes les possibilités). Mais
comme cet arbe est (typiquement) infini et très compliqué, cette analyse n’est pas facile. Par
88
contre, une approche ”diviser por conquérir” de décomposition de l’arbre dans ses branches
obtenues en conditionnent sur le premier pas rammène à des’équations linéaires faciles à
résoudre.
Cet exercice illustre trois idées :
1. La puissance de la méthode du conditionnement sur le premier pas.
2. Le calcul des espérances pour les chaı̂nes de Markov comporte des systèmes linéaires
avec une inconnue pour chaque état initial possible.
3. Les systèmes associés avec un processus fixe implique toujours la même partie ho-
mogène appellée ”operateur”. Dans le cas des chaı̂nes de Markov en temps discret
et à espace d’états fini ou dénombrable, l’ operateur est ”essentielement” la matrice
P − I, où P est la matrice de transition P .
Plus precisement, la matrice P de la marche symmetrique (absorbante) pour B = 4
est  
1 0 0 ... ...
1 .. 
2 0 1 . 
 2 
0 2 1
0 1
0 
. . 2 
 .. . . 1 1 
 2
0 2 
.. . . . .
. . . 0 1
et on verifie facilement que l’operateur P − I agit sur un vecteur ⃗v = (v0 , ..., v4 ) par la
formule (P − I)⃗v = (0, v0 +v
2
2
− v1 , v1 +v
2
3
− v2 , ..., vn−1 +v
2
n+1
− vn , ..., 0).
Ces idées seront aprofondies dans les chapitres suivants, où nous regarderons quelques
autres problèmes résolubles par le conditionnement sur le(s) premier(s) pas.
10.2 La ruine du joueur pour la marche aléatoire simple

Nous généraliserons maintenant les resultats du chapitre precedant pour la marche uni-
dimensionelle symetrique au cas des marches simples asymetriques. En même temps, nous
étudiérons d’autres problèmes concernant l’absorbtion de la marche aléatoire simple unidi-
mensionnelle (des équations similaires peuvent-être obtenues dans toute dimension, mais les
solutions sont disponibles explicitement seulement dans le cas unidimensionnel).
Exemple 10.1 La ruine du joueur et autres ”problèmes de Dirichlet” pour la

marche aléatoire simple. Considérons la marche aléatoire simple
Xn = X0 + Z1 + Z2 + · · · + Zn , Xn ∈ Z
avec (Zn ) une suite de variables aléatoires réelles indépendantes de même loi P [Zn = ±1] =
p, q. Nous étudierons la marche jusqu’au ”temps d’arrêt/sortie” T = min[T0 , TB ] quand le
process sort de l’interval [0, B] pour B donné, i.e. on prend 0 et B comme états absorbants.
On appelle ce problème la ruine du joueur, a cause de l’interpretation d’un joueur qui
s’engage dans une série de parties (indépendantes) à un jeu où à l’issue de chaque partie
il gagne 1F avec une probabilité p et perd 1F avec une probabilité q = 1 − p, et qui décide
de s’arrêter de jouer dès qu’il aura B francs en poche, ou dès qu’il n’a plus d’argent. Pour
tout n ∈ N, on note Xn la fortune du joueur au bout de n parties, et X0 = i représente
sa fortune à l’entrée dans le Casino. On dénotera par Ei l’espérance en commençant de i
(conditionnant sur X0 = i), et on designe par E l’événement que le joueur gagne, i.e.
89
E = {xT = B} = [∃n ∈ N tel que Xn = B, Xi > 0, i = 1, ..., n − 1] .
Pour tout i de {0, ..., B}, on pose :
bi = P (E | [Xt0 = i]) .
1. Quelles sont les valeurs de b0 et bB ?
2. Montrer que :
∀ i ∈ {1, ..., B − 1} , bi = p bi+1 + q bi−1 (on rappelle que q = 1 − p).
3. Obtener une expression explicite de bi pour tout i de {1, ..., B} . Indication : Remarquez
que la solution satisfaisant b0 = 0 est de la forme :
{
k (1 − ( pq )i ) quand p ̸= q
bi =
ki quand p = q
et déterminer k tq la condition frontière de bB soit satisfaite.

4. Pour tout i de {0, ..., B} , on pose ri = P (F | [X0 = i]) où F est l’événement ”le joueur
repart ruiné” . En procédant comme auparavant, montrer que :
 q i q B
 ( ) −( )
 p q pB si p ̸= 12
1−( p )
ri =

 B−i
B
si p = 12
Pour tout i de {0, ..., B} , calculer ri + bi . Que peut-on en déduire ?

Calculez les probabilités de ruine quand B → ∞, pour p > q et pour p ≤ q. Expliquez
la rélation avec le comportement de Xt , t → ∞.
5. Obtenez un système d’équations pour l’espérance du gain final fi = Ei XT . Calculez
cette fonction pour p = q.
6. Obtenez un système d’équations pour l’espérance du temps de jeu : ti = Ei T. Calculez
cette fonction, pour p = q, et pour p < q, quand B → ∞.
7. Obtenez
∑T−1 un système d’équations pour l’espérance du ”coût cumulé d’inventoire” ci =
Ei t=0 Xt . Calculez cette fonction, pour p = q, et pour p < q, quand B → ∞.
∑
8. Obtenez un système d’équations pour wi = Ei aT = k=0 Pi [T = k]ak (qui est la fonc-
tion génératrice des probabilités Pi [T = k]). Calculez cette fonction, pour p ̸= q.
9. Obtenez les équations de récurrence et les conditions
∑ frontière satisfaites par ux =
Ex aT g(XT ), a ∈ (0, 1) et par vx = Ex [aT g(XT ) + T−1t=0 h(X t )], a ∈ (0, 1).
Nous allons résoudre cet exercice en utilisant la méthode du conditionnement sur le

premier pas Z1 , l’idée de la quelle est d’obtenir des relations de récurrence qui lient les
valeurs de l’espérance conditionnée à partir de tous les points de départ possibles.
Nous verrons, en examinant les questions 2)-8) de cet exercice, qu’ils utilisent toutes le
même opérateur
(Gf )n := (P − I)(f )n = p fn+1 + q fn−1 − fn (10.1) op
la seule difference étant dans les conditions frontière et dans la partie nonhomogène.
Cet exercice illustre trois idées :
1. La puissance de la méthode du conditionnement sur le premier pas.
90
2. Le calcul des espérances pour les chaı̂nes de Markov comporte des systèmes linéaires
avec une inconnue pour chaque état initial possible.
3. Les systèmes associés avec un processus fixe implique toujours la même partie ho-
mogène appellée ”operateur”. Dans le cas des chaı̂nes de Markov en temps discret
et à espace d’états fini ou dénombrable, l’ operateur est ”essentielement” la matrice
P − I, où P est la matrice de transition P .
Plus precisement, la matrice P de la chaı̂ne de Markov (absorbante) associée est
( )
1 0 . . . ...
Ces idées seront aprofondies dans les chapitres suivants, où nous regarderons quelques
autres problèmes résolubles par le conditionnement sur le(s) premier(s) pas.
En plus, ils se regrouperont en deux types de questions :
1. ”Gain final esperé”, satisfaisant :
fn = En [g(XT )] = pfn+1 + qfn−1 ⇐⇒ (Gf)n = 0, F(0) = g(0), F(B) = g(B)
2. ”Coût total accumulé esperé”
∑T−1
fn = En [ h(Xi )] = h(n) + pfn+1 + qfn−1 ⇐⇒ (Gf)n = 0, f(0) = 0, f(B) = 0
0
Solution :
1. b0 = 0, bB = 1
2. Gain final esperé, g(x) = 1x=B .
En conditionnant, on trouve :
bn = Pn [X(T ) = B]
= p Pn [X(T ) = B/X(1) = n + 1] + q Pn [X(T ) = B/X(1) = n − 1]
= p bn+1 + q n−1 1 ≤ n ≤ B − 1
car
Pn [X(T ) = B/X(1) = n ± 1] = P[X(T ) = B/X(0) = n, X(1) = n ± 1] =

P[X(T ) = B/X(1) = n ± 1] = P[X(T ) = B/X(0) = n ± 1] = bn±1
en utilisant la proprieté de Markov et l’homogeneité.

3. Quand p = q = 1/2, bx = Px [X(T ) = B] satisfait :
bn+1 bn−1
bn = + for any 1 ≤ n ≤ B − 1
2 2
bB = 1
b0 = 0
91
La méthode de résolution des équations de récurrence homogènes à coefficients constants
commence en cherchant des solutions de la forme bn = rn . Si les racines de l’équation
auxiliaire sont distinctes, la solution générale est :
bn = k1 r1n + k2 r2n
où k1 , k2 sont déterminés en utilisant les conditions frontière.

Ici, cherchant des solutions puissances rx ramène à l’équation r2 − 2r + 1 = 0 à deux
racines identiques r1,2 = 1. La solution générale est bx = A + Bx. Les conditions
frontière donnent bx = Bx .
1−(q/p)n
Solution finale si p ̸= q : bn = 1−(q/p)B
.
4. ri + bi = 1, et donc la marche sera eventuellement absorbé dans une des deux frontiéres
(elle ne peut pas rester à l’intérieur indéfinimment).
Pour p = q, limB→∞ rn = limB→∞ B−n B
= 1. Autrement,
{
(q/p)n − (q/p)B (q/p)n , q < p
lim rn = lim =
B→∞ B→∞ 1 − (q/p)B 1, q > p.
5. fx = Ex [X(T )] (valeur finale ésperée) satisfait Gf (x) = 0, f (0) = 0, f (B) = B. Pour

p = q, la solution fx = x est obtenue comme ci-dessus :
fx+1 fx−1
fx = + for any 1 ≤ x ≤ B − 1
2 2
fB = B
f0 = 0
(C’est aussi une fonction ”harmonique”, mais avec conditions frontière différentes.)
6. tx = Ex [T ] (temps de sortie ésperé) est un coût total accumulé esperé (obtenu en
prenant h(x) = 1), qui satisfait le système inhomogène Gt(x) + 1 = 0, t(0) = 0, t(B) =
0.
Pour p = q
tx+1 tx−1
tx = + + 1 for any 1 ≤ x ≤ B − 1
2 2
tB = 0
t0 = 0
La solution d’une équation nonhomogène est donnée par
tx = tp (x) + h(x)
où tp (x) est une solution particulière et h(x) est la solution générale de l’équation
homogène. Commençons par l’équation homogène.
La solution générale homogène (”fonction harmonique”) h(x) = A + Bx pour cet
opérateur a été déjà obtenue ci-dessus.
92
Nous aimerions maintenant trouver une solution particulière tp (x) de l’équation Gtp (x) =
−1 de la même forme que la partie nonhomogène −1 de l’équation, donc tp (x) = C;
mais, comme les constantes, et puis aussi les fonctions linéaires vérifient l’équation
homogène Gtp (x) = 0, nous devrons modifier deux fois cette forme en multipliant par
x, en arrivant donc à t( x) = Cx2 . Comme Gx2 = 2x(p − q) + 1 = 1, on trouve C = −1
et finalement la solution particulière tp (x) = −x2 .
La solution générale est donc t(x) = −x2 + A + Bx et les conditions frontière ramènent
à tx = x(B − x).
Pour p ̸= q
tx = ptx+1 + qtx−1 + 1 for any 1 ≤ x ≤ B − 1
tB = 0
t0 = 0
La solution generale homogène avec p ̸= q est h(x) = k1 (q/p)n + k2 et le terme
nonhomogène 1 sugere une solution particulière constante k, mais comme ça satisfait
1
l’équation homogène, on modifie à kn. Finalement, k = q−p .
x
La solution particulière est tp (x) = q−p ; elle satisfait deja tp (0) = 0. La partie homogène
h(x) = tx − tp (x) devra aussi satisfaire h(0) = 0 et donc elle sera de la forme h(x) =
Ah̃(x) où h̃(x) = ((q/p)x − 1).
En demandant que tn = q−p n
+ A(q/p)n − 1) satisfait la condition frontière tB = 0 on
trouve :
h̃(n) n B (q/p)n − 1
tn = tp (n) − tp (B) = − .
h̃(B) q − p q − p (q/p)B − 1
{
∞ si p > q
La limite quand B → ∞ est tn = n
; on peut aussi obtenir ce
tp (n) = q−p si p < q
resultat en utilisant l’approximation détérmiste Xn − X0 ∼ nE(Z1 ), appellée aussi
limite fluide.
∑
7. cx = Ex [ T0 −1 X(t)] (coût total d’inventaire ésperé) satisfait le système inhomogène
Gc(x) + x = 0, c(0) = 0, c(B) = 0.
Pour p = q :
cx+1 cx−1
cx = + + x for any 1 ≤ x ≤ B − 1
2 2
cB = 0
c0 = 0
−x3 x(B 2 −x2 )
Une solution particulière est cp (x) = 3
. Finalement, on arrive à c(x) = 3
.
x2
Pour p ̸= q, une solution particulière est cp (x) = 2(q−p)
(elle satisfait deja cp (0) = 0).
La partie homogène satisfaisant h(0) = 0 sera toujours h(x) = Ah̃(x) où h̃(x) =
((q/p)x − 1).
En demandant que cn = cp (n) + A(q/p)n − 1) satisfait la condition frontière cB = 0 on
trouve :
h̃(n)
cn = cp (n) − cp (B)
h̃(B)
93
{
∞ si p > q
La limite quand B → ∞ est cn = .
cp (n) si p < q
8. On arrive a w(x) = A1 z1x + A2 z2x , où zi sont les racines de pz 2 − a−1 z + q = 0, et Ai
z x −z x +z x z x (z B−x −z2B−x )
satisfont A1 z1B + A2 z2B = 1, A1 + A2 = 1 et w(x) = 1 2 1zZ2 −z1B
1 2
9. On a ux = g(x), pour x ∈ {0, B}, et le conditionnement donne la relation : ux =

Ex [aT g(Xτ )] = a(pux+1 + qux−1 ).
vx = g(x), pour x ∈ {0, B}, et le conditionnement donne la relation : vx = a(pvx+1 +
qvx−1 ) + h(x).
10.3 Problèmes de premier passage sur un intervalle

semi-infini
Soit ψn := P [T0 < ∞] = limB→∞ ψn,B , ψn,B := P [T0 < TB ] (il s’agit d’une suite crois-
sante des evenements) la probabilité de ruine sur [0, ∞), pour la marche simple. On vérifie
facilement, en partant des récurrences sur un domaine borné [0, B], et en passant à la limite,
que : {
(q/p)n , q<p
ψn = lim ψn,B =
B→∞ 1, q ≥ p.
Pour la marche simple, ou pour toute marche qui n’a pas des sauts en bas strictement
plus grands que 1, cette solution peut être trouvée aussi directement, sans passer par la
probabilité de ruine rn (B) sur [0, B]. On remarque d’abord que l’absence des sauts en bas
plus grands que 1 impose une récurrence
ψn = ρψn−1 , ρ = Pn [Tn−1 < ∞].
La fonction ψn est donc multiplicative en n, i.e. ψn = ρn , avec un ρ determiné par

l’èquation charactéristique ; par ”miracle”, il y aura toujours exactement une solution sa-
tisfaisant ρ ∈ (0, 1). On choisira en suite ρ = 1 ou ρ < 1, selon l’espérance des sauts (qui
determine la limite de Xn quand n → ∞).
Mais, cette approche ne resout pas le cas des marches ”qui sautent” parfois en bas.
Dans ce cas, la solution n’est plus simplement une puissance, mais une combinaison lineaire
des puissances. Le ”miracle” se repete : il y aura toujours exactement autant des solutions
satisfaisant |ρ| ∈ (0, 1) qu’on aura besoin pour satisfaire toutes les conditions frontiére (en
bas) necessaires.
Exercice 10.2 Calculer les probabilités de ruine ψx , x ∈{N, pour une marche sur les nombres
}
8 1 1
naturelles, avec la distribution de chaque pas donné par : p1 = 10 , p−1 = 10 , p−2 = 10 . Mon-
trer qu’elles sont positives.
8
R : La moyenne est m1 = 1/2 > 0. Les probabilités de ruine satisfont ψx = 10 ψx+1 +
1
ψ
10 x−1
+ 10 ψx−2 , x ∈ N. Elles sont des combinaisons de puissances ρx , avec ρ une racine de
1
8 3 1 1 8 2 1 8
ρ − ρ2 + ρ + = (ρ − 1)( ρ2 − ρ − ) = (ρ − 1)(ρ − 1/2)(ρ + 1/4)
10 10 10 10 10 10 10
94
ψx = A1 ( 12 )x + A2 ( −1
4
)x satisfait ψ0 = ψ−1 = 1 ssi A1 = 5/6, A2 = 1/6. Les probabilités
de ruine sont : ( )x ( )x ( )x
5 1 1 1 5 1
ψx = + − ≈
6 2 6 4 6 2
{ }
Exercice 10.3 Calculer les probabilités de ruine pour une marche avec p2 = 83 , p1 = 18 , p−1 = 12
Une autre approche possible est par le théorème d’arrêt des martingales.
Examinons maintenant la méthode de fonctions génératrices (analogues à la transformée de Laplace), qui n’est pas
réellement necessaire pour la marche simple, mais qui est la méthode la plus puissante pour la resolution des èquations de
differences (différentielles).
On ajoute les équations ψ n = pψ n+1 + qψ n−1 multipliées respectivement par z n , n = 1, 2, .. On obtient ainsi une èquation
∗ ∑
pour la fonction ψ (z) := ∞ n
n=1 z ψ n :
∗ pψ 1
ψ (z) =
Φ(z) − 1
où Φ(z) = Ez Z1 = pz −1 + qz
De lors,
1 zpψ 1 p − qz − pzψ 1 p − qz − z(p − q) p
ψ ∗ (z) = − = = =
1−z p + qz 2 − z (1 − z)(p − qz) (1 − z)(p − qz) p − qz
car le numerator s’annule en 1 (”méthode du noyau”) et donc pψ 1 = p − q.

De lors, ψn = (q/p)n .
Conclusion : Nous avons vue dans ces exercices une des idées les plus importantes de la modélisation Markovienne : les
éspérances, vues comme fonctions de l’état initial, satisfont certaines équations qui font toujours intervenir
un opérateur associé fixe, appelé générateur du processus, même que les conditions frontière, termes non-
homogènes, et d’autre ”details” (comme la presence/absence d’une multiple de l’operateur identité) peuvent
varier.
Les equations s’obtient facilement par la methode de conditionnement sur le premier pas, en utilisant la propriété de
l’oubli du passé des processus de Markov ; mais, il y a des parties specifiques a chaque probléme, qui ne sont pas oubliées !
Il s’avère que les mêmes èquations décrivent la solution des problèmes analogues pour toutes les chaı̂ne de Markov à espace
d’états comptable, et avec des états absorbants – voir la prochaı̂ne section.
Par exemple, pour les chaı̂nes de Markov, ∑ l’operateur associé est G = P − I, où P est la matrice de transition, et
∑pour le
cas particulier d’une marche aléatoire Xt = ti=1 Zi avec pk = P [Zi = k], k ∈ [−c, d] on a encore G = P − I, où P = k pk F k
et F est l’operateur de translation (F f )k = fk+1 , k ∈ Z.
Alors, nous obtendrons des èquations similaires pour les problèmes respectives, juste en remplaçant l’ancien operateur par
le nouveau.
On rencontre la même situation pour toute la classe des processus ”de Markov”, Xt , différents qu’elles soient, vivant sur
des espaces S considerablement plus compliqués, la seule difference étant que l’operateur GX : F (S)− > F (S) associé a ces
processus sera plus compliqué !
Par exemple, les problèmes de cette section ont aussi des versions à espace d’états continu, obtenu en considérant des
marches avec incréments infinitésimaux ϵ, et en prenant la limite E → 0. La marche aléatoire devient ainsi un processus
avec chemins continus, appelé mouvement Brownien. Les équations resterons les mêmes, seul l’operateur G changera (dans un
operateur differentiel).
En conclusions, il existe une correspondance un á un entre les processus de Markov et une certaine classe des operateurs
deterministes associés ; nous l’appellerons ”Le Dictionnaire”.
10.4 Récurrences et équations differentielles linéaires

L’étude des marches aleatoires et des processus Markoviens ramène souvent à des
équations differentielles ou de récurrence linéaires. Le cas des coefficients constants est as-
sez simple, car toutes les solutions peuvent être construites à partir des solutions basiques
exponentielles erx .
Comme le cas des équations differentielles à coefficients constants est très bien connu,
on rappelle ici seulement le cas de récurrences linéaires.
95
10.4.1 L’équation de récurrence linéaire à coefficients constants
Les deux équations de récurrence linéaire de deuxième ordre ci-dessous
aun+2 + bun+1 + cun = 0, (10.2) rec
avn+2 + bvn+1 + cvn = dn , (10.3) r1

sont appelées homogène et nonhomogène respectivement.
L’équation homogène
Si les coefficients a, b et c sont constants, on sait qu’ils existent des solutions de la forme
un = xn pour tout n ( fonctions exponentielles ). Pour trouver x on remplace xn en (10.2)
et on trouve que x doit satisfaire l’équation auxiliaire :
ax2 + bx + c = 0. (10.4) quad

Soient x1 et x2 les deux racines de l’équation de deuxième degré (10.4). On en déduit que
la solution générale de (10.2) est toujours de la forme
1. Si x1 ̸= x2
un = Axn1 + Bxn2 ,
2. Si x1 = x2 ,
un = Axn1 + Bnxn1 ,
avec des constantes A et B.
Dans les deux cas A et B doivent être déterminées à partir des conditions supplémentaires
sur la frontière.
L’équation nonhomogène
La résolution du problème nonhomogène (10.3) comporte quatre pas :
1. Trouver un basis pour l’espace vectoriel des solutions de l’équation auxiliaire homogène
(10.2), et donc la solution générale un pour cette équation.
2. Déterminer une solution particulière de (10.3), par exemple en utilisant une expression
”essai” ṽn qui a la même forme générale que le membre droit dn ,, mais des coefficients
non-déterminés. Par exemple, si dn est un polynôme d’ordre k, on essaie un polynôme
général d’ordre k.
3. Néanmoins, si votre expression d’essai a des termes qui sont inclus dans l’espace vec-
toriel des solutions de l’équation homogène obtenue au pas 1 (et donc qui vont être
annihilés par l’operateur des différences), il faut multiplier l’expression d’essai par
n, n2 , ... jusqu’à ce qu’il n’y a plus des termes inclus dans cet’espace .
4. Aprés la decision de la forme d’essai, on trouvent les valeurs des coefficients de ṽn à
partir de (10.3), par la méthode des coefficients non-déterminés.
5. La solution générale de (10.3) est de la forme vn = ṽn + un . On trouve finalement les
coeficients encore non déterminés en un , en utilisant les conditions sur la frontière pour
vn .
96
Exemple 10.2 On considére l’ensemble E des suites (un )n∈N qui vérifient la relation sui-
vante :
3
(R) ∀n∈ N, un+2 + un+1 − un = 0.
2
1. Rechercher les suites géométriques qui vérifient cette relation (R).
2. On note r1 et r2 leurs raisons et on admet que E est un espace vectoriel de dimension
2, i.e. toute suite de E s’écrit sous la forme
un = αr1n + βr2n , ∀n∈ N.
Soit (an ) la suite de E qui vérifie a0 = 1 et a1 = 0. Calculer an .
Exemple 10.3 On considére l’ensemble E ′ des suites (vn ) qui vérifient la relation :
3
(R′ ) ∀n∈ N,
vn+2 + vn+1 − vn = 4n + 1.
2
1. On pose ∀n∈ N, un = an + b. Déterminer a et b pour que (un ) soit une solution
particuliére de (R′ ).
2. Soit (vn ) une suite de E ′ .
(a) Pour toute suite (tn ) de E ′ on définit la suite (un ) par ∀n∈ N, un = vn − tn .
Vérifier que (un ) ∈ E.
(b) En déduire que ∀n∈ N, vn = αr1n + βr2n + an + b.
(c) Déterminer vn pour v0 = − 59 et v1 = − 26
9
.
Exemple 10.4 Obtenez les formules analytiques des suites décrites par les relations de
récurrence ci-dessous, et vérifiez-les en utilisant les premiers termes de la suite t2 , t3 .
1. ti = 2ti−1 + i − 1, t0 = 0
2. ti = 2ti−1 + 5 · 2i , t0 = 0
3. ti = 3ti−1 − 2ti−2 + 2, t0 = 0, t1 = 2
4. ti = 2ti−1 − ti−2 + 2, t0 = 0, t1 = 2
Solution :
1. C’est une équation nonhomogène, alors nous aurons :
ti = t̃i + A2i , t̃i = c1 i + c2 avec c1 i + c2 = 2(c1 i − c1 + c2 ) + i − 1
et alors c1 = 2c1 + 1 et c1 = −1
c2 = −2c1 + 2c2 − 1 et c2 = 2c1 + 1 = −1
t̃i = −i − 1 Finalement,
t0 = = 0 = −1 + A et A = 1
ti = −i − 1 + 2i
2. C’est une équation nonhomogène, alors :
ti = t̃i + A2i , t̃i = ci2i avec ci2i = 2(c(i − 1)2i /2) + 52i
et alors c = 5, ti = 5i2i + A2i et finalement,

t0 = = 0 = A et A = 0
ti = 5i2i
97
3. C’est une équation de différences nonhomogène et l’équation quadratique attachée a
les racines 1, 2, alors nous aurons :
ti = t̃i + A1 2i + A2 , t̃i = ci avec ci = 3(ci − c) − 2(ci − 2c) + 2
et alors c = −2 et c2 = 2c1 + 1 = −1
t0 = = 0 = −1 + A et A = 1
ti = −i − 1 + 2i
4. C’est une équation de différences nonhomogène dont les racines de l’équation quadra-
tique attachée sont confondues égales à 1 donc nous aurons :
ti = t̃i + A1 + A2 i, t̃i = c1 i + c2 avec c1 i + c2 = 2(c1 i − c1 + c2 ) + i − 1
et alors c1 = 2c1 + 1 et c1 = −1
c2 = −2c1 + 2c2 − 1 et c2 = 2c1 + 1 = −1
t0 = = 0 = −1 + A et A = 1
ti = −i − 1 + 2i
10.4.2 La méthode des fonctions génératrices(*)

Exercice 10.4∑Calculez, par la méthode des fonctions génératrices :
a) T (z) = n≥0 Tn z n , où
T0 = 0, Tn = 2Tn−1 + 1, n ≥ 1
Trouvez Tn . ∑
b) Calculez T (z) = n≥0 Tn z n , où
T0 = 1, Tn = 2Tn−1 + n − 1, n ≥ 1
Trouvez Tn .
Sol : b) Par la méthode de decomposition des équations linéaires : Tn = 2n+1 −(n+1). La
fonction génératrice de Tn est T (z) = 2/(1−2z)−1/(1−z)2 = (2z 2 −2z +1)/(1−2z)(1−z)2 .
En appliquant directement la méthode des fonctions génératrices à Tn = 2Tn−1 + n − 1
on trouve l’équation : T (z) = 1 + 2zT (z) + z/(1 − z)2 − (1/(1 − z) − 1) = 2zT (z) + (2z 2 − 2z +
1)/(1 − z)2 , et on retrouve la même réponse. L’avantage de cette méthode plus compliquée
est qu’elle reussit parfois quand la première méthode échoue.
Exercice 10.5 a) Obtenez une formule explicite pour la suite décrite par la relation de
récurrence ci-dessous (et verifiez-la en utilisant les premiers termes de la suite)
Tn = 4Tn−1 − 3Tn−2 + n, n ≥ 1, T0 = a, T−1 = 0 (10.5)

∑
b) Calculez la fonction génératrice T (z) = n≥0 Tn z n
c) (*) Obtenez la fonction génératrice T (z) directement, en appliquant la méthode des
fonctions génératrices à l’équation (10.5).
98
Sol : a)
1
(a + 3/4) 3n − (3 + 2n)
4
a + 3/4 1/4 1/2 a(z − 1)2 + z
− − =
1 − 3z 1 − z (z − 1)2 (z − 1)2 (3z − 1)
Exercice 10.6
a) Obtenez une formule explicite pour la suite décrite par la relation de récurrence ci-dessous
(et verifiez-la en utilisant les premiers termes de la suite)
Tn = 2Tn−1 − Tn−2 + 2, n ≥ 2, T0 = T1 = 0 (10.6)

∑
c) Obtenez la fonction génératrice T (z) directement, en appliquant la méthode des fonc-
tions génératrices à l’équation (10.6)
∑
Exercice 10.7 a) Obtenez la fonction génératrice T (z) = n≥0 Tn z n pour la récurrence
Tn = λTn−1 + λ2 Tn−2 , n ≥ 2, T0 = 1, T1 = λT0 (10.7)

b) Calculez (directement, ou par developpement limité) le premiers termes, et verifiez
qu’ils sont des combinaisons lineaires de puissances des racines charactèristiques.
Tn = 4Tn−1 − 3Tn−2 + 2, n ≥ 2, T0 = T1 = 0 (10.8)

∑
Solution :
1. a)
1 n
Tn = (3 − 1) − n
2
b)
1 1 z 1 1 1 2z 2
T (z) = − − = + − =
2(1 − 3z) 2(1 − z) (1 − z)2 2(1 − 3z) 2(1 − z) (1 − z)2 (1 − z)2 (1 − 3z)
La dernière expression peut être obtenue directement, à partir de la récurrence.
Tn = 4Tn−1 − 3Tn−2 + n, n ≥ 1, T0 = a, T−1 = 0 (10.9)

∑
99
Solution : a)
1
(a + 3/4) 3n − (3 + 2n)
4
b)
a + 3/4 1/4 1/2 a(z − 1)2 + z
− − =
1 − 3z 1 − z (z − 1)2 (z − 1)2 (3z − 1)
100
10.5 Exercices d’entrainement
1. L’espace des états d’une chaine est S = 1, 2, 3, 4, 5, 6 et la matrice de transition est
 1 1
 1
0 4 2
0 0 4
 0 1 0 0 0 0 
 
 0 0 13 0 23 0 
P =


 0 0 0 0 0 1  
 0 0 14 0 34 0 
1
4
0 0 0 34 0
(a) Dessinez le graphe de communication et identifiez les classes de la chaîne. Classifier
les classes en récurrents et transientes. Y’ a-t-il des classes periodiques ?
(b) Trouvez la distribution stationnaire des classes récurrentes.
(c) Trouvez la limite quand n → inf de la matrice de transition apres n étapes
Pn
2. Considérez une particule effectuant une marche aléatoire simple Xt , t = 0, 1, 2, ...
sur le graphe (A) ci-dessous : i.e. à chaque moment t = 1, 2, ..., la particule se déplace
vers l’un de ses voisins sur le graphe à sa position actuelle, avec la même probabilité
pour chaque choix.
(A) (B)
1
1
2 3 2 3
0 0
5 4 5 4
(a) Calculer :
i. Les probabilités stationnaires de chaque noeud.
ii. L’éspérance en sortant de 1 du nombre de pas T0 jusq’au noeud 0. Indication :
iii. L’éspérance en sortant de 0 du nombre de pas T̃0 jusq’au premier retour en
0.
(b) i. La probabilité x2 = P2 {XT = 1}, où T = min[T1 , T0 ].
ii. Les probabilités pk en partant de 2 que la marche visite 1 exactement k fois
(k = 0, 1, 2, ...) avant le premier retour en 0.
101
iii. Les probabilités pk en partant de 5 que la marche visite 1 exactement
∑∞ k fois
(k = 0, 1, 2, ...) avant le premier retour en 0. Vérifier la somme k=0 pk .
iv. Les probabilités pk en partant de 1 que la marche visite 0 exactement k fois
(c) À un moment donné, le passage sur certaines arrêtes du graphe devient impossible,
ou possible seulement dans une direction, comme indiqué par des flèches dans le
graphe (B). La particule continue de choisir des destinations suivant le graphe
initial (A) comme dans la question précédente, mais les choix qui ne sont plus
disponibles résultent cette fois dans un pas annulé, donc sur place.
i. Donnez la matrice de transition de la marche.
ii. Identifiez les classes de la chaı̂ne, et classifiez les en récurrentes et transitoires.
iii. Trouvez la distribution stationnaire de chaque classe récurrente.
iv. Est-ce que la limite quand n → ∞ de la matrice de transition apres n étapes
P n existe ?
v. Le cas écheant, trouvez-la.
3. La marche paresseuse : Soit Xn = X0 + Z1 + Z2 + · · · + Zn une marche aléatoire
sur Z, avec (Zn ) une suite de variables aléatoires réelles indépendantes de même loi
P [Zn = 1] =p, P [Zn = −1] =q et P [Zn = 0] =1- p-q, avec 0 < p + q < 1. Pour tout
x de N, on note par Ex l’espérance en commençant de x (conditionnant sur X0 = x).
Nous arrêtons le processus au temps d’arrêt T auquel le processus sort de l’intervalle
[0, K] pour 0 < K donnés.
(a) Classifiez les pbs suivantes
∑T −1 px = Px {XT ∑= K}, fx = Ex [XT ], gx = Ex [XT2 ],
tx = Ex T, cx = Ex [ 0 Xt ], et dx = Ex [ T0 −1 Xt2 ] comme des pbs de prix final
ou de coût accumulé. Quelles sont les équations de récurrence et les conditions
frontière corespondant a chaque pb ?
(b) (*) Obtenez l’équation de récurrence et les conditions frontière satisfaites par
wx = Ex aT .
(c) Rappeler les etapes principales de la resolution des équations de récurrence avec
coefficients constants qui en résultent pour a) px , b) fx , c) tx , et d) cx , dans les
deux cas possibles p < q et p = q < 1/2. Donner les réponses finales dans le cas
p = q < 1/2.
4. Calculer les probabilités de ruine px , x ∈ N, pour une { marche sur les nombres}
naturels, avec la distribution de chaque pas donnée par : p1 = 7 , p−1 = 0, p−2 = 17 .
6
Vérifier la positivité du résultat.

5. On lance une pièce de monnaie biaisée, avec la probabilité de sortir face égale à q
et celle de sortir pile égale à p = 1 − q. Soit N le nombre de jets jusqu’à ce
qu’on obtient une suite pile-face (arrivées consécutivement), en incluant le dernier.
Trouvez l’espérance n = E[N ].
Indication : On peut utiliser un processus de Markov qui retient l’information minimale
nécessaire pour décider si l’événement désiré a eu lieu (et qui contient dans ce cas quatre
états).
102
6. Des femmes et des hommes arrivent dans un magasin, après des temps fixes, unitaires.
Chaque instant, une femme arrive avec probabilité λF , ou un homme arrive avec pro-
babilité λH , ou il n’y a pas d’arrivée, avec probabilité q = 1 − λF − λH .
a. Trouver la probabilité qu’une femme entre avant un homme. Indication : Condition-
nez sur le premier instant, ou sur le nombre d’instants sans arrivées.
b. Trouver la probabilité que deux femme entrent avant un homme.
c. Quelle est la probabilité qu’au moins deux hommes soient entrés consecu-
tivement, avant que trois femmes ne soient entrées consecutivement
Indication : Considèrez un processus de Markov sur l’espace des états : (H1, H2, H3, ...)∪
(F 1, F 2, F 3, ...), qui enregistre la longueur k du nombre des clients k ∈ {1, 2, ...} du
même sexe entrés consecutivement jusq’au temps t, et leur sexe (H/F) ; formulez des
equations d’arrêt pour les états d’arrêt indiqués.
7. Une particule décrit une marche aléatoire sur E = {1, 2, ..., 2n − 1} : si la particule est
en i < n, alors elle se déplace en j = i + 1, et si la particule est en i > n, alors elle se
déplace en j = i − 1 ; si la particule est en i = n, alors elle se déplace en une position
j choisie avec probabilités egales parmi les elements de E différentes de n. La position
Xk au temps k constitue une chaı̂ne de Markov.
(a) Donner la matrice de transition.
(b) Déterminer la loi stationnaire (invariante) de la chaı̂ne.
(c) Calculer la position moyenne de la particule en regime stationnaire.
(d) Calculer l’espérance du temps de retour d’une particule qui part de n.
8. Soit Xt une chaı̂ne de Markov représentant le nombre de clients en attente dans
un arrêt de bus, dans le quel à chaque instant t = 1, 2, .. (en temps discret !) une seule
personne arrive (ou pas) avec probabilité p < 1, et en suite le bus arrive (ou pas) avec
probabilité q < 1, et prend tous les voyageurs (le dernier arrivé inclu).
a) Dessinez le graph de transitions de ce processus, en indiquant les probabilités λ et
µ pour que le nombre de voyageurs augmente et diminue respectivement, ainsi que la
probabilité z pour que ce nombre reste inchangé. Donnez la matrice des probabilités
de transition pour la chaı̂ne Xt .
b) Calculez la distribution stationnaire de Xt .
c) Calculez, en utilisant un système de conditionnement, l’éspérance en sortant de 0
du nombre des pas T̃0 jusqu’au premier retour en 0.
d) Reprenez les question précédentes pour une file d’attente M(λ)/M(µ)/1, dans la
quelle le serveur sert chaque fois simultanément tous les clients qu’il trouve en
attente dans le tampon (arrivés dans la file après le début de son dernier service). Plus
précisément, donnez la matrice génératrice pour le processus Xt . Indiquer les valeurs
des probabilités λ̃ et µ̃ pour que le nombre de clients augmente/diminue, au moment
du premier saut à partir d’un état n ≥ 0. Reprenez ensuite les questions b), c).
9. Marche reversible ?
(a) Considerez une chaı̂ne de Markov sur {1, 2, 3} avec matrice des transitions
 
0 1/6 5/6
P =  6/7 0 1/7 
30/31 1/31 0
103
Combien d’équations d’équilibre detaillé
πi P (i, j) = πj P (j, i), avec i ̸= j, P (i, j) ̸= 0, et P (j, i) ̸= 0)
y a t’il ? Est-ce qu’ils admettent des solutions strictement positives ? Le cas

échéant, trouvez la distribution stationnaire.
(*) Est-ce que les équations d’équilibre detaillé continuerons à admettre des so-
lutions (strictement positives), si on modifie une des lignes de la matrice des
transitions, en laissant les deux autres inchangées ?
10. Soit Xn une chaı̂ne de Markov sur {0, 1, 2, ..., B}, B ∈ N, avec :
P (i, i + 1) = p, ∀i ∈ {0, 1, 2, ..., B − 1}

P (i, i − 1) = q, ∀i ∈ {1, 2, ..., B − 1, B}
P (i, i) = 1 − p − q, ∀i ∈ {1, 2, ..., B − 1}
P (0, 0) = q, P (B, B) = p, et P (i, j) = 0 outrement
(on suppose 0 < p, q et p + q < 1).

(a) Combien d’équations d’équilibre detaillé y a t’il ? Est-ce qu’ils admettent des so-
lutions strictement positives ? le cas échéant, trouvez la distribution stationnaire.
(b) Calculer l’éspérance en sortant de 1 du nombre de pas T0 jusq’au noeud 0.
(c) Calculer l’éspérance en sortant de 0 du nombre de pas T̃0 jusq’au premier retour
en 0.
(d) (*) Est-ce que les équations déquilibre detaillé continuerons à admettre des solu-
tions (strictement positives), si on modifie les valeurs p, q à pi > 0, qi > 0, pi +qi <
1, ∀i ∈ {0, 1, 2, ..., B} (en gardant exactement le même graphe des transitions avec
probabilités non nulles) ?
10.6 Solutions
1. a) Les classes récurrentes sont 2 et 3,5. La classe transiente 1,4,6 est périodique de
période 3 (par exemple en regardant le graph, ou en remarquant que les puissances de
P projeté sur 1,4,6 ont la même structure des elts nonnuls.
Algébriquement, on peut aussi calculer les valeurs propres, i.e. les racines du pol char :
(1 − x)2 (1 − 12x)(1 − 16x3 ). Les trois racines li = 1/2 ∗ (1/2)1/3 , i = 1, 2, 3 exhibent une
périodicité de degré 3, ”diminuant vers 0” (en fait, la réponse depend de la definition,
car souvent on n’inclut pas ce genre de périodicité dans les classes transientes).
c) Pour obtenir la limite, on a juste besoin des probabilités d’absorbtion dans la classe
2, qui satisfont :
y4 = y6 , y6 = 1/4y1 , y1 = 1/4 + 1/4y6 = 1/4 + 1/16y1 =⇒ y1 = 4/15, y4 = y6 = 1/15
ou des probabilités d’absorbtion dans la classe 3,5 :
x4 = x6 , x1 = 1/2+1/4x6 , x6 = 3/4+1/4x1 = 3/4+1/8+1/16x6 =⇒ x1 = 11/15, x4 = x6 = 14/1
104
2. (a) i. πi sont proportionels aux degrés di des sommets. En divisant par la somme
D = 2 + 4 ∗ 3 + 3 ∗ 2 = 20, on trouve πi = ∑didj , donnant (π1 = 2/20 =
j
1
10
, π2 = π3 = π0 = 4/20 = 15 , π4 = π5 = 3
20
)
ii. Soit
ti = Ei T0 = Ei [ nombre esperé de pas jusq’au noeud 0].
Rq : Pour cette question, le noeud 0 est effectivement absorbant.
La symmetrie implique t2 = t3 , t5 = t4 , donc trois équations suffiront (au lieu
de 5). En conditionnant sur le premier pas, on trouve que ti satisfont :
t1 = 1 + t2
1 1 1
t2 = 1 + t1 + t2 + t5
4 4 4
1 1
t5 = 1 + t5 + t2
3 3
Rq : C’est la structure typique Gt + 1 = 0 pour les pbs de temps esperé.
Ça donne : t5 = 11
3
, t2 = 13
3
, t1 = 16
3
iii. ET̃0 = 1+ 14 (t2 +t3 +t4 +t5 ) = 1+ 12

3
= 5 (= 1
π0
) en vérifiant ainsi le théorème
ET̃0 = π10 .
(b) i. Rq : Pour cete question, les noeuds 0, 1 sont effectivement absorbants. Le
système d’absorption, tenant compte de x2 = x3 , x4 = x5 est :
1 1 1
x2 = x 2 + x4 +
4 4 4
1 1
x4 = x2 + x4
3 3
Rq : C’est la structure typique Gp = 0 pour les pbs de prix final esperé.
Ça donne : x2 = 25 , x4 = 51 .
ii. Soit pk la probabilité d’avoir exactement k visites à 1 avant de visiter 0, à
partir de 2. Alors p0 c’est la probabilité commençant en 2 que la marche visite
0 avant de visiter 1, qui est 53 , et pour k ≥ 1, pk = 25 )pk−1 , et pk = 35 ( 25 )k−1 ,
donc une distribution geometrique.
iii. Soit pk la probabilité d’avoir exactement k visites à 1 avant de visiter 0, à
partir de 5. Alors, p0 c’est la probabilité commençant en 5 que la marche
visite 0 avant de visiter 1, qui est 54 .
Pour k = 1 visite, ”le chemin” observé seulement en O, 1 et l’état aprés 1”
est 5,1,2,0. Donc, p1 = P5 [1, 2, 0] = 15 35 , p2 = P5 [1, 2, 1, 0] = 51 25 35 , et en général
= 25 pk−1 = ( 15 35 )( 25 )k−1 , k ≥ 1. La distribution pour k ≥ 1 est geometrique,
pk ∑
et ∞ 1
k=1 pk = 5 , comme il faut.
iv. Rq : Pour cette question, le noeud 1 est absorbant.
2 3
pk = ( )k .
5 5
105
(c) i. Après la détérioration, la matrice de transition est :
 
1 0 0 0 0 0
0 0 12 12 0 0 
1 
 1
0 1
0 1
P =
1
4 4 4 4
4
1
4
1
4
0 14 0 

0 0 0 0 23 13 
0 0 0 0 13 23
(Sans les pas sur place, elle serait)

 
1 0 0 0 0 0
0 0 12 12 0 0
1 
 1
0 14 0 1
P =
1
4 4 4
4
1
4
1
4
0 14 0
0 0 0 0 1 0
0 0 0 0 0 1
ii. classes recurrentes : {0}, {4, 5} ; classe transiente : {1, 2, 3}.

iii. les distributions stationnaires des classes recurrentes : 1 et ( 12 , 12 ).
iv. Le système d’absorption pour les probabilités d’absorption dans la classe 0
est :
1 1
x1 = x2 + x3
2 2
1 1 1
x 2 = x3 + x1 +
4 4 4
1 1 1
x 3 = x2 + x1 +
4 4 4
et x1 = x2 = x3 = 12 .
v. La matrice des distributions asymptotique est :
 
1 0 0 0 0 0
1 0 0 0 14 14 
 21 
 0 0 0 14 14 
P = 2
1 0

2 0 0 14 14 

0 0 0 0 21 12 
0 0 0 0 21 12
3. (a,b) Soit (Gf )x = p (fx+1 − fx ) + q (fx−1 − fx ) (formellement, la même expression

comme dans le cas ”non-paresseux”, sauf que maintenant p + q < 1.
106
Les équations sont respectivement :
(Gp)x = 0, pK = 1, p0 =0
(Gf )x = 0, fK = K, f0 =0
(Gg)x = 0, gK = K 2 , d0 =0
(Gt)x + 1 = 0, tK = 0, t0 =0
(Gc)x + x = 0, cK = 0, c0 =0
(Gw)x + (1 − a−1 )wx , wK = 1, w0 =1
Ces sont exactement les mêmes équations comme pour une marche non-paresseuse,
sauf que l’opérateur est different.
(c) Pour px et fx on obtient donc les mêmes équations comme pour une marche sym-
metrique avec p = 1/2, par exemple :
2ppx = ppx+1 + ppx−1 for any 1 ≤ x ≤ K − 1

pK = 1, p0 = 00
et donc les mêmes réponses px = Kx , fx = K 2 Kx = xK.

(d) Pour tx = Ex [T ] (temps de sortie esperé) on trouve :
0 = ptx+1 − (p + q)tx + qtx−1 + 1 for any 1 ≤ x ≤ K − 1

tK = 0, t0 = 0
x
Soit t0 (x) = q−p
une solution particulière qui satisfait t0 (0) = 0. La solution est
tx = t0 (x) − t0 (K) h(K)
h(x)
où h(x) = 1 − (q/p)x est une solution homogène satisfaisant
h(0) = 0. Pour K = ∞, q > p on obtient t(x) = t0 (x).
Pour cx on trouve :
0 = pcx+1 − (p + q)cx + qcx−1 + x for any 1 ≤ x ≤ K − 1

cK = 0, c0 = 0
x 2 x(q+p)
Soit c0 (x) = 2(q−p) + 2(q−p)2 une solution particulière qui satisfait c0 (0) = 0. La
solution est
cx = c0 (x) − c0 (K) h(K)
h(x)
où h(x) = 1 − (q/p)x est une solution homogène satisfaisant
h(0) = 0. Pour K = ∞, q > p on obtient c(x) = c0 (x).
Remarque : Le fait que les équations sont identiques pour ces deux marches (pares-
seuse et non-paresseuse) n’est pas une coincidence. En fait, il s’avère que les réponses
obtenues sont les mêmes por n’importe quel processus Markovien homogène, si on de-
fini l’opérateur de la façon juste. Donc, la réponse pour tous les problèmes concernant
espérances va impliquer un seul opérateur G (seulement les conditions frontière et la
partie non-homogène changent d’un problème à l’autre)- en fait, la famille des processus
aléatoires Markoviens est isomorphe à une famille d’opérateurs déterministes.
En plus, la structure des réponses en fonction de G est la même pour toutes les
processus aléatoires Markoviens, malgré leur diversité ; c’est un fait remarquable, qui
démontre la puissance de ce concept.
107
4. Les probabilités de ruine satisfont px = 67 px+1 + 17 px−2 , x ∈ N. Elles sont des combinai-
sons de puissances ρx , avec ρ une racine de
6 3 1 6 1 1 6
ρ − ρ2 + = (ρ − 1)( ρ2 − ρ − ) = (ρ − 1)(ρ − 1/2)(ρ + 1/3)
7 7 7 7 7 7
px = A1 ( 12 )x + A2 ( −1
3
)x satisfait p0 = p−1 = 1 ssi A1 = 4/5, A2 = 1/5.
5. Considerons le processus de Markov sur des états specifiant les deux dernièrs résultats
posibles : {P F }, {∗P }, {P c F }, ∅. Les deux inconnues x1 = x{∗P } , x2 = x{P c F } satisfont :
x1 = 1 + px1 + q ∗ 0, x2 = 1 + px1 + q ∗ x2 q ⇔ x1 = q −1 , x2 = x1 + p−1 = q −1 + p−1
6. (a) La probabilité pF satisfait

λF
pF = λF = +qpF ⇔ pF =
λF + λH
(b) p2F
(c) Considerons la chaı̂ne de Markov en temps discret qui enregistre la longueur
du nombre des clients du même sexe entrés consecutivement et le type, ayant
comme espace des états les suites (H1, H2, H3, ...) ∪ (F 1, F 2, F 3, ...). En prenant
en consideration seulement les temps quand la chaı̂ne saute, pn a une marche
aléatoire qui ”avance” sur les hommes/femmes a.p. pH = 1 − pF et pF , et ”change
de sexe” outrement. Par exemple, si λF = 2λH , les deux probas sont pH = 31 , pF =
2
3
. En denotant par xi , yi la probabilité de notre evenement en partant d’une suite
des i femmes hommes, il faudra résoudre :
y 1 = p H + p F x1
x1 = p H y 1 + p F x2
x2 = pH y1
∑k
Generalisant pour m hommes et n femmes et posant SF,k = piF , SH,k =
∑k i i=1
i=1 pH , nous trouvont
pm−1
H pm
H SF,n−2
y1 = , x1 =
1 − pH pF SH,m−2 SF,n−2 1 − pH pF SH,m−2 SF,n−2
et finalement
pm
H (1 + pF SF,n−2 ) pmH SF,n−1 )
p H y 1 + p F x1 = =
Pour m = 2, n = 3, on trouve :
pH p2H (1 + pF )
y1 = , x1 =
1 − pH pF (1 + pF ) 1 − pH pF (1 + pF )
et
p2H (1 + pF + p2F )
pH y 1 + p F x 1 =
1 − pH pF (1 + pF )
108
7. (a) La matrice de transition est :
 
0 1 0 ... 0 0 0
 0 0 1 0 ... 0 0 
 
 0 0 0 1 0 ... 0 
 1 
P =
 2n−2
1
2n−2
... 0 ... 1
2n−2
1 
2n−2 
 ... 0 0 1 0 0 0 
 
 0 0 0 0 1 0 0 
0 0 0 ... 0 1 0
k
(b) πk = 2(n−1) πn , ∀k < n et la symmetrie πk = π2n−k impliquent πn (1 + (n−1)n
2(n−1)
) =
n 2
πn (1 + 2 ) = 1 et πn = 2+n )
(c) ES [Xn ] = n
2+n
(d) tn = 2
8. a) Soitλ = p(1−q), µ = q. On a z0 = 1−λ, et ∀n ≥ 1, zn = z = 1−λ−µ = (1−p)(1−q).
Le graph de communication est :
λ λ λ λ
0 1 2 n
µ
µ µ
µ
Figure 10.1 – Exe 2 : Le serveur sert tous les clients
b) On trouve πi = λπi−1 + zπi ⇔ πi = λ̃πi−1 , i = 1, 3, ..., avec λ̃ = λ

λ+µ
, et donc
πi = λ̃i π0 , où la constante de normalisation est π0 = 1 − λ̃ = λ+µ
µ
.
c) t0 = t(0) + t1 où t(0) = λ−1 et t1 = t2 = ... = µ−1 . Remarquez l’identité t0 =
π0−1 /P0 [X1 ̸= 0, valable pour toutes les chaı̂nes ergodiques.
d)
 
−λ λ 0 ···
 µ − (λ + µ) λ 0 
 
 − (λ + µ) λ 0 
G= µ 0 
 .. .. .. 
 µ 0 . . . 
... ... ...
9. a) C’est juste un système linéaire avec n = 3 inconnues (bon, deux, car la

troisième viendra de la normalisation).
Pour faciliter la tache, on peut quand même comencer par résoudre n−1 = 2 équations
d’équilibre detaillé
π1 5/6 = π3 30/31, π2 1/7 = π3 1/31.
Prenons π3 = 31 (en renoncant pour l’instant à la normalization). On trouve π1 =

36, π2 = 7, qui satisfont aussi la troisième équations d’équilibre detaillé.
109
Il ne reste qu’a normaliser par la somme :
1
π= (36, 37, 31).
74
Rq : La matrice D(i, j) = πi P (i, j) obtenue ainsi (avec ou sans normalisation) est

symmétrique.  
0 6 30
D= 6 0 1 
30 1 0
(et pourrait correspondre aux conductances d’un réseau).
Pour une matrice stochastique arbitraire de dimension 3, les quatre équations corres-
pondantes (trois d’équilibre detaillé + la normalisation) n’auront pas de solution, et
donc la distribution stationnaire ne sera pas reversible/”graphique/electrique”. En ge-
neral, les matrices de dimension n ≥ 3 n’ont pas de ”graphe ponderé associé) mais
seulement le digraph (graphe directionné) de communication bien connu.
b) Les équations d’equilibre correspondent à une récurrence d’ordre deux (donc facile
à résoudre), mais les équations d’équilibre detaillé sont d’ordre 1, donc super facile
à résoudre. Comme il y a que B − 1 équations d’équilibre detaillé, cette fois ca reste
super facile même avec une matrice arbitraire avec le même (di)graphe. Ca sera le cas
de tous les graphes forêts (sans cycles), car un graphe forêt avec B noeuds a B − 1
arrêtes ! (dem par récurrence).
10. (a) Il y a B équations d’équilibre detaillé πi−1 p = πi q, i = 1, ...B, avec solution
i
πi = ∑Bρ ρi , ρ = p/q.
i=0
(b) Les éspérances ti = Ei T0 en sortant de i = 1, 2, ... du nombre de pas jusqu’au

 
1−p−q p 0 ... ... 0
 .. 
 q 1−p−q p 0 ... . 
noeud 0 satisfont (I−Q)t = 1 où Q =  . . . . 
 0 .. .. .. . . . .. 
0 0 ... ... q 1 − p − q
(c) L’éspérance en sortant de 0 du nombre de pas T̃0 jusq’au premier retour en 0 est
t̃0 =.
(d) (*) Est-ce que les équations déquilibre detaillé continuerons à admettre des solu-
tions (strictement positives), si on modifie les valeurs p, q à pi > 0, qi > 0, pi +qi <
1, ∀i ∈ {0, 1, 2, ..., B} (en gardant exactement le même graphe des transitions avec
probabilités non nulles) ?
10.7 Problèmes d’entrainement

1. On lance une pièce de monnaie biaisée, avec la probabilité de sortir face égale à q et
celle de sortir pile égale à p = 1 − q, jusqu’à ce qu’on obtient une suite de K piles
(pile-pile-pile-..), arrivèes consécutivement.
a) Trouvez l’espérance n = EN du nombre de jets N jusqu’à l’arrêt, en incluant
les derniers pas, quand K=2, et donnez la réponse en termes de p. Indication : On
110
pourrait utiliser un processus de Markov qui retient l’information minimale nécessaire
pour décider si l’événement désiré a eu lieu, et qui contient dans ce cas l’état final
desiré, et tous ses prefixes.
b)(*) Trouvez l’espérance n = EN quand K=3. Proposez une formule valable pour
un nb. arbitraire K.
2. On lance une monnaie biaisée avec probabilité de sortir pile p, et on s’arrête la premiére
fois quand une pile arrive après un nombre impaire de faces. Trouvez l’espérance du
temps de ce jeu. Indication : Utilisez un processus de Markov qui retient toujours
l’information minimale necessaire pour decider si l’evenement desiré a eu lieu.
3. n points indépendents sont choisis uniformement sur le perimètre d’un cercle. Quelle
est la probabilité pn qu’il existe un démi-cercle contenant tous les points ?
Ind. Trouvez p2 , p3 . Fixez un point i et trouvez la probabilité p que le démi-cercle
voisin, dans le sense des aiguilles d’une montre, contient tous les points.
Solutions :
1. a) Considerons le processus de Markov sur les états suivants, qui specifient une de-
composition en trois cas possibles pour la longueur de la dernière suite des deux piles :
A = {P P }, P = {P c P }, P c = {P c P }, et soit x0 , x1 , x2 = 0 le nombre esperé des futurs
pas jusq’á(l’arrêt, )
conditionné par ces états initiaux.
q p
Soit Q = . Les deux inconnues v = (x0 , x1 ) satisfont (Q − I)v + 1 = 0. La
q 0
réponse est
1 1+p
x1 = 2 , x 0 = .
p p2
b) Considerons le processus de Markov sur les états suivants, qui specifient une de-
composition en trois cas possibles pour la longueur de la dernière suite des piles :
A = {P P P }, P P = {P c P P }, P = {P c P }, P c = {P c }, et soit x0 , x1 , x2 , x3 = 0 le
nombre esperé
 des  futurs pas jusq’á l’arrêt, conditionné par ces états initiaux.
q p 0
Soit Q = q 0 p. Les trois inconnues v = (x0 , x1 , x2 ) satisfont (Q − I)v + 1 = 0.
q 0 0
La réponse est
1 1+p 1 + p + p2
x2 = 3 , x1 = , x 0 =
p p3 p3
2. Soit N le nombre de pas jusqu’à la premiére fois quand une pile arrive après un nombre
impaire de faces, et n son espérance . Le conditionnement sur le premier pas ne marche
pas, mais il y d’autres approches possibles :
a) Remarquons que les trois evenements F P, P, F F constitue une decomposition de
l’espace d’états qui permet soit de constater que notre evenement d’arrêt est arrivé,
soit de relancer le processus du debut. Par conéquant :
p + 2q 1+q
n = pq2 + p(1 + n) + q 2 (2 + n) ⇔ n = =
q(1 − q) qp
b) On peut aussi ”habiller” cette solution en langage Markovien, en définissant une
chaı̂ne qui enregistre les ètats finaux transients 1 =nb paire des F, 2 =nb quelqonque
111
des P, 3 =nb impaire des F, ∂ =nb impaire des F suivi par P. Le système pour
l’espérance du temps d’arrêt est :
n = n1 = 1 + pn2 + qn3
n2 = qn3 + 1
n3 1 + qn1
avec la même solution.

c) Examinons l’espace d’états , en essayant de trouver une decomposition en cas (ou
un temps d’arrêt T ) qui permet une approche recursive :
E = {P, F P, F F P, F F F P, F F F F P, ..}
Dans le premier, troisième, ...cas, on recommence. Dans le dexième, quatrième, ..., on
conclut N = 2, 4, .... Le temps d’arrêt permettant une solution est donc le temps T de
la premiére pile. En conditionnant sur T , on trouve :
∑
∞ ∑
∞
n = E[N ] = q 2k−1 p(2k) + q 2k p(2k + 1 + n)
k=1 k=1
q 2 ∑∞
−1
= (1 + n)p + pq(1 + q ) 2kq 2k−1
1 − q2 k=1
∑∞ 1 ′ 2q q(2+pq)
Comme k=1 2kq 2k−1 = ( 1−q 2) = (1−q 2 )2
, on trouve finalement : n = 1+q 3
.
112
10.8 Contrôle continu 2012
1. L’espace des états d’une chaine est S = 1, 2, 3, 4, 5, 6 et la matrice de transition est
 1 1 1 1

0 3 6 3 6
0
 0 1 0 0 0 0 
 
 0 0 1−a 0 a 0 
P =
 1 1


 0 2
0 0 0 2 
 0 0 b 0 1−b 0 
1 0 0 0 0 0
(a) Dessinez le graphe de communication et identifiez les classes de la chaîne. Classifier
les classes en récurrents et transientes.
(b) Trouvez la distribution stationnaire des classes récurrentes.
(c) Trouvez la limite quand n → inf de la matrice de transition apres n étapes P n
2. Probabilités de ruine . Soit


1, avec probabilité p1 = 34
∑
n
Xn = x + Zi , Zi = −1, p−1 = 121
,


i=1 −2, p−2 = 6 1
avec Zi i.i.d. Soit T0 = inf{n : Xn ≤ 0}

a) Est-ce que E[Z1 ] > 0?
b) Calculer les probabilités de ruine ψ(x) = Px [T0 < ∞], x ∈ N.
3. La chaı̂ne paresseuse : Soit Xn une chaı̂ne de Markov sur {0, 1, 2, ..., B}, B ∈ N,
avec 0 et B états absorbants, et
P (i, i + 1) = p fi ,
P (i, i − 1) = q fi ,
P (i, i) = 1 − (p + q)fi ,
P (i, i + k) = 0 pour|k| > 2, ∀i ∈ {1, 2, ..., B − 1}
(on suppose 0 < p, q, fi et fi (p + q) < 1, ∀i ∈ {1, 2, ..., B − 1}). Nous arrêtons le

processus au temps d’arrêt T = inf{n : Xn ∈ / [1, B − 1]} auquel le processus sort de
l’intervalle [1, B − 1]. Pour tout x de N, on note par Px , Ex la mesure et espérance en
commençant de x (conditionnant sur X0 = x).
(a) Classifiez ∑ les pbs suivantes px =
T −1 ∑TP−1
x {XT = B}, gx = Ex [XT ], tx = Ex T,
cx = Ex [ 0 Xt ], et dx = Ex [ 0 Xt2 ] comme des pbs de prix final ou de
coût accumulé. Quelles sont les équations de récurrence et les conditions frontière
corespondant a chaque pb ?
(b) Résolvez les équations de récurrence qui en résultent pour px et gx quand p = q <
1/2, fi = 1, et quand p = q < 1/2, fi = 1/i.
(c) Résolvez les équations de récurrence qui en résultent pour tx et cx quand p < q ≤
1/2, fi = 1, et B = ∞.
113
Solutions contrôle continu :
1.(a,b) 2+2 p Les classes récurrentes sont 2 et 3,5.
c) 3+1 p Pour obtenir la limite, on a juste besoin des probabilités d’absorbtion dans
la classe 2, qui satisfont :
1 1 1 1 3 4
y4 = y6 + , y6 = y1 , y1 = y4 + =⇒ y1 = = y6 , y4 =
2 2 3 3 5 5
2. a) 1 p b) Les probabilités de ruine satisfont px = 34 px+1 + 12

1
px−1 + 16 px−2 , x ∈ N. Elles
sont des combinaisons de puissances ρx , avec ρ une racine de
3 3 1 1 3 1 1 3
ρ − ρ2 + r + = (ρ − 1)( ρ2 − ρ − ) = (ρ − 1)(ρ − 2/3)(ρ + 1/3)
4 12 6 4 4 12 4
3p
px = A1 ( 23 )x + A2 ( −1
3
)x satisfait p0 = p−1 = 1 ssi A1 = 8/9, A2 = 1/9. 2 p
3. (a) 1 p Soit (Gf )x = p (fx+1 − fx ) + q (fx−1 − fx ) l’operateur du cas ”non-
paresseux”,(sauf que maintenant p + q < 1.
Les équations sont respectivement :
(Gp)x = 0, pK = 1, p0 = 0
(Gg)x = 0, gK = K, g0 = 0
fx (Gt)x + 1 = 0, tK = 0, t0 = 0
La partie homogène des équations est exactement la même comme pour une marche
”non-paresseuse”, mais la partie non-homogène des équations est differente.
(b) 3 p Pour px et gx on obtient les mêmes équations (dans les deux cas de fi ) comme
pour une marche symmetrique avec p = 1/2, i.e. :
0 = p(px+1 − 2px + px−1 ) for any 1 ≤ x ≤ K − 1

pK = 1, p0 = 0
et donc les mêmes réponses px = Kx , gx = x.

(c) 2 p Pour tx = Ex [T ], p < q, B = ∞ (temps de sortie esperé) on trouve :
ptx+1 − (p + q)tx + qtx−1 + 1 = 0 for any 1 ≤ x

t0 = 0
avec solution tx = A1 + A2 ( pq )x + p0 (x), p0 (x) = q−p

x
, A2 + A1 = 0, A2 = 0, A1 = 0.
Note : La condition t(B) = 0 cesse dêtre vraie pour B = ∞ ; par contre, t(∞) ne
peut pas ”être trop grand” (augmenter exponentiellement) non plus, comme il serait
le cas si A2 ̸= 0.
114
Chapitre 11
ch:Mart Martingales
Les martingales sont une famille des processus stochastiques, inspirée par la théorie des
jeux, qui a trouvé des applications dans plusieures branches des probabilités.
Le terme désigne dans la théorie des jeux une statégie permettant de gagner à coup sûr
dans un jeu équitable (comme le pile ou face).
Pour la martingale mathématique, on se place dans un espace probabilisé (Ω, A, P ),
avec une suite des variables Xn , n ∈ N, qui represente la fortune d’un joueur au temps n,
et une deuxième suite Yn , n ∈ N, qui represente des informations acquises au temps n. Par
exemple, Yn pourrait être la mise du jeux n, et alors
∑
n
Xn+1 = X0 + Yk = Xn + Yn+1
k=1
Si Yi sont i.i.d., alors on est dans le cadre des probabilités classiques, mais justement les
martingales généralisent ce cadre considerablement (les mises peuvent dépendre de ”l’infor-
mation du passé” Fn = σ(Y1 , Y2 , ..., Yn )).
Un jeux est charactérisé par la suite E[Xn+1 |Y1 , Y2 , ..., Yn ] = E[Xn+1 |σ(Y1 , Y2 , ..., Yn )] =
E[Xn+1 |Fn ]. Il est appellé martingale (ou jeu juste) si E[Xn+1 |Fn ] = 0, ∀n.
Exemple 11.1 Prenons un exemple de jeu dû à D’Alembert : on parie x euros sur pile. Si
la pièce tombe sur pile, on ramasse 2x euros (soit un gain de x euros), et si elle tombe sur
face, on perd tout. A chaque coup, on est libre de se retirer ou de continuer à jouer. Une
stratégie gagnante à coup sûr est la suivante : au 1er coup, on mise 1 euro : si on gagne, on
se retire (et on empoche 1 euro) ; sinon, on continue (et on a perdu 1 euro). au 2ème coup,
on double la mise, 2 euros : si on gagne, on se retire, et on a gagné 2-1=1 euro. Sinon on
continue, on a perdu 2+1=3 euros. au 3ème coup, on double encore la mise, en jouant 4
euros. Si on gagne, on se retire, avec en poche un gain de 4-3=1 euro. Sinon, on continue
la partie, et on double au coup suivant la mise, etc...
La théorie des martingales modélise en théorie des probabilités le concept de jeu équitable
(ou juste), en stipulant que l’espérance du gain doit être 0 a chaque mise. Rémarquons que
notre exemple est un jeu juste. Mais, comme pile va bien finir par tomber, on est sûr de finir
par gagner 1 euro (à condition d’avoir une fortune infinie). Cela contredit l’intuition ”qu’un
ne peut pas gagner contre un jeu juste”, qui est formalisée dans un théorème qui affirme que
si un joueur a une fortune initiale finie, il n’existe pas de stratégie pour gagner à coup sûr,
dans un jeu juste et ”raisonnable”.
On verra plus tard comment definir ”raisonnable” ; pour l’instant, rémarquons que si pile
met du temps a sortir, il va falloir miser beaucoup ( si la pile sort qu’au 8è tirage, alors on
aura déjà misé 1+2+4+8+16+32+64+128=255 euros, et tout cela pour gagner 1 euro).
La théorie des martingales jetera de la lumière sur ce paradoxe de ”gagner dans un jeu
juste”, sans avoir aucun capital.
115
Rapellons les definitions de base de la théorie des martingales.
Définition 11.1 Une filtration est une suite croissante (au sens de l’inclusion) (Ft )t∈T
de sous-tribus de A, oú T est un ensemble ordonné (muni d’une rélation d’ordre).
Définition 11.2 Un processus Xt est dit adapté à une filtration (Ft ) si Xt est (Ft )- me-
surable pour chaque t. La notation est Xt ∈ Ft .
Définition 11.3 Un jeu est une paire formée par une filtration Ft et par une suite des v.a.
Xt ∈ Ft .
Intuitivement, les tribus Ft , t ∈ T modélisent “l’evolution de l’information” disponible

jusqu’au temps t, et Xt representent la valeur d’un jeu, comme perçue au temps t. Par
exemple, si la filtration F0 , F1 , ..., F4 est formé par les 5 etapes d’un jeu de poker Texas
hold’em, les variables indicatrices I0 , I1 , ..., I4 dont la valeur est 1 si un joueur donné gagne
sont adaptés à la filtration.
Nous allons introduire maintenant trois categories des processus stochastiques, l’im-
portance des quelles peut être comparés a celles des fonctions constantes, croissantes et
décroissantes, dans le calcul détérministe.
Définition 11.4 Une suite des v.a. Xt ∈ Ft , Xt ∈ L1 (dP ) est appelée

martingale/sur-martingale/ sous-martingale
{
=
ssi E[Xt′ /Ft ] ≤ Xt , quand t′ > t.
≥
Définition 11.5 Martingales en temps discret. Soit (Yn )n∈N une suite de variables
aléatoires réelles définies sur (Ω, A, P ), intégrables, indépendantes et centrées. Pour tout
n de N , la suite de tribus : Fn = σ (Y0 , Y1 , ..., Yn ) est une filtration.
Une suite (Xn ) ∈ (Fn )n∈N , n ∈ N de variables aléatoires réelles intégrables est une
martingale en temps discret par rapport à (Fn ) si elle vérifie :
∀n ∈ N , E (Xn+1 | Fn ) = Xn .
Exemple 11.2 Martingale ”additive”=Somme de variables aléatoires indépendantes de

moyenne 0. Si (Yn )n∈N est une suite de variables aléatoires intégrables, indépendantes et
centrées, alors la suite des sommes :
Xn = Y0 + Y1 + · · · + Yn
est une martingale ”additive” par rapport à la filtration Fn = σ (Y0 , Y1 , ..., Yn ) .

Bien entendu, si les Yi ne sont pas centrées mais de moyenne a alors (Xn − na)n est une
martingale.
116
Exemple 11.3 Martingale multiplicative=Produit de variables aléatoires indépendantes de
moyenne 1. Si (Yn )n∈N est une suite de variables aléatoires intégrables, indépendantes avec
moyennes 1, alors la suite des produits :
∏
n
Xn = Y0 × Y1 × · · · × Yn = Yk
k=0
est une martingale ”multiplicative” par rapport à la filtration Fn = σ (Y0 , Y1 , ..., Yn ) .

En effet, prenant espérance conditionnelle de la formule recursive Xt+1 = Xt Yt+1 donne :
E[Xt+1 |Ft ] = E[Xt Yt+1 |Ft ] = Xt EYt+1 = Xt
∏ où les Yi ne sont pas de moyenne 1 mais de moyenne a ̸= 0, on
Là aussi, dans le cas
considerera Xn = a−n nk=0 Yk .
{
α + βXn a.p. Xn
Exemple 11.4 Soit Xn+1 = βX
n a.p. 1 − Xn , où X0 , α, β ∈ (0, 1), α + β = 1.
Montrer que Xn ∈ [0, 1] et que Xn est une martingale.
R : E[Xn+1 |Xn ] = βXn + αXn = Xn
Exemple 11.5 c) Martingale obtenue par filtrage

On se donne ζ ∈ L1 (Ω, F, P) et une filtration (Fn )n . Pour tout n ≥ 0, on pose
E(ζ|F∞ ) = ζn
(ζn )n est une martingale.
Exercice 11.1 Soit (Xn )n∈N une martingale par rapport à une filtration (Fn )n∈N . Soient m
et n deux entiers positifs tels que m < n , calculer E ((Xm+1 − Xm ) (Xn+1 − Xn )) .
11.1 Le théorème d’arrêt des martingales

Nous presentons maintenant une des applications les plus importantes des martingales,
dans la théorie des jeux.
Exercice 11.2 Montrer qu’une martingale additive ou multiplicative en temps discret Xn

satisfait :
E[Xk+n |Fn ] = Xn , ∀k ≥ 1,
où Fn = σ(X1 , . . . Xn ) est l’information au temps n.
Sol : La demo est trés facile, car pour les martingales additives et multiplicatives, les
espérances conditionnelles se reduisent a des espérances non-conditionnelles.
En effet
∑
k
E[Xk+n |Fn ] = E[Xn + Zn+i |Fn ]
i=1
∑
k
= Xn + E[ Zn+i ] = Xn
i=1
117
The case of multiplicative martingales ∑
is similar.
t
Interprétation : Une somme X(t) = i=1 Zi , où Zi = ui , li a.p. pi , qi , peut être vue
comme les gains cumulés d’un joueur qui mise Zi au temps i. Si le jeu est ”juste” au sense
que EZi = 0, alors il est evident que
EXt = 0, ∀t,
i.e. les gains esperés sont 0. Outrement dit, le joueur qui s’arrête a un temps fixe ne peut
pas améliorer l’espace d’états de ses gains cumulés à un moment futur fixe, juste en variant
les mises Zi (tant que EZi = 0).
Il se pose alors la question si des mises plus sohistiqués, conditionnées par le passé,
ou d’autres strategies d’arrêt T, par exemple T = min(TL , TK ), peuvent améliorer ses
chances.
Les exercices ci-dessus nous montre que tant que le jeu est une martingale est que le temps
d’arrêt et fixe, cela est impossible, et cela restera vrai pour des temps d’arrêt ”raisonnables”,
cf. le théorème de Doob ci-dessous.
Exercice 11.3 Montrer qu’une martingale en temps discret satisfait :
E[Xt+k |σ(X1 , X2 , Xt )] = Xt ∀k ≥ 1
Sol : On a besoin de la loi ET généralisé (prop. (8))

E[E[X|B]|C] = E[X|C] siC ⊂ B (11.1) cl
Pour k = 2 par exemple :

E[Xt+2 |Ft ] = E[E[Xt+2 |Ft+1 ]|Ft ] = E[Xt+1 |Ft ] = Xt
Alternativement, on peut utiliser l’idée de la demo du cas additif, car on peut toujours
decomposer une martingale comme une somme des ”differences de martingale” Zi :
∑
k
Xt+k = Xt + Zt+i ,
i=1
tq Xt ∈ Ft =⇒ Zt ∈ Ft , et E[Zt+1 |Ft = 0. Prenant espérance conditionnelle :

∑
k
E[Xt+k |Ft ] = E[Xt + Zt+i |Ft ]
i=1
et il nous reste a montrer E[Zt+i |Ft ] = 0, ∀i ≥ 2. On procède par recurrence. It is true for
i = 1, so suppose we proved it up to i = j. Pour obtenir le résultat pour j + 1, on conditionne
sur l’information supplementaire au temps t + j E[Zt+j+1 |Ft ] = E E[Zt+j+1 /Ft , Ft+j ]] =
E[E[Zt+j+1 |Ft+j ]|Ft ] = E[0] = 0.
t:os Théorème 11.1 Optional stopping theorem Si X est une martingale (resp. sur-martingale,
sous-martingale) et T un temps d’arrêt alors X T = (XT ∧n )n≥0 est appelée martingale (resp.
sur-martingale, sous-martingale) arrêtée en T . C’est une martingale (resp. sur-martingale,
sous-martingale). En particulier, on a pour tout entier n,
E(XnT ) = E(XT ∧n ) = E(X0 ), (resp. ≤, ≥)
118
Remarque 11.1 Ce théorème dit en outre que pour tout n ∈ N , XT ∧n est dans L1 . Il ne
suppose aucune condition sur le temps d’arrêt.
Démonstration. Démonstration du théorème de sur-martingales arrêtées On a juste

à montrer le théorème pour X surmartingale puisque X sous-martingale équivaut à −X
sur-martingale et X est une martingale ssi c’est à la fois une sur-martingale et une sous-
martingale.
1) XT ∧n est Fn -mesurable car
∑
n−1
XT ∧n (ω) = Xk (ω)1T (ω)=k + Xn (ω)1{T (ω)≥n}
k=0
C’est une somme de variables aléatoires Fn -mesurables.(∑ )

2) Pour tout n ∈ N , XT ∧n est intégrable car |XT ∧n | ≤ n−1
k=0 |X k | + |Xn |.
3)On a :
∑
n−1
E(XT ∧n |Fn−1 ) = E(Xk 1T =k |Fn−1 ) + E(Xn 1T ≥n |Fn−1 )
k=0
∑
n−1
= 1T =k E(Xk |Fn−1 ) + 1T ≥n E(Xn |Fn−1 )
k=0
∑
n−1
≤ 1T =k Xk + 1T ≥n Xn−1 = XT ∧n−1
k=0

Si (Xn )n est une martingale et si T est un temps d’arrêt alors pour tout entier n, on a
E(XT ∧n ) = E(X0 )
A-t-on E(XT ) = E(X0 ) ? Un contre exemple est le suivant. Soit (Xn )n une marche aléatoire
telle que X0 = 0 et E(Xn+1 − Xn ) = 0. (Xn )n est une martingale. Soit T = inf{n ∈ N ; Xn =
1} le temps d’entrée en 1. On a vu que c’était un temps d’arrêt (par rapport à la filtration
naturelle de X). Pourtant, on a
E(XT ) = 1 ̸= E(X0 ) = 0
Remarque 11.2 Le théorème 11.1 est la version la plus simple du fameux théorème d’arrêt
des martingales, et va être aussi utilisé comme pas intermediaire pour le démontrer.
A very useful result of martingale theory, le théorème d’arrêt des martingales, states
that no matter how clever the gambler tries to be, subject to some ”reasonable restrictions”
(like gambling for a time T with finite expectation and keeping the amount of your losses
bounded), the gambler cannot escape the law
E[ST ] = S0
119
Remarque 11.3 Cette propriété generalise ESt = S0 , ∀t, qui est une conséquence imme-
diate de la définition, pour t fixe. The fact that we may extend this to the case of stopping
times T has the interpretation that even the most clever stopping rules T (which obey some
restrictions) cannot break the odds.
Remarque 11.4 Comme il n’existent pas des conditions necessaires et suffisantes simples
qui assurent la validité du théorème d’arrêt des martingales, nous donnons ci-dessous une
réunion des plusieurs versions intéréssantes (prises des livres de Williams, Grimmett et
Ross).
Théorème 11.2 (Théorème d’arrêt des martingales) Si St est une martingale par
rapport a une filtration Fn , et T un temps d’arrêt ({T = n} ∈ Fn ), alors
E[ST |F0 ] = S0
dans chacun des cas suivants :
1) T < C, où C est une constante.
2) ET < ∞, max{1<t<T} |St − St−1 | ≤ C, où C est une constante. La condition d’une
durée du jeu à espérance finie est plus faible, mais on rajoute la condition que les mises du
jeu sont bornées (c’est moins fort que de supposer les gains/pertes restent bornées, comme
dans le prochain cas.
3) P [T < ∞] = 1 ⇔ P [T = ∞] = 0, max{1<t<T } |St | ≤ C, où C est une constante. Le
jeu fini surement, et les gains/pertes restent bornées.
4) ET < ∞, max{1<t} E[|St − St−1 |Ft−1 ] ≤ C, où C est une constante.
5)
P [T < ∞] = 1 ⇔ P [T = ∞] = 0,
E|ST | < ∞,
lim E[Sn 1IT>n ] = 0
n→∞
Les premières trois cas sont rangés pedagoqiquement dans ordre croissante des demandes sur
St , et diminuante sur T . Le plus facile à vérifier semble le quatrième, et le plus général est par
contre le dernièr cas, qui illustre le fait que c’est le couple (T, ST ) qui doit être ”raisonnable”.
Dem : 5) On utilise la décomposition :
ST = Smin[T,n] + (Smin[T,n] − Smin[T,n] )1IT >n ,
avec n → ∞.
Com Exercice 11.4 En supposant que le théorème d’arrêt des martingales est applicable, calcu-
ler :
a) l’espérance v(x) = Ex XT des gains d’un joueur qui mise Yi = ±1, avec pi = qi = 21 ,
dans les limites [−L, K].
b) la probabilité de gagner p(x) = Px [XT = K].
c) Comment peut on justifier l’application du théorème d’arrêt des martingales ?
Remarque 11.5 Sur un interval fini, ce genre des problèmes peut être resolu facilement à
partir de l’équation des differences obtenu par conditionnement sur le premier pas, qui est
ici :
1 1
vx = vx+1 + vx−1 , v0 = 0, vK = K.
2 2
120
Sol : a) L’application du theorème d’arrêt a la martingale Xt donne
v(x) = Ex XT = X0 = x
b)
Ex XT = Ex X0 = x = K Px {XT = K} + L (1 − Px {XT = K}) = x,
et donc
(x − L)
px = Px {XT = K} = .
(K − L)
c) L’application pourrait être justifié par les cas 2) ou 3) du theorème d’arrêt. En effet,
les conditions que les gains |Xt | ≤ max(|L|, K) et les mises sont bornées sont evidentes.
Par contre, les conditions Ex T < ∞ et P[T < ∞] = 1 demandent plus de travail.
1. Le calcul direct. La meilleure justification ici est de passer à une autre méthode, car
pour les marches aléatoires sur un interval fini on obtient facilement
Ex [T] = (K − x)(x + L) < ∞,
en resolvant le système obtenu par conditionnement sur le premier pas.

2. La théorie spectrale PF (Perron Frobenius) des matrices sous-stochastiques
(ou des chaı̂nes de Markov finies, absorbés). Une deuxiéme justification possible,
beaucoup plus générale, est de citer le fait que la probabilité P[T = ∞] qu’une chaı̂ne de
Markov finie reste pour toujours dans les états transients est 0 (c’est une consequence
du théorème PF (de Perron Frobenius) en analyse).
3. Les astuces. Si le calcul direct de Ex T n’est pas faisable, et si on n’est pas satisfait de
citer Perron-Frobenius, on offre parfois des solutions probabilistes directes, comme par
l’astuce ”donnons du temps au temps” de Brzezniak, Example 3.7. Notons par contre
que cette solution, bien que intéresante conceptuellement, devrait être evitée dans des
cas simples comme celui ci, car elle demande beaucoup d’effort !
Exemple 11.6 Le modèle Wright-Fisher Il s’agı̂t de modéliser l’evolution de la fréquence

d’une gène A dans une population de taille finie N . On suppose que le nombre Xn+1 des gènes
A au moment n + 1 a la loi BinN,pXn où px = Nx , si Xn = x. Ainsi :
( )
N j
pij := P [Xn+1 = j|Xn = i] = p (1 − pi )N −j
j i
Montrer que :
1. Xn est une martingale.
2. On observe ”une population Wright-Fischer” jusqu’au moment T = min(T0 , TN ).
Quelle est la probabilité fi que la fréquence esperé de la gene speciale sera finalement
1?
Sol : a) E[Xn+1 /Xn ] = NpXn = Xn . b) fi = Ni .

Comme dans l’exemple précedént, l’application du theorème d’arrêt peut être justifié
par les cas 2) ou 3). La seule différence est que Ex T n’est pas facile a obtenir, car le condi-
tionnement sur le premier pas ramène à une equation de differences avec N termes ! On est
donc obligés de citer PF (Perron-Frobenius).
121
11.2 ”La martingale interdite”
The doubling ”martingale” strategy. We examine now the strategy which gave
martingales their names (nowadays outlawed in casinos).
A gambler with no initial capital has as goal to win 1 pound. His first bet is s1 = 1
pound. If he loses, he bets whatever it takes to bring him up to 1 pound (s2 = 2 pounds at
the second bet, s3 = 4 at the third, and in general sn = 2n−1 on the n′ th bet. The stopping
time is T1 . We note immediately that this strategy creates a dollar out of nothing and does
not satisfy le théorème d’arrêt des martingales, i.e.
E0 XT1 = 1 > 0!!

We examine now les conditions du théorème d’arrêt des martingales. It is easy ∑ to check
that pk = P[T = k] = 2−k , k = ∑ 1, 2, ... and thus both condition 1 a) (that k pk = 1)
and condition 2 a) (that ET = k k pk = 2 < ∞) are satisfied. However, neither the
cumulative fortune, nor the stakes are bounded, since the loss may double its value an
arbitrary number of times and of course the gambling time does not have to be bounded.
Thus, neither condition 1 b) nor 2 b) are satisfied.
Notice that this strategy seems quite efficient for the gambler (a sure win in a number of
steps with expectation 2!). Also, practically, it seems at first safe for the bank too, since in
practice the gamblers will have to limit the time they gamble by some finite number n, and
then le théorème d’arrêt des martingales will apply (by any of the three conditions !). Note
that the possible loss after the n′ th bet is −2n + 1. The 0 expectation of le théorème d’arrêt
des martingales means in practice roughly that the winnings of 2n successful martingale
gamblers will be outset by the huge loss of one misfortunate ; the fear that this loss will not
be honoured is what lead to the outlawing of this strategy.
More precisely, if all martingale gamblers bound their losses at L = −2n + 1, then we
are allowed to apply le théorème d’arrêt des martingales, and find as usual that the fraction
= 2 2−1
L n
of winning martingale gamblers p0 = 1+L n is very close to 1. The fraction of losers
−n
1 − p0 = 2 is very small, but the potential loss is huge 2n − 1, averaging thus to 0. When
L → ∞ the bad second case somehow disappears by indefinite postponement) !
Note : The expected duration may also be found to be t0 = E0 T = 2 − 2−n by setting
up a corresponding difference equation, for example. Donc, ici c’est St plutôt qui invalide la
conclusion du theorème d’arrêt des martingales.
Remarque 11.6 While the assumptions of le théorème d’arrêt des martingales may look
at first technical, they have however a clear meaning : by using ”reckless” strategies (with
unbounded stakes or borrowing) for very long times, a gambler may ”beat” the odds, as
illustrated by the doubling strategy, originally called ”martingale”, which gave this field its
name.
11.3 Comment justifier l’application du théorème d’arrêt

des martingales ? Exemples
Exercice 11.5 La ruine du joueur en utilisant les martingales : quelles chances
de gagner et au bout de combien de temps ?
Soient X1 , X2 , . . . des v.a.i.i.d. avec P (X = 1) = p, P (X = −1) = q = 1 − p et 0 < p < 1.
122
Supposons que x et b soient deux entiers avec 0 < x < b. On définit
Sn := x + X1 + · · · + Xn , T := inf{n, Sn = 0 ou Sn = b}.
La fortune initiale du joueur de pile ou face est représentée par x et il compte s’arréter s’il
a atteint b ou 0. On peut aussi interpréter ce modèle comme un jeu à deux : alors la fortune
initiale du premier joueur est x et celle du second est b − x. Sn − x représente alors le gain
cumulé du premier joueur et x−Sn les pertes cumulées du second. Chacun des joueurs stoppe
quand il est ruiné, i.e. quand Sn = 0 ou Sn = b. Soit Fn = σ(X1 , . . . , Xn ) et F0 = {∅, Ω}.
1) Calculer px = P(ST = 0) et tx = E(T ) par le théorême d’arrêt des martingales appliqué
aux martingales Mn = ρSn et Nn = Sn − nm, avec des valeurs de ρ, m choisies tel que ce
sont des martingales, et en supposant que le théorême d’arrêt est applicable
R : Mn est un produit de v. a. indépendantes, positives et de moyenne 1 ssi : E[ρZi ] =
pρ + qρ−1 = 1. Les racines sont ρ = 1 (pas intéréssant) et ρ = pq . Nn est une somme de v.a.
aléatoires indépendantes sommables de moyenne
x
nulle ssi m = p − q.
Le théorême d’arrêt donne : px = 1−ρ
1−ρb x
, t = x−Kpx
q−p
.
2) Comment justifier l’application du théorême d’arrêt ?
R : La martingale de Wald Mn est bornée, et la deuxième martingale a des mises bornées.
Comme au cas symmétrique (Exercice 11.4), Ex T < ∞ est une conséquence du théorème
PF. On peut aussi appliquer la méthode de 11.9 : ”Tout ce qui a une chance raisonnable
d’arriver se produira tôt ou tard”.
Exercice 11.6 Calculer, en utilisant le{théorème d’arrêt des martingales,
} les probabilités de
ruine sur [0, ∞) pour une marche avec p2 = 38 , p1 = 81 , p−1 = 12
Sol : EZ1 > 0 et la loi des grandes nombres implique P[T = ∞] > 0] et donc aucun des
cas du théorème d’arrêt ne s’applique pas, car le théorème d’arrêt ne permet pas des temps
d’arrêt tq. P[T = ∞] > 0 !
Dommage, car ∑ on trouve facilement une martingale de Wald Mt = ρXt , en resolvant
p(ρ) := E[ρZ. = i pi ρi = 1, ρ ∈ (0, 1). Par une ”application erronée” du théorème d’arrêt a
cette martingale, on trouve la réponse raisonnable ψ(x) = ρx , avec une interprétation claire,
ρ = Px [Tx−1 < ∞].
Heureusement, pour une ”application correcte,” il suffit de remplacer T par le temps
d’arrêt borné TN = min(T, N ), avec N → ∞. On trouve
ρx = EρXTN = ρXN Px [T > N] + ρ0 Px [T ≤ N] →N→∞ Px [T < ∞] = ψ(x) (11.2)
(le premier terme converge vers 0, car P[XN → ∞] = 1).
Exercice 11.7 Calculer la probabilité de ruine ψx , x ∈ N,{pour une marche sur les nombres
}
8 1 1
naturelles, avec la distribution de chaque pas donné par : p−1 = 10 , p1 = 10 , p2 = 10 .
Exercice 11.8 Soit

∑
n 1, avec probabilité 8
p1 = 10
Xn = x + Zi , Zi = −1, p−1 = 101
,

i=1 −2, p−2 = 101

a) E[Z1 ] > 0?
b) Calculer, en utilisant le théorème d’arrêt des martingales, les probabilités de ruine ψ(x) =
Px [T0 < ∞], x ∈ N, pour cette marche. Montrer qu’elles sont positives.
123
Solution
8 1 1
a) E(Z1 ) = 1. 10 +(−1). 10 +(−2). 10= 21 > 0
b) On decompose ψ(x) = φ0 (x) + φ1 (x), φi (x) = Px [T < ∞, XT = −i], i = 0, 1. On applique
le théorème d’arrêt appliqué aux
∑ deux martingales arrêtées de Wald Mt = ρX
i
t
(comme en
−j
(11.2)), où p(ρi ) = 0 ⇔ ρi = j=0 φj (x) , ρi ∈ (0, 1). Ici, ρ1 = 1/2, ρ2 = −1/4. On résout
x 1
le système de type Vandermonde.

Les probabilités de ruine sont :
( )x ( )x
5 1 1 1
ψx = + −
6 2 6 4
Note : Voila une solution directe, par conditionnement sur le premier pas :
∑
1
ψ(x) = Px [T0 < ∞] = P [Z1 = i].Px [T0 < ∞|x + Z1 = x + i]
−2
∑
1 ∑
1
= P [Z1 = i].Px+i [T0 < ∞] = pi .ψ(x + i)
−2 −2
8 1 1
= .ψ(x + 1) + .ψ(x − 1) + .ψ(x − 2), (x ∈ N)
10 10 10
Les CF sont : 

ψ(∞) = 0
ψ(0) =1


ψ(−1) = 1.
(il est aussi vrai que ψ(−2) = 1, ... mais −2 n’est pas dans l’espace d’états).
On cherche ψ(x) = ρx .
8 x+1 1 1
On a ρx = .ρ + .ρx−1 + .ρx−2
10 10 10
8 1 1
⇒ρ2 = .ρ3 + .ρ +
10 10 10
⇒(ρ − 1)(2.ρ − 1)(4ρ + 1) = 0
1 1
⇒ψ(x) = A1 ( )x + A2 (− )x
2 4
ψ(0) = ψ(−1) = 1 sont satisfaites ssi A1 = 65 , A2 = 61 . Les probabilités de ruine sont :
5 1 1 1
ψ(x) = .( )x + .(− )x
6 2 6 4
11.4 Comment démontrer qu’un temps d’arrêt T est

fini p.s.
Quand l’espace d’états et la loi d’un temps d’arrêt ne sont pas explicites, il est quand-
même possible de démontrer que T est fini p.s par l’astuce suivante :
124
outfinitunjour Exercice 11.9 ”Tout ce qui a une chance positive d’arriver aprés un nombre fini
des pas se produira tôt ou tard” (Williams, exercice E10.5 p. 233)
Soit F une filtration (avec F0 = {∅, Ω} et T un temps d’arrêt tels que pour un certain
N ∈ N et un certain ε > 0,
∀n, P(T ≤ n + N |Fn ) > ε, p.s.
1) Montrer par récurrence en utilisant P(T > kN ) = P(T > kN ; T > (k − 1)N ) que pour
k = 1, 2, . . . ,,
P(T > kN ) ≤ (1 − ε)k .
1) Réponse : On procède par récurrence. Quand n = 0, on a bien la propriété par hypothèse car
F0 = {∅, Ω} et donc P(T > N )11Ω = P(T > N |F0 ) = 1 − P(T ≤ N |F0 ) ≤ 1 − ε. De plus,
∫ ∫
P(T > kN ) = P(T > kN ; T > (k − 1)N ) = 11T >kN = E(11T>kN |F(k−1)N )
T >(k−1)N T >(k−1)N
(car l’ensemble [T > (k − 1)N ] est F(k−1)N -mesurable)
≤ (1 − ε)P(T > (k − 1)N ) par hypothèse.
2) En déduire que E(T) < ∞.

2) Réponse : On a
∑ ∑
E(T) = nP(T = n) ≤ n nP(T > n − 1)
n
∑ ∑
≤ nP(T > n − 1)
k (k−1)N ≤n≤kN
∑
≤ N kN P(T > (k − 1)N − 1)
k
∑
≤ N kN P(T > (k − 2)N )
k
∑
≤ N2 k(1 − ε)k−2 < ∞
k
Exemple 11.7 ABRACADABRA, cf. poly Morel : une très longue attente (Grimmett-
Stirzaker One thousand exercises in probability, exercice 16 p. 124 et Williams,
exercice E10.6 p. 233) On va résoudre par martingale le problème suivant :
Quelle est l’attente moyenne au jeu de pile ou face pour qu’une séquence préfixée se produise ?
Prenons l’exemple de la séquence P P P (pile trois fois).
Un très grand casino contient une infinité de joueurs G1 , G2 , . . . qui disposent chacun d’une
fortune de 1 euro. Un croupier tire à pile ou face (probabilités p et q = 1 − p toutes les
secondes. Au temps n, le joueur Gn se met à parier de la manière suivante : il place 1 sur
Pile. Le casino étant équitable, il touche en cas de succès p1 (expliquer pourquoi). Il place
alors à nouveau cette fortune sur Pile. Il continue ainsi à parier toute sa fortune sur Pile
jusqu’à ce qu’il aie gagné trois fois de suite (P P P ) ou qu’il perde tout. Dans les deux cas, il
quitte alors le casino.
1) Soit Sn le profit (ou la perte) cumulé(e) du casino après le n-ième tirage. Montrer que Sn
est une martingale.
125
1) Réponse : Soit Yn la v.a. associée au n-ième tirage (Yn = F ou P ) et Fn = σ(Y1 , . . . , Yn ). Soit
Xn la somme des gains et pertes des joueurs après le n-ième coup. Comme Xn est une fonction
déterministe des résultats Yn des n coups précédents, elle est Fn -mesurable. Comme le jeu est
équitable, la moyenne de Xn est nulle. De plus, le nombre de joueurs est plus petit que 3 et leur
enjeu plus petit que p−3 . Donc Xn est sommable. Sn est donc l’exemple classique de martingale, à
savoir une somme de v.a. sommables indépendantes et de moyenne nulle Xn .
2) Soit T le nombre de tirages effectués avant la première apparition de P P P . Montrer que
T est un temps d’arrêt, montrer que E(T ) < ∞. Utiliser le résultat de l’exercice 11.9.
2) Réponse : La décision T = n est une fonction déterministe des résultats de Y1 , . . . , Yn et
est donc Fn -mesurable. C’est donc un temps d’arrêt. Pour montrer que E(T ) < ∞, il suffit de
vérifier que l’hypothèse de l’exercice 11.9 est vérifiée : P(T ≤ n + N |Fn ) > ε, a.s.. On le montre
pour N = 3. Notons Ωn = {P, F }n l’ensemble des résultats possibles pour les n premiers tirages.
La tribu Fn est engendrée par la partition en événements atomiques Bi = [(Y ∑1 , . . . , Yn ) = i], i
décrivant Ωn . Par la formule (PT), on a pour tout événement A, P(A|Fn ) = i∈Ωn P(A|Bi )11Bi .
On choisit A = [T ≤ n + 3]. En effet, une séquence P P P peut se produire aux trois coups suivants
avec probabilité ε = p3 et on a
∑ ∑
P(T ≤ n + 3|Fn ) ≥ P([(Xn+1 Xn+2 Xn+3 ) = (P P P )]|Bi )11Bi = p3 11Bi = p3 .
i∈Ωn i
3) En déduire que E(T) = p−1 + p−2 + p−3 .

3) Réponse : On applique le théorème d’arrêt des martingales b) ou d). Donc E(ST ) = 0. Mais, au
moment où le jeu s’arrète, les joueurs G1 , . . . , Gn ont misé chacun -1 et seuls Gn−2 , Gn−1 et Gn
ont gagné respectivement p−3 , p−2 et p−1 . Donc E(ST ) = 0 donne p−1 + p−2 + p−3 − ET = 0.
4) Adapter le raisonnement pour calculer le temps moyen d’attente de P F P .
4) Réponse : on trouve E(N) = p−1 + p−2 q−1 .
5) Dans le même esprit : le casino possède un singe qui tape au hasard sur les 26 touches
majuscules à la vitesse de 60 caractères par minute. Montrer que le temps moyen d’attente
de la séquence ABRACADABRA est 2611 +264 +26. Donner un ordre de grandeur en années
du temps d’attente.
6) Un paradoxe ? Les calculs précédents prouvent que le temps moyen d’attente de P P (deux
fois Pile) dans le cas p = 21 est égal à 2 + 4 = 6 alors que le temps d’attente de P F est
de 4. Ceci peut paraı̂tre contreintuitif, puisque les séquences P P et P F sont équiprobables !
De même, on vient de voir que le temps d’attente de ABRACADABRA est supérieur au
temps d’attente de, disons, ABCDEFGHIJK, qui est une séquence de même longueur et
donc équiprobable. Discuter ce paradoxe. Vous convaincre par une simulation de pile ou face
(utiliser directement une monnaie) que l’expérience confirme bien la différence de temps
d’attente pour P P et P F .
11.5 Exercices
∏
1. a) Montrer que Xn = ni=1 Zi , où Zi sont i.i.d. et prennent les valeurs 2 et 0 avec
probabilités égales, est une martingale, par rapport à σ(Z1 , ..., Zn ).
b) Est-ce que le théorème d’arrêt des martingales est applicable à Xn , arrêtée au temps
d’atteinte T0 ?
∑
2. Soit Zi une suite des va tq Sn = ni=1 Zi est une martingale.
∑ Démontrer que a) EZi = 0.
b) Ces variables sont noncorrélés. c) V ar(Sn ) = V ar(Zi )
126
3. Démontrer l’identité de Wald. Soit Zn , n ≥ 1 une suite iid tel que Z1 soit intègrable
et soit T un temps darrêt pour la filtration associè à Zn , n ≥ 1, satisfaisant ET < ∞,
et soit Sn = Z1 + ... + Zn . Alors
E[ST ] = E[T ]E[Z1 ].
4. Le temps d’atteinte esperé t(x) = Ex T, pour la marche aléatoire simple,

symmétrique Sn = Z1 + ... + Zn . Comme la martingale du cas asymmétrique ne
marche pas ici, on utilisera la martingale :
Mn = Sn2 − n.
a) Montrez que Mn est une martingale par rapport à σ(Z1 , ..., Zn ).

b) Montrez que si le théorème d’arrêt des martingales est applicable sur l’interval
[L, K], alors :
tx = Ex [min(TL , TK )] = (K − x)(x − L), (11.3)
i.e. l’espace d’états du temps d’atteinte de {L, K} est le produit des distances du
capital initial x aux bords de l’interval.
c) Comment justifier l’application du théorème d’arrêt des martingales ?
5. Montrer que pour un joueur qui joue ”la martingale”
EST−1 = −∞
Ind : Calculer la loi de ST −1 .

6. La marche aléatoire simple asymmetrique, sur un interval infini. Soit (Zn ) une
suite des va Bernoulli, indépendantes : P(Zn = 1) = p, P(Zn = −1) = q = 1 − p < p.
On pose S0 = 0, Sn = Z1 + . . . + Zn et Fn = σ(Z1 , . . . , Zn ) = σ(S0 , . . . , Sn ). Soit enfin
T = inf{n ≥ 0; Sn = 1} qui est un temps d’arrêt.
a) Montrer que P[T < ∞] = 1.
b) Calculer ET, en utilisant le théorème d’arrêt des martingales, et en supposant qu’on
a déja démontré ET < ∞.
7. La marche aléatoire simple symmetrique, sur un interval infini. Soit (Zn )
une suite de Bernoulli de paramètre 1/2, Sn = Z1 + . . . + Zn , Fn = σ(Z1 , . . . , Zn ) =
σ(S0 , . . . , Sn ), et T = inf{n ≥ 0; Sn = 1}. Ici, la conclusion du théorème d’arrêt pour
la martingale Sn est fausse, car E0 [ST ] = 1. Comme les mises sont finies et le cas 2) ne
s’applique pas, il suit que E0 [T] = ∞ !
On verra maintenant que P0 [T = ∞] = 0 (mais comme les pertes possibles sont infinies,
le cas 3) ne s’applique non plus).
Nous allons calculer la distribution de T , en utilisant la martingale exponentielle
de moyenne 1
( )n ( )n
1 1
Mnθ = exp(θSn ) = exp(θSn )
E[eθZ. ] cosh θ
(les martingales de Wald sont les cas particuliers obtenues en choisissant θ tq E[eθZ. ] =
1].
127
Pour tout n ∈ N , considerons la martingale arrêtée en T MTθ ∧n . On a :
( )T ∧n 
1
E(MTθ ∧n ) = 1 = E  exp(θST ∧n )
cosh θ
Soit θ > 0. On remarque que la martingale arrêtée est bornée uniformement par
(cosh θ)−1 , et que P presque sûrement,
eθ
lim MTθ ∧n = 1{T <∞}
n→∞ (cosh θ)T
(car sur {T = ∞} la martingale arrètée converge vers 0). Donc d’après le théorème de
convergence dominée, [ ]
1
E 1{T <+∞} T
= e−θ
(cosh θ)
En faisant tendre θ vers 0 et en utilisant le théorème de convergence monotone,
on déduit que P(T < +∞) = 1. On peut donc oublier l’indicatrice dans l’égalité
précédente. Effectuant alors le changement de variables α = 1/ cosh(θ), on obtient
1[ √ ]
E(αT ) = 1 − 1 − α2
α
En particulier, on a
P(T = 2m) = 0 et P(T = 2m − 1) = (−1)m+1 C(1/2, m)
Solutions :
1. We check first that Xn is a multiplicative martingale (since EZ1 = 1). Le théorème
d’arrêt des martingales Ex ST0 = x = 1 applied to the stopping time T0 (without
checking the conditions) would yield here a wrong conclusion, that 1 = 0.
Of course, none of the alternative conditions provided for the theorem holds here. For
example, condition (2) (which is the most widely applicable) does not hold since a
martingale which may double its value an arbitrary number of time does not have
bounded increments.
Note : This exercise is similar to the martingale doubling strategy.
2. The case of additive martingales (when the increments are independent) is easy. For
the general case, use EZn Sn−1 ) = E[Zn Sn−1 |Fn−1 ] = Sn−1 E[Zn |Fn−1 ] = 0.
3. L’identité de Wald est une conséquence immédiate du théorème d’arrêt des martingales,
cas 4).
4. a) To show that Mn is indeed a martingale we obtain first a formula for its increments :
Mn+1 − Mn = (Sn + Zn+1 )2 − n − 1 − (Xn2 − n) = 2Zn+1 Xn + Zn+12
− 1 = 2Zn+1 Xn .
We check now the conditional expectation of the increments.
E[Mn+1 − Mn |Fn ] = E[2Zn+1 Xn |Fn ] = 2Xn E[Zn+1 |Fn ] = 0.
128
b) We apply now the Optional Stopping Theorem to the martingale Mn = Xn2 − n.
The Optional Stopping Theorem yields :
Ex MT = Ex (X2T − T) = X20 = x2 (11.4)

Conditioning on the last state we get
Ex (X2T − T) = K2 P{XT = K} + L2 P{XT = L} − Ex T. (11.5) m1
The probabilities of winning/losing for the martingale XT were found before to be
x−L K −x
P [XT = K] = , P [XT = L] =
K −L K −L
Plugging these in (11.5) gives
x−L K −x
K2 + L2 − Ex T = x2
K −L K −L
which after simplifying yields
tx = Ex [min(TL , TK )] = (K − x)(x − L)
c) This martingale is not bounded below (since T can take arbitrarily large values), so
we can’t apply the third set of conditions. Pour la deuxième pair des conditions, nous
savons que les increments de Mn sont bornés :
|2Zn+1 Xn + Zn+12
− 1| = |2Zn+1 Xn | ≤ 2 max(|L|, K)
Aussi, comme remarqué déj‘a dans la solution de l’exercice 11.4, le fait que ET < ∞
est assuré par la théorie spectrale des matrices sous-stochastiques. L’option du calcul
direct (très simple ici) par conditionnement sur le premier pas serait illogique ici, car
ça reviendra a justifier cette méthode en la remplaçant par une autre !
Remarque 11.7 Pour la marche symmétrique qui reste sur place avec proba 1−2p > 0
on trouve
(K − x)(x − L)
tx = Ex [min(TL , TK )] = . (11.6)
2p
Remarque 11.8 Letting L → −∞ and K = x + 1 we find that the expected duration
of a game for winning just one buck (with no lower bound on the losses) is infinite,
which is quite surprising.
129
Chapitre 12
Exercices de révision
1. Considérez une particule effectuant une marche aléatoire simple Xt , t = 0, 1, 2, ...

sur le graphe (A) ci-dessous : i.e. à chaque moment t = 1, 2, ..., la particule se déplace
vers l’un de ses voisins sur le graphe à sa position actuelle, avec la même probabilité
pour chaque choix.
(A) (B)
1
1
2 3 2 3
0 0
5 4 5 4
(a) Calculer :
i. L’éspérance en sortant de 1 du nombre de pas T0 jusq’au noeud 0. Indication :
ii. L’éspérance en sortant de 0 du nombre de pas T̃0 jusq’au premier retour en
0.
iii. Les probabilités stationnaires de chaque noeud. Indication : On peut utiliser
les èquations d’équilibre local.
iv. La probabilité x2 = P2 {XT = 1}, où T = min[T1 , T0 ].
v. Les probabilités pk en partant de 1 que la marche visite 0 exactement k fois
(b) À un moment donné, le passage sur certaines arrêts du graphe devient impossible,
ou possible seulement dans une direction, comme indiqué par des flèches dans le
graphe (B). Plus précisement, la particule continue de choisir des destinations
suivant le graphe (B) (”aveuglement”, entre les routes qui restent visibles, mais
130
les choix qui ne sont plus disponibles résultent dans un pas annulé, donc sur
place).
i. Donnez la matrice de transition de la marche.
ii. Identifiez les classes de la chaı̂ne, et classifiez les en récurrentes et transitoires.
iii. Trouvez la distribution stationnaire de chaque classe récurrente.
iv. Est-ce que la limite quand n → ∞ de la matrice de transition apres n étapes
P n existe ? Le cas écheant, trouvez-la.
2. Des femmes et des hommes arrivent dans un magasin, après des temps fixes, unitaires.
Chaque instant, une femme arrive avec probabilité λF , ou un homme arrive avec pro-
babilité λH , ou il n’y a pas d’arrivée, avec probabilité λ0 = 1 − λF − λH .
(a) Trouver la probabilité pF qu’une femme entre avant un homme. Indication : Condi-
tionnez sur le premier instant, ou sur le nombre d’instants sans arrivées.
(b) Trouver la probabilité que deux femme entrent consecutivement (i.e. avec aucun
homme entre eux, mais pas forcement aux moments consecutifs) avant qu’un
homme entre.
(c) Trouver la probabilité qu’au moins deux hommes soient entrés consecutivement
(i.e. avec aucune femme entre eux, mais pas forcement aux moments consecutifs),
avant que trois femmes ne soient entrées consecutivement. Indication : Considèrez
un processus de Markov sur l’espace des états : (H1, H2, H3, ...)∪(F 1, F 2, F 3, ...),
qui enregistre au temps t la longueur k de la dernière série des clients k ∈ {1, 2, ...}
du même sexe entrés consecutivement, et leur sexe (H/F) ; formulez des equations
d’arrêt pour les états d’arrêt indiqués.
(d) Quelle est la probabilité qu’au moins m hommes soient entrés consecutivement,
avant que n femmes ne soient entrées consecutivement ?
(e) Qu’est qu’y change en temps continu ?
Exercice 12.1 Un spéolog est obligé a faire une marche aléatoire entre les sommets
d’un triangle {1, 2, 3}, avec toutes les chemins ayant des chances égales d’être prises.
Il y a deux chemins entre 1, 2, deux chemins entre 1, 3, et 1 chemin entre 2, 3. Il y a
aussi deux chemins boucles (partant et finissant) en 2, deux chemins boucles en 3, et
six chemins boucles en 1.
Calculer
(a) La matrice de transition P de la marche et ses valeurs propres
(b) les probabilités stationnaires de chaque noeud
(c) La matrice symmétrique π(i)P (i, j).
(d) La matrice de transition P n
(e) La fonction gńératrice (I − xP )−1 et
(f ) l’espérance en sortant de 3 du nombre de pas Ñ3 jusqu’au premier retour à 3.
R : 1)  
3 1 1
5 5 5
 2 2 1 
5 5 5
2 1 2
5 5 5
131
Le polynôme charactéristique est
7x2 11x 1 x−1
−x3 + − + =− (5x − 1)2 ,
5 25 25 25
avec valeurs propres 1, −1/5, −1/5.
4) La solution la plus simple est par la decomposition spectrale. Une autre est de
chercher des scalaires
P n = an P 2 + bn P + cn I
où an = ..., bn = .., cn = ..., et l’initialisation vient de Cayley-Hamilton P 3 = 75 P 2 −
11 1
25
P + 25 I. Finalement,
 
5−k 5−k 5−k
1
+ 1
− 1
−
 21 5−k 2 4 4
−k
4
5−k 
4
 2 − 2 14 + 354 1
4
− 4 
5−k 5−k 35−k
1
2
− 2 4− 4 1 1
4
+ 4
Exercice 12.2 Un message electronique doit être transmis par lutilisateur dune ma-
chine A vers lutilisateur dune machine C. Ce transfert seffectue par lintermédiaire
dune machine B. Mais Mickey Markov est administrateur du réseau et il y a parfois
des messages perdus ou détruits. On suppose que le transfert de A vers B est effectif
avec la probabilité p et échoue avec la probabilit é 1 - p. En cas déchec, le message est
retourné ‘a lutilisateur A ; le transfert de B vers C est effectif avec la probabilité q et
échoue avec la probabilit é 1 - q. En cas déchec, le message est ‘a nouveau retourné ‘a
lutilisateur A ; en cas déchec, A renouvelle lenvoi du message ; tous les transferts sont
indépendants entre eux. On note Xn , n ≥ 0 la succession des machines sur lesquelles
le message transite. a) Démontrer que Xn , n ≥ 0 est une chaı̂ne de Markov homogène
despace détats A,B,C, de condition initiale X0 = A, dont on écrira le matrice de tran-
sition P. b) On sintéresse au nombre N de transitions nécessaires pour que le message
atteigne son destinataire : N = inf n ≥ 1, Xn = C. 1) Démontrer que, pour tout entier
n, P (N ≤ n) = pAC (n), o‘u pAC (n) est le coefficient correspondant à la ligne A et à la
colonne C de la matrice P n , puissance n de P. 2) En utilisant lidentité P n+1 = P P n ,
démontrer la relation suivante : pAC (n + 1) = (1 − p)pAC (n) + p(1 − q)pAC (n − 1) + pq
. 3) Existe-t-il une suite constante solution particulière de léquation de récurrence
un+1 = (1 − p)un + p(1 − q)un−1 + pq 4) Que valent pAC (0) et pAC (1) ? On suppose
maintenant p = q = 1/ 2 . Pour tout n ≥ 0, on pose vn = un−1 . Quelle est la forme
générale de la solution de léquation de récurrence satisfaite par la suite vn , n ≥ 0 ? 5)
En déduire P (N ≤ n) pour tout n 2 IN. 6) Calculer E[N].
3. a) Une mouche effectue une marche cyclique sur les sommets {1, 2, 3} d’un triangle,
avec matrice de transition ”circulante”
 
a b c
P = c a b
b c a
où a, b, c ≥ 0 et a + b + c = 1. Il est facile de verifier que la matrice de transition

P n est aussi ”circulante” (i.e. chaque ligne est déduite de la ligne précédente par une
permutation cyclique de ses éléments vers la droite ) et on dénote par (an , bn , cn ) les
éléments de sa première ligne.
(a) Quelles sont les valeurs limites de (an , bn , cn ) quand n → ∞ ?
132
(b) On cherche une formule explicite, aussi simple que possible, pour la probabilité
an = P n (1, 1) qu’après n étapes, la mouche soit retournée au sommet 1 d’où elle
est partie. Soit vn = (bn , cn ). Trouvez une récurrence pour le vecteur vn .
(c) Résolvez cette récurrence et trouvez an , au cas a = b = c = 1/3 et au cas
b = c = 1/2.
(d) Résolvez la récurrence, au cas où la mouche a deux fois plus de chances de sauter
dans le sens des aiguilles d’une montre, i.e. b = 2/3, c = 1/3.
(e) Généraliser au cas d’une marche cyclique sur les sommets d’un polygone avec
k sommets (utilisant eventuellement votre language formel de choix, comme
xmaxima,...). Ind : Cela nous ramène à ètudier, eventuellement l̀’aide de Maxima,
les puissances des matrices circulantes stochastiques :
A :=matrix([1-b-c,b,c],[c,1-c-b,b],[b,c,1-c-b]) ;
Vérifier que la matrice est entré correctement en calculant A1 = subst(1, b, A); A2 =
subst(0, b, A1); A23 ;
Note : Maxima n’est pas capable de calculer puissances matricielles symboliques,
et elle refuse de faire même les matrices diagonales ; mais elle accepte les produits
de Hadmard symboliques, et comme les deux coincides, elle reussi aussi les pro-
duits matricielles symboliques, avec un peu d’aide :
V :eigenvectors(A) ; V1 :V[2] ;V2 :V[3] ;V3 :V[4] ; VD :transpose(matrix(V1,V2,
V3)) ;
M :ratsimp(invert(VD).A.VD) ; An :ratsimp(VD.M n .invert(VD)) ;
4. Soit Xt une chaı̂ne de Markov absorbante, soit ∂ l’ensemble de ses états absorbantes,
soit B, A une decomposition de l’ensemble des états transitoires, et soit
p(k, B) = (px (k, B), x ∈

/ ∂)
où
px (k, B) := Px {exactement k visites en B avant l’absorbtion en ∂}, x ∈

/∂
(a) Quel type de distribution on trouve pour px (k, B), quand B = {x} ? (Specifiez les
paramètres). Quel est le résultat pour la chaı̂ne associé à :
 
0 1−a a 0 0
 1−b 0 b 0 0 
 
 x1 x 0 x 1 − x − x − x  où B = {3}, et en particulier pour
 2 4 1 2 4 
 0 0 c 0 1−c 
0 0 0 0 1
a = b = c = 1/2, x1 = x2 = x4 = 1/4 (”le papillon”).
(b) Pour B quelqonque, en conditionnant sur le premier pas, trouvez une relation
entre les variables px (k, B), x ∈ A, k ∈ N, et finalement une récurrence vectorielle
p(k) = M p(k − 1), en spécifiant comment obtenir la matrice M à partir de la
matrice P de transition de la chaı̂ne. Vérifiez votre formule avec le cas B = A.
133
O U
A C
(c) Retrouvez le résultat pour le ”papillon généralisé” ci-dessus, dans le cas qu’on
cherche la probabilité pk en partant de U = 5 que la marche visite O = 1 exac-
tement k fois (k = 0, 1, 2, ...) avant le premier retour à U ) (les autres sommets
seront libelés A = 2, B = 3, C = 4), à partir de la formule générale.
(d) Considerez aussi le ”papillon
∑∞ généralisé”, en prenant B = {1, 2, 3}. Vérifiez pour
cet exemple que la somme k=0 pk (i, B) = 1, ∀i ∈ {1, 2, 3}.
(e) Ecrivez un program dans votre language de choix qui calcule p(k, B) et une
approximation p(k, B) ≈ cλk pour une chaı̂ne et ensemble B arbitraires et
démontrez sa performance sur les exemples 3.5, 3.6 (pages 23-24) et ensembles B
de votre choix.
5. a) Quelle est la probabilité que la marche aléatoire simple est de retour en 0 après
√ 2n
n! √
pas ? b) Approximer cette quantité par la formule de Stirling limn→∞ (n/e)n n = 2π.
 
p1 p | 1 − p1 − p
6. Soit Xt une chaı̂ne absorbante sur {1, 2, a} avec matrice de transition  0 p2 | 1 − p2  =
0 0 | 1
 
Q| 1 − p1 − p ( )
 |  p1 p
1 − p2 où Q = , et avec distribution initiale (1, 0, 0).
0 p2
0 0| 1
Soit N le nombre des pas (transitions) jusqu’à l’absorbtion en a.
(a) Quelle est la valeur de N si X0 = X1 = ... = Xk−2 = 1, Xk−1 = 2 et Xk = a ?
(b) Trouvez l’espérance du nombre des pas N jusq’à l’absorbtion.
(c) Demontrez que pour i, j ∈ {1, 2}, et k ∈ {1, 2, ...}, il est vrai que
P [N ≥ k, Xk = j|X0 = i] = P [Xk = j|X0 = i]
(d) Quelle sont les probabilités
P [N ≥ 2, X2 = j|X0 = i], i, j ∈ {1, 2}
(e) Donnez la formule des probabilités
a1 = P [N ≥ k, Xk = 1|X0 = 1], a2 = P [N ≥ k, Xk = 2|X0 = 2], k ∈ {1, 2, ...}
134
(f) Calculez la matrice génératrice (I − xQ)−1 .
(g) Calculez la matrice fondamentale (I − Q)−1 , et verifiez la réponse du point b).
(h) (*) Calculez Qk , en utilisant le developpement limite (en serie de puissances) de
la matrice génératrice (I − xQ)−1 .
(i) (*) Trouvez les probabilités P [N ≥ k|X0 = 1].
Solutions
1. (a) i. Soit
ti = Ei T0 = Ei [ nombre de pas jusq’au noeud 0]
La symmetrie implique t2 = t3 , t5 = t4 , donc trois équations suffiront (au lieu
de 5). En conditionnant sur le premier pas, on trouve que ti satisfont :
t1 = 1 + t2
1 1 1
t2 = 1 + t1 + t2 + t5
4 4 4
1 1
t5 = 1 + t5 + t2
3 3
Ça donne : t5 = 113
, t2 = 13
3
, t1 = 16
3
Rq : Pour cette question, le noeud 0 est effectivement absorbant, et la struc-
ture générale des équations pour les pbs de temps esperé Gt + 1 = 0.
ii. ET̃0 = 1 + 41 (t2 + t3 + t4 + t5 ) = 1 + 12
3
= 5 (= π10 )
iii. πi sont proportionels aux degrés di des sommets, i.e. πi = ∑di , donnant
j dj
(π1 = 2/(2 + 4 ∗ 3 + 3 ∗ 2) = 10
1
, π2 = 4/20 = 15 , π0 = 20
3
) (en vérifiant ainsi le
1
théorème ET̃0 = π0 ).
iv. Rq : Pour cete question, les noeuds 0, 1 sont effectivement absorbants. Le
système d’absorption, tenant compte de x2 = x3 , x4 = x5 est :
1 1 1
x2 = x 2 + x4 +
4 4 4
1 1
x4 = x2 + x4
3 3
Ça donne : x2 = 25 , x4 = 51 .
Rq : C’est la structure typique Gp = 0 pour les pbs de prix final esperé.
v. p0 = 25 , pk = 35 ( 10 ) 10 , k ≥ 1.
7 k−1 3
Rq : Pour cette question, le noeud 1 est absorbant, après le premier pas,

donnant naissance a une distribution géométrique, ”en exceptant” le premier
pas.
(b) i. Après la détérioration, la matrice de transition est :
 
1 0 0 0 0 0
0 0 1 1 0 0
 1 1 2 21 
 0 0 1
P = 4 4 4
 1 1 1 0 1 0
4
4 4 4 4 
0 0 0 0 2 1 
3 3
0 0 0 0 13 23
135
Sans les pas sur place, elle serait
 
1 0 0 0 0 0
0 0 12 12 0 0
1 
 1
0 14 0 1
P = 1
4 4 4
4
1
4
1
4
0 14 0
0 0 0 0 1 0
0 0 0 0 0 1
ii. classes recurrentes : {0}, {4, 5} ; classe transiente : {1, 2, 3}.

iii. les distributions stationnaires des classes recurrentes : 1 et ( 12 , 12 ).
iv. Le système d’absorption pour les probabilités d’absorption dans la classe 0
est :
1 1
x1 = x2 + x3
2 2
1 1 1
x 2 = x3 + x1 +
4 4 4
1 1 1
x 3 = x2 + x1 +
4 4 4
et x1 = x2 = x3 = 12 .
La matrice des distributions asymptotique :
 
1 0 0 0 0 0
1 0 0 0 1 1
 21 4 4
 0 0 0 1 1
P = 2
1 0 0 0 1 1
4 4
2 4 4
0 0 0 0 1 1 
2 2
0 0 0 0 21 12
2. (a) La probabilité pF satisfait
λF
pF = λF + (1 − λF − λH )pF ⇔ pF =
λF + λH
(b) p2F
(c) Considerons la chaı̂ne de Markov en temps discret qui enregistre la longueur
du nombre des clients du même sexe entrés consecutivement et le type, ayant
comme espace des états les suites (H1, H2, H3, ...) ∪ (F 1, F 2, F 3, ...). En prenant
en consideration seulement les temps quand la chaı̂ne saute, pn a une marche
aléatoire qui ”avance” sur les hommes/femmes a.p. pH = 1 − pF et pF , et ”change
de sexe” outrement. Par exemple, si λF = 2λH , les deux probas sont pH = 31 , pF =
2
3
. En denotant par xi , yi la probabilité de notre evenement en partant d’une suite
des i femmes hommes, il faudra résoudre :
y 1 = p H + p F x1
x1 = p H y 1 + p F x2
x2 = pH y1
136
∑k
Generalisant pour m hommes et n femmes et posant SF,k = piF , SH,k =
∑k i i=1
i=1 pH , nous trouvont
pm−1
H pm
H SF,n−2
y1 = , x1 =
et finalement
pm
H (1 + pF SF,n−2 ) pm
H SF,n−1
p H y 1 + pF x 1 = =
Pour m = 2, n = 3, on trouve :
pH p2H (1 + pF )
y1 = , x1 =
1 − pH pF (1 + pF ) 1 − pH pF (1 + pF )
et
p2H (1 + pF + p2F )
pH y1 + pF x1 =
1 − pH pF (1 + pF )
3. a) L’équation de Chapman-Kolmogorov donne imédiatement une formule explicite :
P n (1, 1). On note aussi que les marches cycliques ont la matrice de transition P circu-
lante, et donc nous avons une decomposition spectrale bien-connue explicite, qui utilise
les racines (complexes) de l’unité. Mais, on peut faire mieux. La matrice P n est aussi
circulante, et contient donc seulement deux inconnues : bn = P n (1, 2), cn = P n (1, 3).
Soit b = P (1, 2), c = P (1, 3), a = P (1, 1) = 1 − b − c les probabilités après un pas. On
trouve la récurrence
( ) ( : )( )
bn+1 − 1/3 a−b c−b bn − 1/3
=
cn+1 − 1/3 b−c a−c cn − 1/3
Le cas b = c = 1/2 et a = b = c = 1/3 donnent des récurrences ”decouplées”. Le cas
b = 2/3, c = 1/3 est plus difficile. En utilisant l’ordinateur, on rémarque que :
(bn − 1/3, cn − 1/3) = (1/3, 1/3) + 3−1−n/2 vn

où vn = vn+12 est périodique.
4. (a) Quand |B| = 1, on trouve une distribution ∑ geometrique px (k, {x}) = λk−1 (1 − λ)
∑ : 1−λ = px (1, {x}) = Q(x, ∂(A)+ y∈A−B p(x,∑
où y)Py [T∂(A) < Tx ] = Q(x, ∂(A)+
y∈A−B p(x, y)(1−Py [T∂(A) > Tx ]), et λ = QB,B + y∈A−B p(x, y)Py [T∂(A) > Tx ] =
−1
QB,B + QB,A (I − QA ) QA,B , car pour k ≥ 2 on a :
∑
px (k, {x}) = p(x, y)Py [T∂(A) > Tx ]px (k − 1, {x}) = λpx (k − 1, {x})
y∈A−B
Pour le papillon, B = {3}, λB = x1 + x2 + cx4 = 5/8 et pour B = {1}, λB = 3/8.

(b) Il est convenable de partager pk = (ak , bk ), où bk = (px (k, B), x ∈ B), ak =
(px (k, B), x ∈ A, x ∈
/ B). On peut supposer qu’il y a un seul état absorbant (en
”collant ensemble” tous les états absorbants), et soit
 
QA QA,B | q A
P = QB,A QB | q B 
0 0 | 1
137
la partition de la matrice de transition contenant les états dans l’ordre A−B, B, ∂.
On a b0 = 0, b1 = q B + QB,A a0 et
a0 = q A + QA a0 =⇒ a0 = (I − QA )−1 q A , b1 = q B + QB,A (I − QA )−1 q A

∑
Pour k ≥ 2, x ∈ B, px (k, B) = y∈A P (x, y)py (k − 1, B), et donc
bk = QB bk−1 + QB,A ak−1

∑
tant que pour x ∈
/ B, k ≥ 1, px (k, B) = y∈A P (x, y)py (k, B) et donc
ak = QA,B bk + QA ak =⇒ ak = (I − QA )−1 QA,B bk
Comme
b1 = (IB − QB )1B − QB,A 1A + QB,A (I − QA )−1 ((IA − QA )1A − QA,B 1B ) = (IB − M )1B )
on trouve
bk = (QB + QB,A (I − QA )−1 QA,B )bk−1 =⇒ bk = M k−1 ((IB − M )1B )
où M = QB + QB,A (I − QA )−1 QA,B est la matrice de transition de la ”chaı̂ne

induite” sur B (où ”complement de Shur” de A en Q).
Quand B = A, on retrouve bk = Qk−1
B qB .
(c) En résolvant le système d’absorbtion pour pA , pB , pC , on trouve pA = 3/4, pB =
1/2, pC = 1/4. 5) Soit pA,k = PA {exactement k visites en U avant le retour en O},
avec pB,k , pC,k définies pareillement, et pk = (pA,k , pB,k , pC,k ).
Ainsi, p0 = (pA , pB , pC ) et p0 = 12 (pA,0 + pB,0 ) = 12 (pA + pB ).
Pour k ≥ 1, on trouve :
   
0 1/2 0 0 0 0
pk = 1/4 0 1/4 pk + 0 1/8 1/8 pk−1
0 1/2 0 0 1/8 1/8
 −1  
1 −1/2 0 0 0 0
⇐⇒ pk = −1/4 1 −1/4 0 1/8 1/8 pk−1
0 −1/2 1 0 1/8 1/8
 
0 1/8 1/8
⇐⇒ pk = 0 1/4 1/4 pk−1
0 3/8 3/8
 
1 0 1/3
Les vecp à droite sont les colonnes de 0 −1 2/3/, les valp correspondantes
0 1 1
sont : 0, 0, 5/8 et le vecp de PF à gauche est : (0, 3/5, 3/5).
 
1/5
Dés lors, pk = (5/8) (pB + pC ) 2/5 et pk = (5/8)k−1 (pB + pC )3/10
k−1 
3/5
138
5.
1 p
6. a) N = k, b) E1 N = 1−p1
+ (1−p1 )(1−p2 )
,
c) Pour i, j transients, l’evenement [Xk = j|X0 = i] implique, est inclu et en effet
coincide avec [N ≥ k, Xk = j|X0 = i]
d) Q2 (i, j) = ...
e) On devine et comprends facilement que ai = Qk (i, i) = pki , i = 1, 2
f) La matrice génératrice est
( )
1 xp
−1
(I − xQ) = 1−xp1 (1−xp1 )(1−xp2 )
1
0 1−xp2
g) En posant x = 1, on trouve la matrice fondamentale :

( )
1 p
−1
(I − Q) = 1−p1 (1−p1 )(1−p2 )
1
0 1−p2
1 1 p
n2 = E2 N = , n1 = E1 N = +
1 − p2 1 − p1 (1 − p1 )(1 − p2 )
(∑ )
k−1
h) On retrouve Qk (1, 1) = pk1 , Qk (2, 2) = pk2 , et on trouve Qk (1, 2) = p i=0 pi1 pk−1−i
2 .
Pour interpreter probabilistiquement la formule de Qk (1, 2), il est utile de remarquer
qu’il s’agit de la distribution phase la plus simple (∑qui n’est ni )serie, ni parallèle
i) P [N ≥ k|X0 = 1] = Qk (1, 1) + Qk (1, 2) = pk1 + p k−1 i k−1−i
i=0 p1 p2 . La somme verifie
la réponse b).
139
Chapitre 13
Examen de probabilités avancées
2012-2013
Tous les documents d’aide sont interdits
1. On considère une pièce non équilibrée que l’on lance un nombre indéterminé de fois.
La probabilité d’obtenir pile est p ∈]0, 1[, et la probabilité de sortir face est égale à
q = 1 − p. Les lancers sont indépendants. On note N le temps d’attente du premier
pile, c’est-à-dire le nombre de lancers qu’il faut effectuer pour obtenir le premier pile,
en incluant le pile (N ∈ {1, 2, ...}).
(a) Formuler une équation pour le premier moment m = EN par la méthode du
conditionnement sur le premier pas, et la résoudre.
Quelle est la loi de N ? (on ne demande pas de justifier)
(b) Trouvez l’espérance m2 = EN2 du nombre des essais jusqu’à ce qu’on obtient
deux piles consécutives, en incluant les deux derniers résultats.
(c) Trouvez l’espérance m̃ du nombre des essais jusqu’à ce qu’on obtient pile-face-
pile, en incluant les trois derniers résultats.
Indication : On pourrait utiliser un processus de Markov qui retient l’information
minimale nécessaire pour décider si l’événement désiré a eu lieu, et qui contient
l’état final desiré, ainsi que tous ses prefixes.
2. Soit (Xn )n≥1 une suite de variables aléatoires réelles indépendantes telle que pour n ≥ 1
Xn suit une loi exponentielle de paramètre λn = n.
(a) Calculer la fonction de répartition (f.d.r.) de Yn = min{X1 , . . . , Xn } pour n ≥ 1.
P
(b) Montrer que Yn −→ 0.
p.s.
(c) Montrer que que Yn −→ 0.
(d) Determiner une suite (αn )n≥1 telle que Eαn Yn = 1.

L
Montrer que pour cette suite on a αn Yn −→ Y où l’on précisera la loi de Y .
L
Est-ce qu’il existe d’autres suites (αn )n≥1 telles que αn Yn −→ Y ?
140
3. Soit 

−1, avec probabilité p−1 = 12
∑
n
Xn = x + Zi , Zi = 1, p1 = 81 ,


i=1 2, p2 = 38
(a) Est-ce que E[Z1 ] > 0?
(b) Calculer, en utilisant le conditionnement sur le premier pas, les probabilités de

ruine ψ(x) = Px [T0 < ∞], x ∈ N.
(c) Calculer l’espérance du temps de ruine pour
{ la marche ”renversée”,
} avec la dis-
3 1 1
tribution de chaque pas Zi donnée par : p1 = 8 , p−1 = 8 , p−2 = 2 .
Calculer les probabilités de ruine pour cette marche.
141
Solutions :
1. (a) Le conditionnement après un pas donne m = p + q(1 + m), l’espérance est m = p1 .
(b) Le
{ conditionnement après un pas donne
m2 = p(1 + m1 ) + q(1 + m2 )
=⇒ m2 = p+1 p2
, m1 = p12 . La méthode ”arbre
m1 = p + q(1 + m2 )
developpé jusqu’au feuilles succés/recommence” (”divide et conquera”) produit
directement l’équation m2 = q(1 + m2 ) + pq(2 + m2 ) + 2p2
(c) Le conditionnement après un pas donne


m3 = p(1 + m2 ) + q (1 + m3 )
m2 = q(1 + m1 ) + p (1 + m2 )


m1 = p + q (1 + m3 )
avec solutions m̃ = m3 = 1+pq

p2 q
, m1 = p+1
p2
, m2 = p12 q
La méthode ”arbre” identifie une nouvelle inconnue ”persistente/incontournable” m2 ,
dans le sens que l’arbre ”developpé jusqu’au feuilles” est infini. Ici, on ne peut pas
remplacer le conditionnement
 après
 un pas par des astuces ! On peut aussi utiliser
q p 0
m = (I − Q)−1 1, Q = 0 p q 
q 0 0
2. (a) La fonction de répartition (f.d.r.) de Yn = min{X1 , . . . , Xn } est FYn (y) = P (Yn ≤
y) = 1−P (Yn > y) = 1−exp(−yn(n+1)/2) si y > 0 et 0 sinon (car 1+2+· · ·+n =
n(n + 1)/2).
P
(b) Yn −→ 0 car ∀ε > 0, P (|Yn | > ε) = P (Yn > ε) = exp(−εn(n + 1)/2) → 0 lorsque
n → +∞.
p.s. ∑ ∑ ∑
(c) Yn −→ 0,∑car ∀ε > 0, n≥1 P ∑ (|Yn | > ε) = n≥1 P (Yn > ε) = n≥1 exp(−εn(n +
1)/2) ≤ n≥1 exp(−εn/2) = n≥1 (exp(−ε/2))n < +∞.
(d) αn = (EYn )−1 = n(n+1)
2
P (αn Yn ≤ y) = P (n(n+1)Yn /2 ≤ y) = FYn (2y/(n(n+1))) = (1−exp(−y))1{y>0} .
L
Donc pour αn = n(n+1)/2 et Y ∼ E(1) on a Yn −→ Y . Le résultat de convergence
reste identique si l’on prend αn = n2 /2, donc le choix n’est pas unique.
3. (a) E[Z1 ] = 18 + 38 .2 + 21 (−1) = 38 > 0
(b) Les probabilités de ruine satisfont px = 81 px+1 + 38 px+2 + 12 px−1 , x ∈ N. Elles sont
des combinaisons de puissances ρx , avec ρ une racine plus petite que 1 de
1 2
3ρ3 /8+ρ2 /8−ρ+1/2 = (ρ−1)(3ρ2 +4ρ−4) = (ρ−1)(ρ+2)(3ρ−2) =⇒ px = ( )x
8 3
(c) E[Z1 ] = 38 − 18 + 12 (−2) = − 68 < 0
tx = 1 + 38 tx+1 + 18 tx−1 + 12 tx−2 , t0 = 0
Sol homogène engendrée par 1x , r1x , r2x , r1 = −.6, |r2 | ≥ 1.
x
Sol particulière et finale tx = −E[Z 1]
= 4x
3
.
Les probabilités de ruine sont ψx = 1, ∀x (car E[Z1 ] < 0).
142

Table Des Mati' Eres

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Table Des Mati' Eres

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

2 Convergence des variables aléatoires 19

6 Chaı̂nes de Markov : approfondissement 60

9 Les marches aléatoires/sommes des variables i.i.d. au temps ﬁxes 85

1.1 Probabilité et espérance conditionnelle par rap-

L’idee de a) et b) est claire : on “jette” la partie de l’espace en dehors de B, en tenant

Les probabilités conditionnelles interviennent naturellement dans des nombreuses situa-

1.2 Les lois de la probabilité et de l’espérance totale

Pareillement, on a une loi des espérances totales :

Exercice 1.3 Exe 1, poly Philippe-Viano.

1.3 Variables aléatoires discrètes, continues et hybrides,

est appellée absolument continue.

est appellée variable (absolument) continue .

Ind : Pour calculer P [Z = h(X) ≤ z] = P [x : H(x) ≤ z], tracer le graph de y = h(x),

avec (p1 , p2 , ...) un vecteur des probabilités.

Exercice 1.8 Soit X une variable positive, et soit Xa = min[X, a].

Exercice 1.10 Calculer l’espérance de la mesure

Remarque 1.5 Classiﬁcation des fonctions de répartition

Quelques formules à rémarquer pour les variables continues

fY,X (y, x) fY,X (y, x)dxdy

fX,Y (x, y) = fX (x)fY /X (y/x) = fY (y)fX/Y (x/y) (1.3)

Aussi utile est la loi de Bayes pour les probabilités marginales :

Solution : (1 − r)(1 − (1 − p1 p3 )(1 − p2 p4 )) + r(1 − (1 − p1 )(1 − p2 ))(1 − (1 − p3 )(1 − p4 )).

1.5 La loi exponentielle

(∗∗) F̄ (t + h) = F̄ (t) F̄ (h) pour tous t, h ≥ 0

(∗∗) f (t + h) = f (t) + f (h) pour tous t, h ≥ 0

doit être linéaire, i.e.

Démonstration : A partir de (∗∗) , on obtient que :

appellée ”risque instantané” ou ”taux de hasard/mort” oﬀre encore une charactérisation

P [X < h|X ≥ 0] P [X < h] Fh

La formule correcte au premier ordre pour h très petit

au lieu de la formule exacte Fh = 1 − e−λh .

1.6 V.a. i.i.d. (variables indépendantes, identiquement

ex:der Exercice 1.28 1. Montrer que

Exercice 1.29 Soit X, Y deux v.a. géométriques independantes de loi pk = (1 − p)pk , k =

par un calcul direct ou en appliquant le developpement limité de l’exercice 1.28 pre-

P [Z = k] = (k + 1)(1 − p)2 pk , k = 0, 1, ...,

P (z) = (1 − p)3 (1 + pz + p2 z 2 + pk z k ...)(1 + pz + p2 z 2 + pk z k ...)(1 + pz + p2 z 2 + pk z k ...)

Les probabilités d’une somme des trois v. géométriques sont :

en appliquant le developpement limité de l’exercice 1.28, ou par un calcul direct, ou

tienne aussi pour des entiers negatifs. En eﬀet, pour α = −1,

Déﬁnition 1.4 Soient (Ω, F, P) un espace probabilisé et (V, V) un espace mesurable. On

appelée loi de probabilité de la variable aléatoire X, correspond a l’ancienne deﬁnition. Elle

L’idée de la deﬁnition de Kolmogorov aurait pu venir de la simulation.

R : Une possibilité est de prendre un nombre X de loi uniforme en [0, 1], et de le

1.8 Le paradoxe des anniversaires (*)

Les premières valeurs sont Q1 = 1, Q2 = 32 , Q3 = 17

est precisement l’inverse du taux de hasard en n de la densité γn (x).

2.1 Convergence en loi des mesures

Exercice 3 Soit Xn une v.a. de loi géométrique de paramètre nλ . Alors Yn = Xn /n converge

Sol : a) F̄Yn (y) = P [Xn > yn] = (1 − nλ )⌈yn⌉−1 ≈ e− n (⌈yn⌉−1) → e−λy .

c) (*) On considère séparément k=0 et ∞ ⌈yn⌉ et on laisse y → ∞.

a. Montrer que pour tout n ≥ 1, Xn admet une densité fXn .

0.2 0.4 0.6 0.8 1.0

Exercice 7 Est-ce que la convergence en loi implique toujours la convergence des :

2.2 Types de convergence des fonctions en analyse :

Exercice 12 Soit Xn : [0, 1]− > R, Xn (x) = ⌈nx⌉

2.3 La loi des grands nombres en moyenne quadratique

Théorème 2.1 Soit X1 , X2 , . . . des variables aléatoires indépendantes identiquement dis-

2.4 Detour d’analyse : la convergence dominée

0.2 0.4 0.6 0.8 1.0

Question 2 Pourquoi la loi normale ?

m1 = κ1 , m2 = κ2 + κ21 , m3 = κ3 + 3κ1 κ2 + κ31 , m4 = κ4 + 4κ1 κ3 + 6κ1 κ22 + 3κ22 + κ41