STT 4700 2021

STT-4700
Hiver 2021
STT-4700
Processus aléatoires
Hiver 2021
Claude Bélisle
Professeur titulaire
Département de mathématiques et de statistique
Université Laval
belisle@mat.ulaval.ca
© Claude Bélisle, 2021
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Avant-propos
Cet ouvrage est utilisé comme manuel de référence pour le cours STT-4700 Processus aléatoires of-
fert par le Département de mathématiques et de statistique de l’Université Laval. Ce cours s’adresse
principalement aux étudiants des programmes de baccalauréat en mathématiques, de baccalauréat
en statistique et de baccalauréat intégré en économie et mathématiques. Il est normalement offert à
la session d’hiver. Le préalable pour le cours STT-4700 Processus aléatoires est le cours STT-1500
Probabilités.
Pour réussir le cours STT-4700, il faut

(a) avoir réussi le cours STT-1500 Probabilités,
(b) avoir réussi un cours de calcul différentiel et intégral dans Rn ,
(c) être prêt à travailler fort,
(d) avoir une certaine maturité mathématique.
Claude Bélisle
Hiver 2021
i
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
ii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Table des matières
Avant-propos i
1 Probabilité conditionnelle et espérance conditionnelle 1

1.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 La règle de multiplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 La loi des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Le théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Calcul de probabilités par conditionnement . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Calcul d’espérance par conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8 Calcul de variance par conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Quelques exemples de calculs par conditionnement . . . . . . . . . . . . . . . . . . . 17
1.10 Les exercices du chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Introduction à la théorie des

chaı̂nes de Markov à temps discret 25
2.1 Matrice stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Probabilités de transition d’ordre supérieur et
généralisations de la propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Distributions conjointes et distributions marginales . . . . . . . . . . . . . . . . . . . 35
2.5 La propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Communication entre états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8 Chaı̂nes irréductibles et apériodiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9 Récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10 Rérurrence positive et récurrence nulle . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3 Marches aléatoires 57
3.1 La marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 La marche aléatoire sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3 La marche aléatoire sur {0, 1, 2, ..., m} . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 La marche aléatoire sur N0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5 Retour sur la marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Marche aléatoire sur un graphe simple connexe . . . . . . . . . . . . . . . . . . . . . 68
iii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
4 Chaı̂nes de Markov à temps discret :

loi stationnaire et convergence 75
4.1 Loi stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Le théorème du renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3 Théorème de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.5 Annexe A : Démonstration du théorème de la section 4.2 . . . . . . . . . . . . . . . . 89
4.6 Annexe B : Démonstrations des théorèmes de la section 4.3 . . . . . . . . . . . . . . 91
5 Processus de branchement 97
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 L’espérance et la variance de Xn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3 La fonction génératrice des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.4 La probabilité de disparition de la population . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Quelques généralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6 Processus de Poisson 117

6.1 La loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.2 La loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3 La loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4 Processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.5 La loi de (S1 , S2 , ..., Sn ) sachant N (t) = n . . . . . . . . . . . . . . . . . . . . . . . . 129
6.6 Superposition et décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.7 Processus de Poisson non homogène . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.8 Processus de Poisson composé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.9 Troisième définition de processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . 136
6.10 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7 Chaı̂nes de Markov à temps continu 157

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.2 Processus de naissance et de mort . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.3 Temps de passage d’un processus de naissance et de mort . . . . . . . . . . . . . . . 161
7.4 Les Pij (t) d’un processus de naissances pur . . . . . . . . . . . . . . . . . . . . . . . 163
7.5 La matrice infinitésimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.6 L’équation de Chapman et Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.7 Les équations différentielles de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 170
7.8 Solution matricielle de l’équation différentielle de Kolmogorov . . . . . . . . . . . . . 174
7.9 Distribution stationnaire et convergence . . . . . . . . . . . . . . . . . . . . . . . . . 175
8 Le mouvement brownien 187

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.2 Le distribution conditionnelle de Xs sachant Xt . . . . . . . . . . . . . . . . . . . . . 189
8.3 Première visite à l’ensemble {a, b} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.4 Première visite au point y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
iv
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.5 Le maximum du mouvement brownien sur [0, t] . . . . . . . . . . . . . . . . . . . . . 193

8.6 Transformations du mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . 193
8.7 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.8 Le mouvement brownien avec dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
8.9 Le mouvement brownien géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
v
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 1
Probabilité conditionnelle et
espérance conditionnelle
1.1 Probabilité conditionnelle

La notion de probabilité conditionnelle est une des notions les plus importantes en théorie des
probabilités. Avant de l’introduire de façon formelle, considérons un exemple illustratif. Je lance
une paire de dés. Quelle est la probabilité que j’obtienne au moins une fois la valeur six ? Pour
résoudre ce problème élémentaire, il suffit d’observer que
• l’expérience aléatoire ≪ lancer une paire de dés ≫ donne lieu à 36 résultats possibles ;
• ces 36 résultats sont équiprobables : ils ont tous la même probabilité de survenir ;
• parmi ces 36 résultats, il y en a 11 pour lesquels on obtient au moins un six.
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)

(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
La réponse est donc 11/36. Maintenant, je lance les dés et je vous annonce que j’ai obtenu un total
égal à 8. Étant donnée cette information, quelle est la probabilité que j’aie obtenu au moins une
fois la valeur six ? Pour résoudre ce problème, on note d’abord qu’il y a 5 résultats possibles pour
lesquels le total est égal à 8. Ce sont les 5 résultats suivants :
(2, 6) (3, 5) (4, 4) (5, 3) (6, 2)
Parmi ces 5 résultats possibles, il y en a 2 pour lesquels il y a un six : le résultat (2, 6) et le résultat
(6, 2). La réponse est donc 2/5. Examinons notre démarche d’un peu plus près. Posons
A = l’événement ≪ obtenir au moins un six ≫

= {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6), (6, 5), (6, 4), (6, 3), (6, 2), (6, 1)},
B = l’événement ≪ le total obtenu est 8 ≫

= {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)},
1
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
et notons que
A ∩ B = {(2, 6), (6, 2)}.
Notre réponse 2/5 peut donc être écrite sous la forme
2 2/36 P[A ∩ B]
= = .
5 5/36 P[B]
Cet exemple motive la définition suivante :
Définition de probabilité conditionnelle. Soit E, une expérience aléatoire avec ensemble de

résultats possibles Ω (parfois appelé l’ensemble fondamental). Soit A et B, des événements. Sup-
posons que P[B] > 0. La probabilité conditionnelle de A sachant B, dénotée P[A|B], est définie par
l’équation
P[A ∩ B]
P[A|B] = .
P[B]
La figure 1 illustre cette définition. Sachant que l’événement B s’est réalisé, la probabilité que
l’événement A se soit réalisé est égale à la probabilité de l’intersection A ∩ B (région ombragée)
divisée par la probabilité de B (région encerclée par une ligne épaisse).
Figure 1. La probabilité conditionnelle de A sachant B.
Le résultat suivant est facile à démontrer.
Théorème. Soit B, un événement tel que P[B] > 0. Alors
1. Pour tout événement A on a 0 ≤ P[A|B] ≤ 1.

2. P[∅|B] = 0 et P[Ω|B] = 1.
3a. Si A1 , A2 , ...An sont des événements mutuellement exclusifs, alors
n
X
P [∪ni=1 Ai | B] = P[Ai |B].
i=1
3b. Si A1 , A2 , A3 , ... sont des événements mutuellement exclusifs, alors

∞
X
P [∪∞
i=1 Ai | B] = P[Ai |B].
i=1
On reconnaı̂t ici les trois axiomes de Kolmogorov. Ce théorème nous dit donc que si on fixe B, alors
la fonction qui associe à chaque événement A la probabilité conditionnelle P[A|B] est une mesure
de probabilité sur Ω. Il s’ensuit que toutes les propriétés usuelles des probabilités sont également
valides pour les probabilités conditionnelles. Par exemple, on a
2
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
• P[A|B] = 1 − P[Ac |B],

• P[C ∪ D|B] = P[C|B] + P[D|B] − P[C ∩ D|B],
• C ⊂ D ⇒ P[C|B] ≤ P[D|B].
1.2 La règle de multiplication

Dans certains problèmes, les probabilités P[A ∩ B] et P[B] sont ou bien données ou bien faciles à
calculer. On peut alors utiliser la définition
P[A ∩ B]
P[A|B] =
P[B]
pour calculer la probabilité conditionnelle P[A|B]. Mais souvent ce sont la probabilité conditionnelle
P[A|B] et la probabilité P[B] qui sont ou bien données ou bien faciles à calculer. On peut alors
calculer P[A ∩ B] à l’aide de la règle de multiplication :
P[A ∩ B] = P[A|B] P[B].
Les rôles de A et B étant symétriques dans l’expression P[A ∩ B], on peut aussi écrire la règle de
multiplication sous la forme
P[A ∩ B] = P[A] P[B|A]. (1.1)
Dans la pratique, ce sont les données du problème qui nous indiquent laquelle des deux équations
précédentes utiliser. Souvent il y a un ordre chronologique qui dicte notre choix.
Exemple 1. Un panier contient cinq boules noires et trois boules blanches. On tire deux boules
au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir une boule noire au
premier tirage et une boule blanche au deuxième ?
Solution. Si on pose
A = l’événement ≪ obtenir une boule noire au premier tirage ≫

B = l’événement ≪ obtenir une boule blanche au deuxième tirage ≫
alors la probabilité désirée est simplement P[A ∩ B]. Une application de la règle de multiplication
nous donne
5 3 15
P[A ∩ B] = P[A] P[B|A] = × = .
8 7 56
Une généralisation élémentaire de la règle de multiplication nous permet de traiter les intersections
de plus de deux événements. Considérons par exemple le cas d’une intersection de trois événements,
disons A ∩ B ∩ C. En conditionnant sur A ∩ B on obtient
P[A ∩ B ∩ C] = P[A ∩ B] P[C |A ∩ B]
et en conditionnant sur A on obtient
P[A ∩ B] = P[A] P[B|A].
3
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En combinant ces deux dernières équations, on obtient la règle de multiplication pour l’intersection
de trois événements :
P[A ∩ B ∩ C] = P[A] P[B|A] P[C |A ∩ B].
De la même façon on peut traiter le cas général :
La règle de multiplication :
P[E1 ∩ · · · ∩ En ] = P[E1 ] P[E2 |E1 ] P[E3 |E1 ∩ E2 ] · · · P[En |E1 ∩ · · · ∩ En−1 ].
On peut bien sûr réécrire cette dernière équation sous la forme

n
Y
P[∩nk=1 Ek ] = P[Ek | ∩k−1
i=1 Ei ]
k=1
avec la convention que ∩0i=1 Ei = Ω, de sorte que le premier terme dans le produit ci-dessus est
P[E1 | ∩0i=1 Ei ] = P[E1 |Ω] = P[E1 ].
Exemple 2. Un panier contient cinq boules bleues, six boules blanches et sept boules rouges. On
tire quatre boules au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir
quatre boules de la même couleur ?
Solution. Si on pose
H = l’événement ≪ obtenir 4 boules de la même couleur ≫

A = l’événement ≪ obtenir 4 boules bleues ≫
B = l’événement ≪ obtenir 4 boules blanches ≫
C = l’événement ≪ obtenir 4 boules rouges ≫,
alors on a H = A ∪ B ∪ C. Les événements A, B, et C étant mutuellement exclusifs, on obtient
P[H] = P[A ∪ B ∪ C] = P[A] + P[B] + P[C].
La règle de multiplication nous donne

5 4 3 2 1
P[A] = × × × = ,
18 17 16 15 612
6 5 4 3 3
P[B] = × × × = ,
18 17 16 15 612
7 6 5 4 7
P[C] = × × × = .
18 17 16 15 612
On obtient donc
1 3 7 11
P[H] = + + = .
612 612 612 612
4
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
1.3 La loi des probabilités totales

Voici un exemple pour illustrer le résultat de la présente section.
Exemple 3. Dans l’entrepôt d’une certaine usine de fabrication de clous, 50% des clous ont été
fabriqués par la machine I, 30% par la machine II et 20% par la machine III. Parmi les clous
fabriqués par la machine I, 3% sont défectueux. Parmi ceux fabriqués par la machine II, 5% sont
défectueux et parmi ceux fabriqués par la machine III, 8% sont défectueux. Quelle est la proportion
de clous défectueux dans l’entrepôt de cette usine ? Autrement dit, si on choisit un clou au hasard
dans l’entrepôt, quelle est la probabilité d’obtenir un clou défectueux ?
Solution. Pour résoudre ce problème, posons
A = l’événement ≪ le clou est défectueux ≫,

E1 = l’événement ≪ le clou provient de la machine I ≫,
E2 = l’événement ≪ le clou provient de la machine II ≫,
E3 = l’événement ≪ le clou provient de la machine III ≫.
Les informations qui nous sont données dans l’énoncé du problème se traduisent alors de la façon
suivante :
P[E1 ] = 0.50 P[A|E1 ] = 0.03

P[E2 ] = 0.30 P[A|E2 ] = 0.05
P[E3 ] = 0.20 P[A|E3 ] = 0.08.
On doit calculer P[A]. On obtient
P[A] = P[A ∩ Ω]
= P[A ∩ (E1 ∪ E2 ∪ E3 )]
= P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]
= P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]
= P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

3 50 5 30 8 20
= + + = 0.0460.
100 100 100 100 100 100
Dans cette série d’équations, on a d’abord utilisé le fait que les événements E1 , E2 et E3 sont
exhaustifs, c’est-à-dire E1 ∪ E2 ∪ E3 = Ω. On a donc A = A ∩ Ω = A ∩ (E1 ∪ E2 ∪ E3 ) =
(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) et donc P[A] = P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]. L’égalité
suivante vient du fait que les événements E1 , E2 et E3 sont mutuellement exclusifs, c’est-à-dire
E1 ∩ E2 = E2 ∩ E3 = E1 ∩ E3 = ∅. Il s’ensuit que les événements A ∩ E1 , A ∩ E2 et A ∩ E3 sont
aussi des événements mutuellement exclusifs et le troisième axiome de Kolmogorov nous donne
P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )] = P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]. Pour l’égalité suivante, on a
simplement utilisé la règle de multiplication. Enfin, pour terminer le calcul on a simplement utilisé
5
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
les informations contenues dans l’énoncé du problème. Ce type de problème est souvent rencontré
en pratique et l’équation
P[A] = P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]
est un cas particulier du résultat suivant :
La loi des probabilités totales : Si E1 , E2 , ..., En , des événements mutuellement exclusifs et

exhaustifs, alors, pour tout événement A, on a
n
X
P[A] = P[A|Ej ]P[Ej ].
j=1
Rappelons que E1 , E2 , ..., En sont des événements mutuellement exclusifs s’ils sont disjoints deux à
deux, c’est-à-dire si on a Ei ∩ Ej = ∅ pour tout i 6= j. Rappelons aussi que E1 , E2 , ..., En sont des
événements exhaustifs si on a E1 ∪ E2 ∪ · · · ∪ En = Ω. Dire que E1 , E2 , ..., En sont des événements
mutuellement exclusifs et exhaustifs est équivalent à dire que lorsque notre expérience aléatoire
sera réalisée, un et un seul des événements E1 , E2 , ..., En se réalisera. En langage ensembliste, on
dit que les ensembles E1 , E2 , ..., En forment une partition de l’ensemble Ω.
Le diagramme de Venn de la figure 2 illustre la loi des probabilités totales dans le cas particulier
où l’ensemble Ω est partitionné en cinq morceaux.
Figure 2. La loi des probabilités totales.
La loi des probabilités totales est également valide dans le cas où on est en présence d’une col-
lection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs. Voici un exemple
élémentaire pour illustrer ce cas.
Exemple 4. On lance une pièce de monnaie jusqu’à ce qu’on obtienne une pile. Puis, on lance
un dé un nombre de fois égal au nombre de fois qu’on a lancé la pièce de monnaie. Quelle est la
probabilité d’obtenir au moins un six avec le dé ?
Solution. Posons
A = l’événement ≪ obtenir au moins un six avec le dé ≫
et pour n = 1, 2, 3, ... posons
En = l’événement ≪ la première pile survient au ne lancer de la pièce ≫.
D’une part on a P[En ] = 1/2n pour chaque n ≥ 1. D’autre part on a

n
c 5
P[A|En ] = 1 − P[A |En ] = 1 −
6
6
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
pour chaque n ≥ 1. Les événements E1 , E2 , E3 , ... étant mutuellement exclusifs et exhaustifs, on

peut utiliser la loi de probabilités totales. On obtient
∞
X
P[A] = P[A|En ] P[En ]
n=1
∞ n
X 5 1
= 1−
6 2n
n=1
∞ n ∞
X 1 X 5 n 5 2
= − =1− = .
n=1
2 n=1
12 7 7
Ici, on a utilisé le fait bien connu que voici concernant les séries géométriques :
∞
X r
rn = pour tout − 1 < r < 1.
1−r
n=1
1.4 Le théorème de Bayes

Exemple 5. Considérons à nouveau l’exemple 3. On obtient un clou provenant de l’entrepôt de
l’usine. On note que ce clou est défectueux. Sachant qu’il est défectueux, quelle est la probabilité
que le clou ait été fabriqué par la machine I ?
Solution. Si on utilise la notation introduite dans la solution de l’exemple 3, la probabilité condi-

tionnelle désirée est simplement P[E1 |A]. Pour calculer cette probabilité conditionnelle, on peut
procéder comme suit :
P[E1 ∩ A]
P[E1 |A] =
P[A]
P[A|E1 ] P[E1 ]
=
P[A]
P[A|E1 ] P[E1 ]
=
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]
(0.03)(0.50)
=
(0.03)(0.50) + (0.05)(0.30) + (0.08)(0.20)
15
= ≈ 0.3261.
46
Dans ce calcul, la première égalité est simplement la définition de probabilité conditionnelle. Pour
la deuxième égalité, on a utilisé la règle de multiplication en conditionnant sur E1 . Enfin, pour la
troisième égalité on a utilisé la loi des probabilités totales.
De la même façon on peut calculer P[E2 |A] et P[E3 |A]. On obtient alors, pour i ∈ {1, 2, 3},
P[A|Ei ] P[Ei ]
P[Ei |A] = .
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]
7
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce type de problème est souvent rencontré en pratique et l’équation précédente est un cas particulier
du théorème suivant.
Le théorème de Bayes : Soit E1 , E2 , ..., En , des événements mutuellement exclusifs et exhaustifs.

Soit A, un événement tel que P[A] > 0. Alors, pour tout i ∈ {1, 2, ..., n},
P[A|Ei ]P[Ei ]
P[Ei |A] = Pn .
j=1 P[A|Ej ]P[Ej ]
Le diagramme de Venn de la figure 3 illustre le théorème de Bayes. La probabilité de Ei sachant

A est égale à la probabilité du morceaux ombragé foncé divisée par la somme des probabilités des
morceaux ombragés.
Figure 3. Le théorème de Bayes.
Tout comme la loi des probabilités totales, le théorème de Bayes est également valide dans le cas
où on a une collection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs.
Exemple 6. On a réalisé l’expérience décrite à l’exemple 4 et on vous informe qu’on n’a obtenu
aucun six avec le dé. Quelle est la probabilité que le dé ait été lancé plus de 4 fois ?
Solution. Avec la notation de l’exemple 4, la probabilité recherchée est simplement la probabilité

conditionnelle P[∪∞ c
i=5 Ei |A ]. On obtient donc
" ∞
# ∞
[ X
c
P Ei A = P[Ei |Ac ]

i=5 i=5
∞
X P[Ac |Ei ]P[Ei ]
= P∞ c
i=5 j=1 P[A |Ej ]P[Ej ]
∞
5 i 1
X
6 2i
= P∞ 5 j 1
i=5 j=1 6 2j
P∞ 5 i
4
i=5 12 5
= = ≈ 0.0301.
P∞ 5 j 12
j=1 12
8
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le théorème de Bayes nous donne parfois des résultats qui peuvent sembler surprenants à première
vue. Voici un exemple pour illustrer ce phénomène.
Exemple 7. Dans une certaine population, un individu sur 1000 est porteur d’un certain virus,
disons le virus V. Les porteurs du virus ne présentent aucun symptôme perceptible. Un test sanguin
a été développé pour détecter la présence du virus chez ces individus. Le test a les propriétés
suivantes. Chez les individus qui portent le virus, le test est positif (c’est-à-dire qu’il indique la
présence du virus) avec probabilité 0.98 et chez les individus qui ne portent pas le virus, le test est
négatif (c’est-à-dire qu’il indique l’absence du virus) avec probabilité 0.97. On choisit un individu
au hasard dans cette population et on lui administre le test. Le résultat du test est positif. Quelle
est la probabilité que cet individu soit porteur du virus ?
Solution. On veut calculer la probabilité qu’un individu choisi au hasard soit porteur du virus
sachant que le résultat de son test sanguin est positif. Autrement dit, on veut calculer P[A|B], où
A = l’événement ≪ l’individu choisi est porteur du virus ≫,

B = l’événement ≪ le résultat du test sanguin est positif ≫.
On a
P[A] = 0.001 et P[Ac ] = 0.999,

P[B|A] = 0.98 et P[B c |A] = 0.02,
P[B c |Ac ] = 0.97 et P[B|Ac ] = 0.03.
Le théorème de Bayes nous donne donc
P[B|A] P[A]
P[A|B] =
P[B|A] P[A] + P[B|Ac ] P[Ac ]
(0.98)(0.001)
= ≈ 0.0317.
(0.98)(0.001) + (0.03)(0.999)
À première vue ce résultat peut sembler surprenant. Après tout, le test sanguin est très précis :
le taux d’erreur est seulement 2% chez les gens qui ont le virus et seulement 3% chez les gens
qui n’ont pas le virus. Lorsque le résultat du test est positif, on s’attend naı̈vement à ce que
l’individu soit porteur du virus. Toutefois, l’élément de surprise disparaı̂t quelque peu lorsqu’on
fait le raisonnement suivant. Imaginez qu’on administre le test sanguin à 100 000 individus. Parmi
ces 100 000 individus, on s’attend à ce qu’il y en ait environ 100 qui soient porteurs du virus et
99 900 qui ne le soient pas. Parmi les 100 porteurs du virus, on s’attend à ce qu’il y en ait 98
pour qui le test sera positif et 2 pour qui il sera négatif. Parmi les 99 900 individus qui ne sont pas
porteurs du virus, on s’attend à ce qu’il y en ait 2 997 pour qui le test sera positif et 96 903 pour qui
il sera négatif. On s’attend donc à avoir 98 + 2 997 = 3 095 individus pour qui le test sera positif,
dont seulement 98 qui seront vraiment porteurs du virus.
1.5 Indépendance
Parfois, le fait de savoir qu’un événement A s’est réalisé ne change en rien la probabilité que
l’événement B se réalise. Dans l’exemple où on lance un dé deux fois, si A dénote l’événement
9
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
≪ obtenir un six au premier lancer ≫ et si B dénote l’événement ≪ obtenir un quatre au deuxième

lancer ≫, alors il est intuitivement clair que P[B] = P[B|A] ; le fait de savoir qu’on a obtenu un six
au premier lancer ne change en rien la probabilité d’obtenir un quatre au deuxième lancer. Dans cet
exemple, on a aussi P[A] = P[A|B] ; si j’ai lancé le dé deux fois et si je vous informe que j’ai obtenu
un quatre au deuxième lancer, pour vous la probabilité d’un six au premier lancer est toujours la
même. Dans un tel scénario, on dit que les événements A et B sont des événements indépendants.
Cet exemple motive la définition suivante.
Définition provisoire d’indépendance de deux événements : Soit A et B, des événements

tels que P[A] > 0 et P[B] > 0. On dit que A et B sont indépendants si
P[A|B] = P[A] et P[B|A] = P[B].
Remarque : Il est facile de montrer que si A et B sont des événements tels que P[A] > 0 et
P[B] > 0, alors P[A|B] = P[A] si et seulement si P[B|A] = P[B].
Cette définition provisoire d’indépendance est adéquate pour la plupart des applications. Cepen-
dant, les mathématiciens préfèrent la définition suivante. Elle ne fait pas appel à la notion de
probabilité conditionnelle et elle ne se limite pas aux événements de probabilités strictement posi-
tives. De plus, elle se prête mieux aux généralisations.
Définition d’indépendance de deux événements :

Les événements A et B sont dits indépendants si on a
P[A ∩ B] = P[A] P[B]. (1.2)
L’équation (1.2) n’est rien d’autre que notre règle de multiplication (1.1) avec P[B|A] remplacé par
P[B]. Il est facile de vérifier que si A et B sont des événements tels que P[A] > 0 et P[B] > 0, alors
les deux définitions précédentes sont équivalentes : si A et B sont des événements indépendants
au sens de la première définition alors ils sont également indépendants au sens de la deuxième
définition et, vice versa, s’ils sont indépendants au sens de la deuxième définition alors ils sont aussi
indépendants au sens de la première définition.
Pour illustrer le concept d’indépendance, considérons l’expérience aléatoire qui consiste à lancer un
dé deux fois. Pour des raisons de symétrie physique, le modèle probabiliste approprié pour cette
expérience est le modèle équiprobable sur l’ensemble fondamental
Ω = {(i, j); i ∈ {1, 2, 3, 4, 5, 6}, j ∈ {1, 2, 3, 4, 5, 6}}.
Considérons maintenant les événements suivants :
A = l’événement ≪ obtenir un 3 au premier lancer ≫

= {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)},
B = l’événement ≪ obtenir un 5 au deuxième lancer ≫
= {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}.
Si la notion mathématique d’indépendance est cohérente avec la notion intuitive d’indépendance,

les événements A et B devraient être indépendants au sens mathématique puisque le résultat du
premier lancer du dé n’affecte en rien le deuxième lancer. Un petit calcul permet de vérifier que A
10
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
et B sont bel et bien indépendants au sens de la définition mathématique d’indépendance. D’une

part on a
P[A] = P[{(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}] = 6/36 = 1/6,
P[B] = P[{(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}] = 6/36 = 1/6.
Donc on obtient P[A]P[B] = 1/36. D’autre part on a
P[A ∩ B] = P[{(3, 5)}] = 1/36.
On a donc P[A ∩ B] = P[A]P[B]. Autrement dit, les événements A et B sont indépendants au sens
de la définition mathématique d’indépendance donnée ci-dessus.
Dans la grande majorité des exemples que nous rencontrons en pratique, l’indépendance des évé-
nements A et B est une conséquence immédiate de l’énoncé du problème. Par exemple, si on dit
qu’on fait deux tirages avec remise à partir d’un panier contenant 4 boules rouges et 7 boules noires
et si on s’intéresse aux événements
A = l’événement ≪ obtenir une boule rouge au premier tirage ≫,

B = l’événement ≪ obtenir une boule noire au deuxième tirage ≫,
alors il est clair que A et B sont indépendants. Toutefois, dans certains cas il faut avoir recours à
la définition pour vérifier si deux événements sont indépendants. L’exemple suivant illustre cette
situation.
Exemple 8. On lance un dé à deux reprises et on considère les événements suivants :
A = l’événement ≪ la somme des deux lancers est égale à 5 ≫,

B = l’événement ≪ la somme des deux lancers est égale à 7 ≫,
C = l’événement ≪ obtenir un 4 au deuxième lancer ≫.
Les événements A et C sont-ils indépendants ? Les événements B et C sont-ils indépendants ?
Solution. Ici on obtient P[A] = 1/9, P[B] = 1/6 et P[C] = 1/6. On obtient aussi P[A∩C] = 1/36 et
P[B ∩ C] = 1/36. On conclut que A et C ne sont pas indépendants (puisque P[A ∩ C] 6= P[A] P[C])
et que B et C sont indépendants (puisque P[B ∩ C] = P[B] P[C]).
Dans le cas de trois événements, le concept d’indépendance se généralise de la façon suivante.
Indépendance de trois événements : Les événements A, B et C sont dit indépendants (on dit
parfois mutuellement indépendants) si les quatre conditions suivantes sont satisfaites :
P[A ∩ B] = P[A] P[B],

P[A ∩ C] = P[A] P[C],
P[B ∩ C] = P[B] P[C],
P[A ∩ B ∩ C] = P[A] P[B] P[C].
Lorsque seules les trois premières conditions sont satisfaites, on dit que les événements A, B et C
sont indépendants deux à deux. Des événements peuvent être indépendants deux à deux sans tou-
tefois être mutuellement indépendants. Voici un exemple élémentaire pour illustrer ce phénomène.
11
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On lance une pièce de monnaie à deux reprise et on pose
A = l’événement ≪ obtenir pile au premier lancer ≫,

B = l’événement ≪ obtenir pile au deuxième lancer ≫,
C = l’événement ≪ obtenir deux résultats identiques ≫.
À l’aide des définitions précédentes, il est facile de vérifier que les événements A, B et C sont
indépendants deux à deux mais ne sont pas mutuellement indépendants.
On peut aussi parler de collection d’événements indépendants :
Collection d’événements indépendants. Soit B = {Bj ; j ∈ J}, une collection quelconque

d’événements. Ces événements sont dit indépendants (on dit aussi mutuellement indépendants) si
pour tout entier positif n et pour tout choix de j1 , j2 , ..., jn ∈ J, avec jh 6= jℓ pour tout h 6= ℓ, on a
" n # n
\ Y
P Bj k = P[Bjk ].
k=1 k=1
Dans le cas où B = {A, B}, la définition générale donnée ci-dessus est équivalente à la définition
d’indépendance de deux événements donnée à la page 10. Dans le cas où B = {A, B, C}, la définition
générale donnée ci-dessus est équivalente à la définition d’indépendance de trois événements donnée
à la page précédente.
Le résultat suivant est très utile en pratique.
Principe de préservation de l’indédendance :

Si E1 , E2 , ..., Em , Em+1 , Em+2 , ..., Em+n sont des événements indépendants, si A est un événement
obtenu à partir des événements E1 , E2 , ..., Em à l’aide des opérations ensemblistes usuelles (c’est-
à-dire l’union, l’intersection et la complémentation) et si B est un événement obtenu à partir des
événements Em+1 , Em+2 , ..., Em+n également à l’aide des opérations ensemblistes usuelles, alors les
événements A et B sont indépendants.
Plus généralement, si E1,1 , E1,2 , ..., E1,n1 , E2,1 , E2,2 , ..., E2,n2 , ..., Ek,1 , Ek,2 , ..., Ek,nk sont des événe-
ments indépendants et si, pour chaque 1 ≤ j ≤ k, l’événement Aj est obtenu à partir des événements
Ej,1 , Ej,2 , ..., Ej,nj à l’aide des opérations ensemblistes usuelles, alors les événements A1 , A2 , ..., Ak
sont des événements indépendants.
Voici quelques exemples pour illustrer ce principe :
• Si A et B sont indépendants, alors Ac et B sont indépendants.

• Si A et B sont indépendants, alors Ac et B c sont indépendants.
• Si A, B et C sont indépendants, alors A ∩ B et C sont indépendants.
• Si A, B, C et D sont indépendants, alors A ∩ B et C ∪ D sont indépendants.
• Si B1 , B2 , ..., Bℓ sont indépendants, alors B1c , B2c , ..., Bℓc sont indépendants.
12
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce dernier exemple est très utile lorsqu’on veut calculer la probabilité qu’au moins un événement,
parmi un groupe de plusieurs événements indépendants, se réalise. Supposons par exemple que
A, B, C et D soient des événements indépendants et que
P[A] = 0.40, P[B] = 0.50, P[C] = 0.40, et P[D] = 0.30.
L’ensemble A ∪ B ∪ C ∪ D représente alors l’événement ≪ au moins un des événements A, B, C et

D se réalise ≫. La probabilité désirée est donc P[A ∪ B ∪ C ∪ D]. On peut calculer cette probabilité
à l’aide de la formule de Poincaré (aussi appelée formule d’inclusion-exclusion) :
P[A ∪ B ∪ C ∪ D] = P[A] + P[B] + P[C] + P[D]

− (P[A ∩ B] + P[A ∩ C] + P[A ∩ D] + P[B ∩ C] + P[B ∩ D] + P[C ∩ D])
+ (P[A ∩ B ∩ C] + P[A ∩ B ∩ D] + P[A ∩ C ∩ D] + P[B ∩ C ∩ D])
−P[A ∩ B ∩ C ∩ D].
Les probabilités d’intersections apparaissant sur le côté droit de cette égalité peuvent toutes être
calculées en invoquant l’indépendance. Par exemple
P[A ∩ B ∩ D] = P[A] P[B] P[D] = (0.40)(0.50)(0.30) = 0.06.
On peut aussi calculer P[A ∪ B ∪ C ∪ D] en utilisant la propriété de complémentation, la formule

de De Moivre, et l’indépendance de Ac , B c , C c et D c :
P[A ∪ B ∪ C ∪ D] = 1 − P[(A ∪ B ∪ C ∪ D)c ]

= 1 − P[Ac ∩ B c ∩ C c ∩ D c ]
= 1 − P[Ac ] P[B c ] P[C c ] P[D c ]
= 1 − (1 − P[A]) (1 − P[B]) (1 − P[C]) (1 − P[D])
= 1 − (0.60)(0.50)(0.60)(0.70) = 1 − 0.126 = 0.874.
1.6 Calcul de probabilités par conditionnement

Voici un exemple pour illustrer le résultat de la présente section.
Exemple 9. On considère une boutique de souvenir du Vieux Québec et on fait les hypothèses
suivantes. Chaque fois qu’un touriste entre dans la boutique, la probabilité qu’il fasse un achat est
p. Le nombre de client qui entreront dans la boutique durant la prochaine heure est une variable
aléatoire avec loi de Poisson de moyenne ν. En supposant indépendance d’un client à l’autre, calculez
la probabilité qu’aucun client ne fera un achat durant la prochaine heure.
Solution. On pose
A = l’événement ≪ aucun client ne fait un achat durant la prochaine heure ≫

X = le nombre de client qui entreront dans la boutique durant la prochaine heure
On veut calculer P[A]. On y arrive facilement grâce à la loi des probabilités totales. Il suffit de
considérer la partition engendrée par la variable aléatoire X, c’est-à-dire la partition {E0 , E1 , E2 , ...},
avec En = {X = n}. On obtient alors
13
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X
P[A] = P[A|En ] P[En ]
n=0
X∞
= P[A|X = n] P[X = n]
n=0
X∞
= P[A|X = n] pX (n)
n=0
où pX (n) dénote la fonction de masse de la variable X. Dans le présent exemple on a

e−ν ν n
pX (n) = pour n = 0, 1, 2, 3, ...
n!
et on note que
P[A|X = n] = (1 − p)n pour n = 0, 1, 2, 3, ...
On obtient donc
∞
X e−ν ν n
P[A] = (1 − p)n = e−νp .
n!
n=0
De façon plus générale, si X est une variable aléatoire discrète alors pour tout événement A on a
X
P[A] = P[A|X = x] pX (x). (1.3)
x
Dans cette dernière équation, la somme est prise sur l’ensemble de toutes les valeurs possibles de la
variable X. On dit alors qu’on calcule la probabilité de A en conditionnant sur la variable aléatoire
X. Dans le cas où X est une variable aléatoire de type continu avec densité fX (x), l’équation
précédente prend la forme suivante :
Z ∞
P[A] = P[A|X = x] fX (x) dx. (1.4)
−∞
Remarque 1. L’équation (1.4) demande des explications ! Quand X est une variable aléatoire de
type continue, on a P[X = x] = 0 pour tout x ∈ R. À la section 1 du présent chapitre, nous avons
défini la probabilité conditionnelle P[A | B] seulement pour les événements B pour lesquels on a
P[B] > 0. Mais alors, que signifie P[A|X = x] ? Sans aller plus en profondeur, voici une réponse
approprié pour nos besoins. On peut définir la probabilité conditionnelle P[A|X = x] avec l’équation
suivante :
P[A|X = x] = lim P[A | x − ǫ < X < x + ǫ].
ǫ↓0
Remarque 2. L’équation (1.3) est un cas spécial de la loi des probabilités totales. Mais comment
démontre-t-on l’équation (1.4) ? Une approche possible consiste à obtenir l’équation (1.4) à partir
de l’équation (1.3) par un simple passage à la limite. Pour alléger la présentation, considérons le
cas où X est une variable aléatoire non négative avec densité fX (x). Dans ce cas, pour tout entier
positif n la loi des probabilités totales nous donne
∞
X
P[A] = P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
k=0
14
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On obtient donc
∞
X
P[A] = lim P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
n→∞
k=0
On peut montrer que la limite qui apparait dans cette dernière équation est égale à l’intégrale qui
apparait dans l’équation (1.4). Les détails ne seront pas présentés ici.
Remarque 3. Rappelons que l’espérance d’une fonction d’une variable aléatoire X, disons la
fonction g(X), peut être calculer avec l’aide de la formule de changement de variable :
( P
x g(x) pX (x) dans le cas discret,
E[g(X)] = R∞
−∞ g(x) fX (x) dx dans le cas continu.
Les équations (1.3) et (1.4) peuvent donc être écrite de façon compacte sous la forme suivante :
P[A] = E[ P[A | X] ]. (1.5)
Ici P[A | X] est, par définition, la fonction g(x) = P[A | X = x] évaluée à x = X. Autrement
dit, P[A | X] est la variable aléatoire g(X), où g est la fonction définie par g(x) = P[A | X = x].
L’équation (1.5) a l’avantage d’être compacte. De plus elle couvre aussi bien le cas discret (équation
(1.3)) que le cas continu (équation (1.4)). Pour les débutants il est néanmoins recommandé de
travailler avec les équations (1.3) et (1.4) plutôt que l’équation (1.5).
Remarque 4. Un autre avantage de l’équation (1.5) est qu’elle demeure valide même dans le cas
où la variable aléatoire X n’est ni de type discrète, ni de type continue. Ceci dit, dans le présent
document, on se limite au cas où la variable aléatoire X est ou bien de type discrète, ou bien de
type continue.
1.7 Calcul d’espérance par conditionnement

Supposons qu’on soit en présence de deux variables aléatoires, disons la variable X et la variable
Y , et supposons qu’on veuille calculer l’espérance de Y . Considérons le cas continu. Si on connaı̂t
la densité de Y , on peut procéder directement :
Z ∞
E[Y ] = y fY (y) dy.
−∞
Une autre approche consiste à faire un calcul direct à partir de la densité conjointe du couple
(X, Y ). On peut alors écrire
Z ∞Z ∞
E[Y ] = y fX, Y (x, y) dx dy
−∞ −∞
Z ∞Z ∞
= y fY |X = x (y) fX (x) dy dx
−∞ −∞
Z ∞ Z ∞ Z ∞
= y fY |X = x (y) dy fX (x) dx = E[Y |X = x] fX (x) dx.
−∞ −∞ −∞
15
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On peut faire un calcul semblable dans le cas discret. En résumé, on a donc

X
E[Y ] = E[Y |X = x] pX (x) dans le cas discret ; (1.6)
X ∈R
Z ∞
E[Y ] = E[Y |X = x] fX (x) dx dans le cas continu. (1.7)
−∞
Lorsqu’on utilise ces équations, on dit qu’on calcule l’espérance de Y en conditionnant sur la variable
aléatoire X.
Remarque 1. Si on utilise la notation E[Y |X] pour représenter la variable aléatoire g(X), où g(x)
est la fonction définie par
g(x) = E[Y |X = x],
alors les deux équations de calcul d’espérance par conditionnement peuvent être écrite sous la forme
compacte suivante :
E[Y ] = E[E[Y |X]]. (1.8)
Remarque 2. Pour arriver à l’équation (1.7), nous avons supposé que les variables aléatoires X et
Y possèdent une densité conjointe fX, Y (x, y). On peut montrer que l’équation (1.7) demeure valide
dans le cas où la distribution marginale de X est de type continue et celle de Y est de type discrète.
De même, pour l’équation (1.6) nous avons implicitement supposé que les variables aléatoires X
et Y possèdent une fonction de masse conjointe pX, Y (x, y). On peut montrer que l’équation (1.6)
demeure valide dans le cas où la distribution marginale de X est de type discrète et celle de Y est
de type continue.
Remarque 3. Les équations (1.6), (1.7) et (1.8) sont les analogues des équations (1.3), (1.4) et
(1.5). En fait, on peut dire que les équations (1.3), (1.4) et (1.5) sont des cas particuliers des
équations (1.6), (1.7) et (1.8). En effet, si on prend Y = 1A dans les équations (1.6), (1.7) et (1.8)
et si on utilise le fait que E[1A ] = P[A], alors on retrouve, dans l’ordre, les équations (1.3), (1.4) et
(1.5).
Remarque 4. Les équations (1.6), (1.7) et (1.8) sont bien sûr valide avec Y remplacé par une
fonction de Y . Par exemple, dans le cas continu on a, pour toute fonction h(y) pour laquelle
l’espérance E[h(Y )] existe,
Z ∞
E[h(Y )] = E[h(Y )|X = x] fX (x) dx
−∞
1.8 Calcul de variance par conditionnement

À la vue de l’équation (1.7), on pourrait penser que dans le cas continu on a
Z ∞
Var[Y ] = Var[Y |X = x] fX (x) dx.
−∞
Attention : cette équation ne tient pas ! Le calcul suivant nous donnera la bonne équation.
Pour faire un calcul de variance par conditionnement, on se ramène à des calculs d’espérances par
conditionnement et on utilise les résultats de la section précédente. Dans le cas continu, on obtient
16
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Var[Y ] = E[Y 2 ] − (E[Y ])2

Z ∞ Z ∞ 2
2
= E[Y |X = x] fX (x) dx − E[Y |X = x] fX (x) dx
−∞ −∞
Z ∞ Z ∞ 2
2
= Var[Y |X = x] + (E[Y |X = x]) fX (x) dx − E[Y |X = x] fX (x) dx .
−∞ −∞
On a donc
Z ∞ Z ∞ Z ∞ 2
2
Var[Y ] = Var[Y |X = x] fX (x) dx+ (E[Y |X = x]) fX (x) dx− E[Y |X = x] fX (x) dx .
−∞ −∞ −∞
Si on pose
h(x) = Var[Y |X = x] et g(x) = E[Y |X = x]
et si on écrit Var[Y |X] pour dénoter h(X) et E[Y |X] pour dénoter g(X) alors on obtient
Z ∞ Z ∞ Z ∞ 2
Var[Y ] = h(x) fX (x) dx + (g(x))2 fX (x) dx − g(x) fX (x) dx
−∞ −∞ −∞
2 2
= E[h(X)] + E[(g(X)) ] − (E[g(X)])
= E[h(X)] + Var[g(X)]
= E[Var[Y |X]] + Var[E[Y |X]].
On obtient le même résultat dans le cas discret. On a donc la formule suivante pour calculer la
variance de la variable Y en conditionnement sur la variable X :
Var[Y ] = E[Var[Y |X]] + Var[E[Y |X]]. (1.9)
1.9 Quelques exemples de calculs par conditionnement

Exemple 10.
Pour une certaine région en bordure d’un fleuve, à chaque année on observe
X = ≪ la quantité de pluie au printemps (en cm) ≫,

Y = ≪ les dommages causés par la crue des eaux (en milliers de dollars) ≫.
On suppose que E[Y |X = x] = c x2 et que X ∼ gamma(α, λ). On considère
A = l’événement ≪ il y a glissement de terrain causé par la crue des eaux ≫
et on suppose que
P[A|X = x] = 1 − e−bx .
On peut supposer que ces hypothèses de modélisation ont été justifiées de façon satisfaisante et que
les constantes positives α, λ, b et c peuvent être estimées à partir de données des années antérieures.
17
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Calcul de P[A] par conditionnement :

Z ∞
P[A] = P[A|X = x] fX (x) dx
Z0 ∞ λα
= 1 − e−bx xα−1 e−λx dx
0 Γ(α)
Z ∞ α
λ
= 1− xα−1 e−(b+λ)x dx
0 Γ(α)
Z ∞
λα (b + λ)α α−1 −(b+λ)x
= 1− x e dx
(b + λ)α 0 Γ(α)
α
λ
= 1− .
b+λ
Calcul de E[Y ] par conditionnement :

Z ∞
E[Y ] = E[Y |X = x] fX (x) dx
0
Z ∞
λα
= c x2 xα−1 e−λx dx
0 Γ(α)
Z ∞
c Γ(α + 2) λα+2
= x(α+2)−1 e−λx dx
λ2 Γ(α) 0 Γ(α + 2)
c α(α + 1)
= .
λ2
Exemple 11.
On considère X1 , X2 , X3 , ... des variables aléatoires indépendantes et identiquement distribuées avec
moyenne µX et variance σX 2 . On sait que si n est un entier non négatif et si S = X + X + · · · + X ,
n 1 2 n
alors
2
E[Sn ] = nµX et Var[Sn ] = nσX .
On suppose maintenant que N est une variable aléatoire à valeurs entières non négatives avec
moyenne µN et variance σN2 , indépendantes des Xi . On s’intéresse à la variable aléatoire
N
X
SN = Xi .
i=1
Nous allons calculer E[SN ] et Var[SN ] en conditionnant sur N .
Calcul de E[SN ] :
∞
X ∞
X
E[SN ] = E[SN |N = n] pN (n) = E[Sn |N = n] pN (n)
n=0 n=0
∞ ∞ ∞
!
X X X
= E[Sn ] pN (n) = nµX pN (n) = npN (n) µX = µN µX
n=0 n=0 n=0
18
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On peut aussi faire ce calcul avec l’aide de l’équation (1.8), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . L’équation (1.8) nous
donne donc
E[SN ] = E[E[SN |N ]] = E[N µX ] = µN µX .
Calcul de Var[SN ] : D’abord on écrit
Var[SN ] = E[(SN )2 ] − (E[SN ])2

= E[(SN )2 ] − (µN µX )2 = E[(SN )2 ] − µ2N µ2X ,
puis on calcule E[(SN )2 ] en conditionnant sur N :

∞
X
2
E[(SN ) ] = E[(SN )2 |N = n] pN (n)
n=0
X∞
= E[(Sn )2 |N = n] pN (n)
n=0
X∞
= E[(Sn )2 ] pN (n)
n=0
X∞

= Var[Sn ] + (E[Sn ])2 pN (n)
n=0
X∞
2

= nσX + (nµX )2 pN (n)
n=0
∞
! ∞
!
X X
2
= n pN (n) σX + n pN (n) µ2X
2
n=0 n=0
2
= µ N σX + E[N 2 ]µ2X .
En combinant ces deux derniers résultats, on obtient
Var[SN ] = E[(SN )2 ] − µ2N µ2X

2
= µ N σX + E[N 2 ]µ2X − µ2N µ2X
2

= µ N σX + E[N 2 ] − µ2N µ2X
2
= µ N σX + σN2 µ2X .
On peut aussi faire ce calcul avec l’aide de l’équation (1.9), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . De même, puisque
Var[SN |N = n] = nσX2 , on obtient Var[S |N ] = N σ 2 . L’équation (1.9) nous donne donc
N X
Var[SN ] = E[Var[SN |N ]] + Var[E[SN |N ]]

2 2
= E[N σX ] + Var[N µX ] = µN σX + σN2 µ2X .
En résumé, on a donc
2
E[SN ] = µN µX et Var[SN ] = µN σX + σN2 µ2X .
Exemple 12.
19
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On considère une séquence d’épreuves de Bernoulli avec probabilité de succès p. On pose

(
1 si on obtient un succès à la j e épreuve ;
Yj =
0 si on obtient un échec à la j e épreuve.
Les variables aléatoires Y1 , Y2 , Y3 , ... sont donc i.i.d. Bernoulli(p). On considère la variable aléatoire
N1 = min{j ≥ 0 : Yj = 1}
La variable N1 représente donc le temps du premier succès, c’est-à-dire le nombre d’épreuves

nécessaires pour obtenir notre premier succès. Nous allons calculer E[N1 ].
Méthode usuelle.
∞
X ∞
X
E[N1 ] = n pN1 (n) = n (1 − p)n−1 p
n=1 n=1
∞
X 1 1
= p n(1 − p)n−1 = p = .
p2 p
n=1
Pour faire ce calcul, il faut être familier avec la série géométrique

∞
X 1
n r n−1 =
(1 − r)2
n=1
valide pour −1 < r < 1.
Méthode par conditionnement.

X
E[N1 ] = E[N1 |Y1 = k] P[Y1 = k]
k
= E[N1 |Y1 = 0] P[Y1 = 0] + E[N1 |Y1 = 1] P[Y1 = 1]
= (1 + E[N1 ]) (1 − p) + 1 p
= 1 + (1 − p) E[N1 ].
Pour comprendre la troisième égalité, on raisonne de la façon suivante. Si on obtient un échec à

la première épreuve, c’est-à-dire si Y1 = 0, alors on vient de gaspiller une unité de temps et on
recommence à zéro. Donc E[N1 |Y1 = 0] = 1 + E[N1 ]. Par ailleurs, si on obtient un succès à la
première épreuve, c’est-à-dire si Y1 = 1, alors on a N1 = 1 et donc E[N1 |Y1 = 1] = 1. On a donc
l’équation
E[N1 ] = 1 + (1 − p)E[N1 ].
On résout pour E[N1 ] et on obtient
1
E[N1 ] = .
p
Exemple 13.
On considère, comme à l’exemple précédent, une séquence d’épreuves de Bernoulli et on utilise la
même notation. Pour chaque entier positif k, on dénote par Nk le nombre d’épreuves nécessaires
pour obtenir pour la première fois k succès consécutifs. Nous allons calculer l’espérance de Nk . Pour
20
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
réussir à faire ce calcul, nous allons, en utilisant la technique de calcul d’espérance par condition-
nement, obtenir une formule générale permettant de calculer E[Nk ] à partir de E[Nk−1 ] pour tout
k ≥ 2. L’espérance de N1 étant connue (voir l’exercice précédent), nous pourrons ainsi obtenir, tour
à tour, E[N2 ], E[N3 ], etc.
D’abord on écrit X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ).
ℓ
Puis, on calcule E[Nk |Nk−1 = ℓ] en conditionnant sur Yℓ+1 :

X
E[Nk |Nk−1 = ℓ] = E[Nk |Nk−1 = ℓ, Yℓ+1 = j] P[Yℓ+1 = j|Nk−1 = ℓ]
j
X
= E[Nk |Nk−1 = ℓ, Yℓ+1 = j] P[Yℓ+1 = j]
j
= E[Nk |Nk−1 = ℓ, Yℓ+1 = 1] p + E[Nk |Nk−1 = ℓ, Yℓ+1 = 0] (1 − p)
= (ℓ + 1) p + (ℓ + 1 + E[Nk ]) (1 − p)
= ℓ + 1 + (1 − p) E[Nk ].
On obtient donc
X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ)
ℓ
X
= (ℓ + 1 + (1 − p) E[Nk ]) pNk−1 (ℓ)
ℓ
= E[Nk−1 ] + 1 + (1 − p)E[Nk ].
On résout pour E[Nk ] et on obtient
1 E[Nk−1 ]
E[Nk ] = + pour k = 2, 3, 4, ...
p p
Combiné avec le fait que E[N1 ] = 1/p, ce résultat nous permet d’obtenir, pour k ≥ 1
1 1 1 1
E[Nk ] = + 2 + 3 + ··· + k.
p p p p
Les faits suivants ont été utilisés dans le calcul ci-dessus :
1. P[Yℓ+1 = j|Nk−1 = ℓ] = P[Yℓ+1 = j].
2. E[Nk |Nk−1 = ℓ, Yℓ+1 = 1] = ℓ + 1.
3. E[Nk |Nk−1 = ℓ, Yℓ+1 = 0] = ℓ + 1 + E[Nk ].
L’étudiant devrait pouvoir justifier ces faits.
21
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
1.10 Les exercices du chapitre 1
Numéro 1. Soit Ω, l’ensemble des résultats possibles d’une expérience aléatoire. Soit E et F ,
des événements mutuellement exclusifs et de probabilités strictement positives. On considère une
séquence de répétitions indépendantes de cette expérience aléatoire. Exprimez la probabilité que
l’événement E survienne avant l’événement F en termes des quantités P[E] et P[F ].
Numéro 2. On prend un jeu ordinaire de 52 cartes et on le sépare en quatre paquets de 13 cartes.

Calculez la probabilité que chacun des paquets contienne exactement un as.
Numéro 3. Si la réalisation de B augmente les chances que A se réalise, est-ce que la réalisation
de A augmente les chances que B se réalise ?
Numéro 4. Un panier contient n boules noires et r boules rouges. On tire une boule au hasard
et on note sa couleur. Puis on la remet dans le panier. On ajoute ensuite à ce panier a boules
additionnelles de la même couleur que celle qu’on vient de tirer. Le panier contient maintenant
n + r + a boules. On répète l’expérience : on tire une boule au hasard, puis on la remet dans le
panier avec à nouveau a boules additionnelles de la même couleur que celle qui vient d’être tirée.
Le panier contient maintenant n + r + 2a boules. On répète cette procédure une troisième fois, une
quatrième fois, etc.
(a) Au premier tirage, quelle est la probabilité d’obtenir une boule rouge ?
(b) Au deuxième tirage, quelle est la probabilité d’obtenir une boule rouge ?
(c) Au k e tirage, quelle est la probabilité d’obtenir une boule rouge ?
Numéro 5. On a une pièce de 5 cents et une pièce de 25 cents. Pour chacune de ces deux pièces, la
probabilité de Pile est p et la probabilité de Face est 1 − p. On ne connait pas p. On considère une
séquence de lancers de cette paire de pièces de monnaie. À chaque lancer de la paire de pièces, on
obtient P P, P F, F P ou F F (avec, disons, la convention que la première lettre indique le résultat
obtenu avec la pièce de 5 cents et la deuxième lettre indique le résultat obtenu avec la pièce de 25
cents). On lance la paire de pièces jusqu’à ce qu’on obtienne ou bien F P , ou bien P F . Si c’est F P
qui survient avant P F , on pose X = 0. Si c’est P F qui survient avant F P , on pose X = 1. Obtenez
la distribution de la variable aléatoire X.
Numéro 6. Soit X et Y , des variables aléatoires indépendantes avec moyennes µX et µY et avec

2 et σ 2 . Obtenez une expression pour la variance de XY en termes des quantités µ ,
variances σX Y X
µY , σX et σY2 .
2
Numéro 7. On suppose que X0 , X1 , X2 , X3 , ... sont des variables aléatoires i.i.d. à valeurs dans
l’ensemble {1, 2, 3, ..., m} et avec P[Xi = j] > 0 pour tout j ∈ {1, 2, 3, ..., m}. On pose N = min{n >
0 : Xn = X0 }. Obtenez E[N ].
Numéro 8. On suppose que U suit la loi uniforme sur l’intervalle (0, 1). On suppose que sachant
U
Pn= u, les variables X1 , X2 , ..., Xn sont i.i.d. Bernoulli(u). Obtenez l’espérance et la variance de
j=1 Xj .
22
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 9. Le nombre de clients qui feront un achat ce soir au magasin ABC est une variable
aléatoire avec loi de Poisson de moyenne 10. Le montant de l’achat du client numéro k est une
variable aléatoire avec loi uniforme sur l’intervalle (0, 100). Obtenez l’espérance et la variance du
total des ventes ce soir au magasin ABC.
Numéro 10. Si X suit la loi géométrique de paramètre p, quelle est la probabilité que X soit un
nombre pair ?
Numéro 11. La variable X suit la loi exponentielle de paramètre λ. Sachant X = x, la variable

Y suit la loi de Poisson de moyenne x. Obtenez la distribution de Y .
Numéro 12. La variable X suit la loi uniforme sur l’intervalle (0, 5). Sachant X = x, la variable
Y suit la loi de Poisson de moyenne x. Obtenez P[Y ≥ 3].
Numéro 13. Les joueurs A et B lancent une paire de dés tour à tour. C’est A qui commence.
L’objectif de A est d’obtenir une somme de 6. L’objectif de B est d’obtenir une somme de 7. Le
gagnant sera le premier joueur qui atteint son objectif.
(a) Calculez la probabilité que le joueur A gagne.
(b) Calculez l’espérance du nombre de fois que la paire de dés sera lancée.
Suggestion : Conditionnez sur la paire (S, T ), où S est le score obtenu par le joueur A lors de son
premier lancer de la paire de dés et T est le score obtenu par le joueur B lors de son premier lancer
de la paire de dés.
Numéro 14. On lance un dé jusqu’à ce que la somme des résultats dépasse 100 pour la première
fois. Quelle est la valeur la plus probable pour la somme des résultats au moment où l’on dépasse
100 pour la première fois ?
Numéro 15. On considère une grande population de familles et on suppose que le nombre d’enfants
par famille suit la loi de Poisson avec moyenne θ. On choisit un enfant dans cette population et on
pose S = le nombre de frères et soeurs de l’enfant choisi. Montrez que S suit la loi de Poisson de
moyenne θ.
Numéro 16. On suppose que les variables aléatoires V, U1 , U2 , U3 , ... sont i.i.d. avec loi uniforme
sur l’intervalle (0, 1). On pose N = min{n ≥ 1 : Un > V }. Obtenez E[N ].
Numéro 17. Reprenons le scénario de l’exemple 4 : On lance une pièce de monnaie jusqu’à ce
qu’on obtienne une pile. Puis, on lance un dé un nombre de fois égal au nombre de fois qu’on a
lancé la pièce de monnaie. Obtenez la distribution du nombre de fois que le dé a été lancé sachant
qu’on a obtenu aucun 6.
Numéro 18. On lance un dé jusqu’à ce qu’on obtienne pour la première fois la face six cinq fois
de suite. Calculez l’espérance du nombre de lancers.
Numéro 19. On considère une séquence de lancers d’un dé. Un bloc de résultats identiques est
une séquence maximale de lancers donnant tous lieu à la même face. Par exemple, si les résultats
des 20 premiers lancers sont les suivants
5 5 6 2 4 4 4 1 3 1 5 2 2 2 2 1 6 3 3 2
23
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
alors on peut dire qu’on a obtenu, dans l’ordre, un bloc de valeur 5 et de longueur 2, puis un bloc
de valeur 6 et de longueur 1, puis un bloc de valeur 2 et de longueur 1, puis un bloc de valeur 4 et
de longueur 3, etc. Quelle est l’espérance de la longueur du premier bloc de valeur 6 et de longueur
au moins 5 ?
Numéro 20. [Pas facile] On lance un dé jusqu’à ce qu’on obtienne pour la première fois la même
face cinq fois de suite. Calculez l’espérance du nombre de lancers.
24
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 2
Introduction à la théorie des

chaı̂nes de Markov à temps discret
2.1 Matrice stochastique

Nous travaillerons avec un ensemble fini ou infini dénombrable que nous appellerons l’espace des
états et que nous dénoterons S. Dans la plupart des exemples que nous rencontrerons, l’espace des
états sera l’un des ensembles suivants :
• S = {1, 2, 3, ..., m} pour un certain entier m ≥ 2,
• S = {0, 1, 2, ..., m} pour un certain entier m ≥ 1,
• S = N0 = {0, 1, 2, 3, ...},
• S = N1 = {1, 2, 3, 4, ...},
• S = Z = {..., −2, −1, 0, 1, 2, ...},
• S = Z2 = {(i, j) : i ∈ Z, j ∈ Z}.
de probabilités sur S est un vecteur sur S, disons v = (vi ; i ∈ S), tel

Définition. Une distributionP
que vi ≥ 0 pour tout i ∈ S et i∈S vi = 1.
Définition. Une matrice stochastique sur S est une matrice sur S, disons P = (Pij ; i ∈ S, j ∈ S),
dont chaque ligne est une distribution de probabilités sur S. Autrement dit, la matrice P = (Pij ; i ∈
S, j ∈ S) est une matrice stochastique si les deux conditions suivantes sont satisfaites :
(a) Pij ≥ 0 pour tout i ∈ S et j ∈ S ;
P
(b) j∈S Pij = 1 pour tout i ∈ S.
Pour fin de calcul matriciel, les distributions de probabilités sur S seront traitées comme étant des
vecteurs lignes. De même, si P = (Pij ; i ∈ S, j ∈ S) est une matrice sur S, alors la ie ligne de P
est le vecteur ligne (Pij ; j ∈ S) et la j e colonne de P est le vecteur colonne (Pij ; i ∈ S). Notez que
dans le cas où S est un ensemble fini de cardinal m, les distributions de probabilités sur S sont
des vecteurs lignes de longueur m et les matrices stochastiques sur S sont des matrices carrées de
dimension m par m. Le cas où S est un ensemble infini dénombrable ne pose pas de problème.
Par exemple, si S = N1 , on écrira v = (vi ; i ≥ 1) = (v1 , v2 , v3 , ...) pour dénoter une distribution de
probabilités sur S et on écrira P = (Pij ; i ≥ 1, j ≥ 1) pour dénoter une matrice stochastique sur S.
25
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Voici quelques rappels sur les produits matriciels. Nous nous limitons ici au cas du produit v P où
v est un vecteur sur S et P est une matrice sur S et au cas du produit PQ où P et Q sont toutes
les deux des matrices sur S. Ce sont les deux cas qui nous seront utiles dans les sections suivantes.
Rappel 1. Si v = (vi ; i ∈ S) est un vecteur ligne sur S et si P = (Pij ; i ∈ S, j ∈ S) est une matrice
sur S, alors v P est le vecteur ligne sur S dont la j e coordonnée est donnée par
X
(v P)j = vi Pij . (2.1)
i∈S
Rappel 2. Si P = (Pij ; i ∈ S, j ∈ S) et Q = (Qij ; i ∈ S, j ∈ S) sont toutes les deux des matrices

sur S, alors PQ est la matrice sur S dont l’élément en position (i, j) est donné par
X
(PQ)ij = Piℓ Qℓj . (2.2)
ℓ∈S
Voici deux résultats élémentaires importants.
Proposition 1. Si le vecteur v est une distribution de probabilités sur S et si la matrice P est

une matrice stochastique sur S, alors le vecteur v P est une distribution de probabilités sur S.
Démonstration. Il suffit de vérifier que le vecteur ligne v P satisfait les deux conditions suivantes :
(i) (v P)j ≥ 0 pour tout j ∈ S ;
P
(ii) j∈S (v P)j = 1.
Considérons d’abord le point (i). Puisque v est une distribution de probabilités sur S on a vi ≥ 0
pour tout i ∈ S et puisque P est une matrice stochastique sur S on a Pij ≥ 0 pour tout i et j dans
S. On a donc vi Pij ≥ 0 pour tout choix de i et j dans S. On obtient donc
X
(v P)j = vi Pij ≥ 0 pour tout j ∈ S.
i∈S
Considérons maintenant le point (ii). On obtient

!     
X X X X X X X  X
(v P)j = vi Pij =  vi Pij  = vi  Pij  = vi = 1.
 
j∈S j∈S i∈S i∈S j∈S i∈S j∈S i∈S
Explications : Pour la première égalité on a simplement utilisé l’équation (2.1). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur vi qui apparait dans chaque terme P de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout i ∈ S on a j∈S Pij = P 1 (puisque P est une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que i∈S vi = 1 (puisque v est une
distribution de probabilités sur S).
Proposition 2. Si P = (Pij ; i ∈ S, j ∈ S) et Q = (Qij ; i ∈ S, j ∈ S) sont toutes les deux des

matrices stochastiques sur S, alors la matrice produit PQ est une matrice stochastique sur S.
Démonstration. Il suffit de vérifier que la matrice produit PQ satisfait les deux conditions sui-
vantes :
26
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) (PQ)ij ≥ 0 pour tout i et j dans S ;

P
(b) j∈S (PQ)ij = 1 pour tout i dans S.
On vérifie les conditions (a) et (b) ci-dessus de la même façon qu’on a vérifié les conditions (i) et (ii)
dans la démonstration de la Proposition 1. Par exemple, pour la condition (b) on procède comme
suit. Fixons i et j dans S. On obtient
 
X XX XX X X X
(PQ)ij = Piℓ Qℓj = Piℓ Qℓj = Piℓ Qℓj  = Piℓ = 1.
j∈S j∈S ℓ∈S ℓ∈S j∈S ℓ∈S j∈S ℓ∈S
Explications : Pour la première égalité on a simplement utilisé l’équation (2.2). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur Piℓ qui apparait dans chaque termeP de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout ℓ ∈ S on a j∈S Qℓj = 1 (puisque Q estP une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que pour tout i ∈ S on a ℓ∈S Piℓ = 1
(puisque P est une matrice stochastique sur S).
Rappelons en terminant que le produit matriciel est associatif. Ceci est vrai en particulier pour les
matrices stochastiques. Donc, si P, Q et R sont des matrices stochastiques sur l’espace d’états S,
alors on a
(PQ) R = P (QR) .
On peut donc laisser tomber les parenthèses et écrire simplement PQR.
On écrit I pour dénoter la matrice identité sur S c’est-à-dire la matrice I = (Iij ; i ∈ S, j ∈ S) avec
Iii = 1 pour tout i ∈ S et Iij = 0 pour tout i et j dans S avec i 6= j. Notez que cette matrice I est
une matrice stochastique.
Si P est une matrice stochastique sur S, la ne puissance de P, notée P n , jouera un rôle important
dans les prochaines sections. Cette ne puissance de P est définie de la façon suivante :


 I si n = 0,
n
P = PPP · · · P si n ≥ 1.

 | {z }
n fois
2.2 Chaı̂ne de Markov

Définition. Soit S, un ensemble non vide, fini ou infini dénombrable. Soit ν, une distribution de
probabilités sur S. Soit P, une matrice stochastique sur S. Une chaı̂ne de Markov sur S, à temps
discret, homogène dans le temps, avec loi initial ν et avec matrice de probabilités de transition P,
est une suite de variables aléatoires (Xn ; n ≥ 0) qui satisfait les trois conditions suivantes :
(i) Pour tout i ∈ S on a P[X0 = i] = νi .
(ii) Pour tout entier n ≥ 0 et pour tout choix de i0 , i1 , ..., in−1 et i dans S pour lesquels
P[(X0 , X1 , ..., Xn−1 , Xn ) = (i0 , i1 , ..., in−1 , i)] > 0, on a, pour tout j ∈ S,
P[Xn+1 = j | (X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j | Xn = i]. (2.3)
27
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(iii) Pour tout i dans S, pour tout j dans S et pour tous les entiers n tels que P[Xn = i] > 0, la
probabilité conditionnelle P[Xn+1 = j | Xn = i] ne dépend pas de n et est égale à Pij . Ces
probabilités conditionnelles sont appelées probabilités de transition.
L’analogie suivante nous aide à mieux comprendre le concept de chaı̂ne de Markov. On imagine une
particule qui se déplace de façon aléatoire. L’ensemble S représente l’ensemble de tous les états, ou
positions, possibles de la particule. La variable aléatoire Xn représente la position de la particule au
temps n, c’est-à-dire la position de la particule après n transitions. Au temps 0, on place la particule
dans un état qu’on aura choisi au hasard selon la distribution de probabilités ν = (νi ; i ∈ S). À
chaque unité de temps, la particule effectue une transition selon la règle suivante : si au temps n la
particule est à l’état i, alors sa position au temps n + 1 est choisie au hasard selon la distribution
de probabilités (Pij ; j ∈ S) et ce peu importe n et peu importe les états qui ont été visités aux
temps 0, 1, 2, ..., n − 1.
Quelques remarques.
(a) La condition (i) stipule tout simplement que la distribution de la variable aléatoire X0 est la
distribution de probabilités ν. Une façon alternative d’exprimer la condition (i) est d’écrire
tout simplement L(X0 ) = ν. Ici la notation L(X0 ) signifie “la loi (ou distribution) de la
variable aléatoire X0 ”.
(b) La condition (ii) est ce qu’on appelle la propriété de Markov. Cette condition dit simplement
que si on connait la position de la particule au temps n et si on veut prédire sa position au
temps n + 1, alors l’histoire antérieure de la particule, du temps 0 au temps n − 1, ne nous
aide en rien.
(c) La condition (iii) est ce qu’on appelle la condition d’homogénéité dans le temps. Cette
condition stipule que les probabilités de transition P[Xn+1 = j|Xn = i] ne dépendent pas de
n, d’où la terminologie homogène dans le temps.
Note biographique : Les chaı̂nes de Markov furent introduites par le mathématicien russe Andrei
Andreyevich Markov au début des années 1900. Markov est né le 14 juin 1856 à Ryazan en Russie.
Il était un étudiant de Tchebychev. Il est devenu professeur à l’Université de Saint-Pétersbourg en
1886. Jusqu’en l’an 1900, il a travaillé surtout en analyse et en théorie des nombres. Après 1900,
il a travaillé en théorie des probabilités. Avec la création des chaı̂nes qui portent son nom, il est
devenu en quelque sorte le père de la théorie des processus aléatoires. Il est mort le 20 juillet 1922
à l’âge de 66 ans.
Exemple 1 : La chaı̂ne à deux états. L’exemple non trivial le plus simple d’une chaı̂ne de
Markov est la chaı̂ne de Markov avec seulement deux états. Sans perte de généralité, supposons
que S = {0, 1} et considérons le cas où (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale
ν = (ν0 , ν1 ) = (r, 1 − r) et avec matrice stochastique

P00 P01 1−a a
P= = .
P10 P11 b 1−b
Ici r, a et b des nombres réels compris entre 0 et 1. Plus tard nous verrons que si a + b > 0, alors
peu importe le choix de la loi initiale, on a toujours
b a
lim P[Xn = 0] = et lim P[Xn = 1] = .
n→∞ a+b n→∞ a+b
28
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 2 : La marche aléatoire sur l’ensemble {0, 1, 2, ..., m}. Fixons m, un entier positif,
fixons k, un entier entre 0 et m, et fixons p, un nombre réel entre 0 et 1. Considérons un joueur
dont la fortune au temps 0 est de k dollars. À chaque unité de temps, le joueur mise 1 dollar dans
un jeu de hasard. Avec probabilité p, il gagne et sa fortune augmente de 1 dollar. Avec probabilité
1 − p, il perd et sa fortune diminue de 1 dollar. Si jamais sa fortune devient nulle, il cesse de jouer
et sa fortune demeure nulle pour toujours. Si jamais sa fortune atteint m dollars, il cesse de jouer
et sa fortune demeure m dollars pour toujours. Si on pose
Xn = la fortune du joueur après n unités de temps,
alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur l’ensemble S = {0, 1, ..., m}, issue de l’état
k et avec matrice stochastique
 
1 0 0 0 ··· 0 0
 1−p 0 p 0 ··· 0 0 
 
 0
 1−p 0 p ··· 0 0 

P=
 0 0 1 − p 0 ··· 0 0 
.
 .. .
.. .
.. .. .. ..
 . . . .
 
 0 0 0 0 ··· 0 p 
0 0 0 0 ··· 0 1
L’expression ≪ issue de l’état k ≫ signifie simplement que la loi initiale est la distribution de pro-
babilités concentrée à l’état k, c’est-à-dire la distribution de probabilités (νi ; i ∈ S) avec νi = 1 si
i = k et νi = 0 si i 6= k. Cette chaı̂ne de Markov est appelée la marche aléatoire sur l’ensemble
{0, 1, ..., m}. Les états 0 et m s’appellent les frontières. Dans le présent exemple, les frontières sont
dites absorbantes ; si la chaı̂ne de Markov atteint l’état 0 ou l’état m, elle y demeure pour toujours.
Posons
min{n ≥ 0 : Xn ∈ {0, m}} si {n ≥ 0 : Xn ∈ {0, m}} 6= ∅
T =
∞ si {n ≥ 0 : Xn ∈ {0, m}} = ∅.
Plus tard, nous montrerons que P[T < ∞|X0 = k] = 1 et nous obtiendrons des expressions pour
les quantités P[XT = 0|X0 = k], P[XT = m|X0 = k], et E[T |X0 = k].
On peut aussi considérer le cas où les frontières sont réfléchissantes. Il suffit de se donner des réels
r et q entre 0 et 1 et de considérer la chaı̂ne de Markov avec matrice stochastique
 
1−r r 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p · · · 0 0 0 

P=
 0 0 1 − p 0 ··· 0 0 0 .
 .. .. .. .. .. .. .. 
 . . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 1−q q
À la frontière 0, on a absorption si r = 0, on a réflexion instantannée si r = 1, et on a réflexion

amortie si 0 < r < 1. Même scénario à la frontière m, selon que q = 1 (absorption), q = 0 (réflexion
instantannée), ou 0 < q < 1 (réflexion amortie).
Exemple 3 : La marche aléatoire sur les entiers non négatifs. Si, dans l’exemple du joueur
et du casino, on suppose que le casino possède une fortune infinie, de sorte que le joueur peut
29
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
continuer à jouer tant et aussi longtemps qu’il a de l’argent, alors la suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’ensemble N0 = {0, 1, 2, ...}, issue de l’état k et avec matrice stochastique
 
1 0 0 0 ···
 1−p 0 p 0 ··· 
 
P= 0
 1−p 0 p ···  .
 0
 0 1 − p 0 · · · 

.. .. .. ..
. . . .
Cette chaı̂ne de Markov est appelée la marche aléatoire sur N0 , issu de l’état k et avec absorption
à l’état 0. On peut, comme dans l’exemple précédent, considérer le cas plus général où
 
1−r r 0 0 ···
 1−p 0 p 0 ··· 
 
P=
 0 1−p 0 p ···  
 0
 0 1 − p 0 · · · 

.. .. .. ..
. . . .
pour un certain 0 ≤ r ≤ 1. Plus tard, nous verrons comment calculer, en termes de k et de p, la

probabilité conditionnelle P[T0 < ∞|X0 = k], où cette fois-ci

min{n ≥ 0 : Xn = 0} si {n ≥ 0 : Xn = 0} 6= ∅
T0 =
∞ si {n ≥ 0 : Xn = 0} = ∅.
La marche aléatoire sur N0 peut servir de modèle élémentaire de file d’attente (avec Xn = le nombre
d’individus dans une certaine file d’attente après n transitions, où transition veut dire qu’il y a ou
bien arrivée d’un nouveau client, ou bien départ du client qui était en train de se faire servir) ou de
modèle élémentaire de processus de naissances et de morts (avec Xn = le nombre d’individus dans
une certaine population après n transitions, où transition veut dire qu’il y a ou bien une naissance,
ou bien un décès).
Exemple 4 : Le modèle de Ehrenfest. On considère deux urnes, disons l’urne A et l’urne B,

contenant un total de m boules. À chaque unité de temps, une boule est choisie au hasard, avec
probabilité 1/m pour chaque boule. La boule choisie est retirée de son urne et est placée dans
l’autre urne. On s’intéresse à
Xn = le nombre de boules dans l’urne A au temps n,
c’est-à-dire le nombre de boules dans l’urne A après n transitions. La suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace des états S = {0, 1, 2, ..., m}. Sa matrice stochastique est donnée par
 
0 1 0 0 ··· 0 0 0
1 m−1

 m 0 m 0 ··· 0 0 0 

2 m−2

 0 m 0 m ··· 0 0 0 

3

 0 0 m 0 ··· 0 0 0 

P= .. .. .. .. .. .. ...

 . . . . . . .

2

 0 0 0 0 ··· 0 m 0 

m−1 1 
 0 0 0 0 ··· m 0 m
0 0 0 0 ··· 0 1 0
30
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce modèle d’urnes et de boules fut introduit par le physicien autrichien Paul Ehrenfest pour analyser
le phénomène de diffusion d’un gaz à travers un petit conduit reliant deux récipients. Les boules
représentent les molécules du gaz et les urnes représentent les récipients. Le modèle de Ehrenfest
suppose qu’à chaque unité de temps une molécule choisie au hasard passe d’un récipient vers l’autre.
Note biographique : Paul Ehrenfest est né à Vienne (Autriche) en 1880. Il a obtenu son doctorat
en 1904 sous la direction du célèbre physicien Boltzmann. Il était un ami intime des physiciens
Albert Einstein et Niels Bohr. Il a participé au développement de la théorie quantique. Il est mort
de façon tragique à Amsterdam en 1933. Einstein a écrit que, du point de vue de la qualité de
l’enseignement, Ehrenfest était le meilleur professeur de physique de l’époque.
Graphe de communication. Considérons une matrice stochastique P sur l’espace d’états S. Le

graphe de communication, ou schéma de communication, associé à la matrice P est le graphe,
orienté et valué, obtenu de la façon suivante :
• L’ensemble des sommets du graphe est l’espace des états S.
• Il y a une arête orientée qui va du sommet i jusqu’au sommet j si et seulement si Pij > 0.
La valeur de cette arête est égale à Pij .
Exemple 5. Voici le graphe de communication pour le modèle de Ehrenfest dans le cas où m = 5 :
1/5 2/5 3/5 4/5 1
0 1 2 3 4 5
1 4/5 3/5 2/5 1/5
Figure 1. Le graphe de communication pour le modèle de Ehrenfest avec m = 5.
2.3 Probabilités de transition d’ordre supérieur et

généralisations de la propriété de Markov
Nous présentons ici quelques conséquences de la propriété de Markov et de la propriété d’ho-
mogénéité dans le temps c’est-à-dire les conditions (ii) et (iii) de la définition de chaı̂ne de Markov
à temps discret donnée au début de la section précédente.
2.3.1 Une première généralisation de la propriété de Markov

Le résultat suivant est une généralisation non surprenante, mais très importante, de la propriété
de Markov. C’est un résultat qui sera très utile par la suite.
Théorème 1. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec loi initiale ν et avec matrice stochas-
tique P, alors pour tout entier k ≥ 0 et pour tout choix d’entiers 0 ≤ n1 < n2 < · · · < nk < n et
d’états in1 , in2 , ..., ink et i pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)] > 0, on a, pour
tout j ∈ S et pour tout entier m ≥ 1,
P[Xn+m = j | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = P[Xn+m = j | Xn = i] = (P m )ij . (2.4)
31
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarques au sujet de l’équation (2.4) : Le notation (P m )ij est utilisée pour dénoter l’élément
en position (i, j) de la matrice stochastique P m . La première égalité qui apparait à l’équation (2.4)
est une généralisation de l’équation (2.3) qui apparait au point (ii) de notre définition de chaı̂ne de
Markov. La deuxième égalité est une généralisation de la propriété d’homogénéité dans le temps
énoncée au point (iii) de notre définition de chaı̂ne de Markov. Cette égalité montre entre autre
choses que la probabilité conditionnelle P[Xn+m = j|Xn = i] ne dépend pas de n. On a donc
P[Xn+m = j|Xn = i] = P[Xm = j|X0 = i] pour tout n ≥ 0.
Définition. La probabilité conditionnelle P[Xm = j|X0 = i] est appelée probabilité de transition

d’ordre m. Le Théorème 1 nous dit que P[Xm = j|X0 = i] est simplement l’élément en position
(i, j) de la matrice stochastique P m . Pour simplifier l’écriture, nous écrirons simplement Pijm pour
dénoter cette probabilité.
L’équation (2.4) peut donc être réécrite de la façon suivante :
P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]

= P[Xn+m = j|Xn = i] = P[Xm = j|X0 = i] = Pijm . (2.5)
Démonstration du Théorème 1. La démonstration sera faite en deux étapes. D’abord nous

traiterons le cas m = 1, puis nous traiterons le cas m ≥ 2.
Le cas où m = 1. Dans ce cas l’équation (2.5) prend la forme suivante :
P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]

= P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i] = Pij . (2.6)
Or nous savons déjà que P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i] = Pij . Ça fait partie de notre
définition de chaı̂ne de Markov. Donc pour démontrer l’équation (2.6), il suffit de montrer que
P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pij . (2.7)
Plutôt que de présenter tout de suite une démonstration générale de l’équation (2.7), examinons
d’abord le cas particulier P[X5 = j | X2 = i2 , X4 = i]. En conditionnant sur (X0 , X1 , X3 ) on obtient
P[X5 = j | X2 = i2 , X4 = i]
X
= P[X5 = j | X0 = i0 , X1 = i1 , X2 = i2 , X3 = i3 , X4 = i] P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i] = Pij .
(i0 ,i1 ,i3 )∈S 3
Explications : Pour la première égalité, on a utilisé la loi des probabilités totales. Pour la deuxième
égalité, on a utilisé la propriété de Markov (2.3). Pour la troisième égalité, on a simplement mis
en évidence le terme Pij . Enfin, la dernière somme est égale à 1 puisque c’est la somme de toutes
les probabilités de la distribution conditionnelle du vecteur (X0 , X1 , X3 ) sachant que X2 = i2 et
X4 = i.
Le cas général peut être démontré de la même façon. Voici les détails. Il suffit de condition-
ner sur les variables (Xℓ ; ℓ ∈ A), où A est l’ensemble des indices manquants, c’est-à-dire A =
32
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
{0, 1, 2, ..., n}\{n1 , n2 , ..., nk , n}, et d’appliquer la propriété de Markov. Pour faciliter l’écriture, po-
sons nk+1 = n et ink+1 = in = i et posons a = n − k, le cardinal de l’ensemble A. On obtient
alors
P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)]
= P[Xn+1 = j| ∩k+1
m=1 (Xnm = inm )]
X
= P[Xn+1 = j| ∩nr=0 (Xr = ir )] P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
(iℓ ;ℓ∈A)∈S a
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )] = Pij .
La dernière somme est égale à 1 puisqu’il s’agit de la somme de toutes les probabilités de la
distribution conditionnelle du vecteur (Xℓ ; ℓ ∈ A) sachant ∩k+1
m=1 (Xnm = inm ). Ceci complète la
démonstration du Théorème 1 dans le cas où m = 1.
Le cas où m ≥ 2. Fixons m ≥ 2. Pour démontrer l’équation (2.5), il suffit de montrer que
P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pijm . (2.8)
En effet, puisque les probabilités conditionnelles P[Xn+m = j|Xn = i] et P[Xm = j|X0 = i] sont des
cas particulier de la probabilité conditionnelle P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)], si
on démontre (2.8) alors on aura par le fait même démontré (2.5).
Pour bien comprendre la démonstration sans se perdre dans la notation, considérons la cas parti-
culier suivant : P[X7 = j | X2 = i2 , X4 = i]. En conditionnant sur (X5 , X6 ) on obtient
P[X7 = j | X2 = i2 , X4 = i]
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] P[X7 = j | X2 = i2 , X4 = i, X5 = k, X6 = ℓ]
k∈S ℓ∈S
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] Pℓj
k∈S ℓ∈S
XX
= P[X5 = k | X2 = i2 , X4 = i]P[X6 = ℓ | X2 = i2 , X4 = i, X5 = k] Pℓj
k∈S ℓ∈S
!
XX X X X
2
= Pik Pkℓ Pℓj = Pik Pkℓ Pℓj = Pik Pkj = Pij3 .
k∈S ℓ∈S k∈S ℓ∈S k∈S
Pour la deuxième égalité, on a utilisé le cas spécial m = 1 qu’on a démontré ci-dessus. Pour la
troisième égalité, on a simplement utilisé la règle de multiplication. Pour la quatrième égalité, on
a à nouveau utilisé, deux fois, le cas spécial m = 1.
Le cas général peut être traité de la même façon et les détails ne seront pas présentés ici. Ceci
complète notre démonstration du Théorème 1.
33
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.3.2 Une autre généralisation de la propriété de Markov

On suppose comme d’habitude que (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale ν
et avec matrice stochastique P. D’après notre définition de chaı̂ne de Markov, on a ceci :
Pour tout n ≥ 0 et pour tout choix de i0 , i1 , i2 , ..., in−1 et i dans S tels que
P[(X0 , X1 , ..., Xn−1 , Xn ) = (i0 , i1 , ..., in−1 , i)] > 0, on a
P[Xn+1 = j|(X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j|Xn = 0] = Pij
pour tout j ∈ S.
D’après le Théorème 1, on a la généralisation suivante :
Pour tout entier k ≥ 0 et pour tout choix d’entiers 0 ≤ n1 < n2 < · · · < nk < n et
d’états in1 , ..., ink et i pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a
P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)] = P[Xn+m = j|Xn = i] = Pijm
pour tout m ≥ 0 et pour tout j ∈ S.

Voici une autre généralisation :
Théorème 2. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec matrice stochastique P, alors
pour tout choix d’entier non négatif k, d’entiers 0 ≤ n1 < n2 < · · · < nk < n et d’états i1 , i2 , ..., ik
et i dans S pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a
P[(Xn+m1 , Xn+m1 +m2 , ..., Xn+m1 +···+mℓ ) = (j1 , j2 , ..., jℓ ) | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]
= P[(Xn+m1 , Xn+m1 +m2 , ..., Xn+m1 +···+mℓ ) = (j1 , j2 , ..., jℓ )|Xn = i]

m1 m2
= Pi,j P
1 j1 ,j2
· · · Pjmℓ
ℓ−1 ,jℓ
.
pour tout entier positif l, pour tout choix d’entiers non négatifs m1 , m2 , ..., mℓ et pour tout choix
d’états j1 , j2 , ..., jℓ dans S.
Démonstration.
Le cas où ℓ = 1 est couvert par le Théorème 1. Pour le cas où ℓ > 1, considérons le cas particulier
suivant :
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i].
D’abord on utilise la règle de multiplication et on obtient
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i]

= P[X14 = j1 | X3 = i3 , X8 = i8 , X10 = i]
× P[X17 = j2 | X3 = i3 , X8 = i8 , X10 = i, X14 = j1 ]
× P[X24 = j3 | X3 = i3 , X8 = i8 , X10 = i, X14 = j1 , X17 = j2 ].
Puis, pour chacun des 3 termes apparaissant sur le côté droit de l’équation précédente, on applique
la conclusion du théorème 2 dans le cas ℓ = 1. Autrement dit, on utilise le Théorème 1. On obtient
alors
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i] = Pij4 1 Pj31 j2 Pj72 j3 .
Le cas général se traite de la même façon mais la notation est un peu lourde.
34
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.3.3 L’équation de Chapman et Kolmogorov

Si P est une matrice stochastique, alors pour tout choix d’entiers non négatifs m et n on a P m+n =
P m P n . L’entrée (i, j) de la matrice P m+n est donc égale à l’entrée (i, j) du produit matriciel P m P n .
On a donc démontré le théorème élémentaire suivant :
Théorème 3. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour
tout choix d’entiers non négatifs m et n et pour tout choix de i et j dans l’espace des états S, on a
X
Pijm+n = m n
Pik Pkj . (2.9)
k∈S
Corollaire. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour tout
choix d’entiers non négatifs m et n et pour tout choix de i, j et ℓ dans S, on a
Pijm+n ≥ Piℓm Pℓjn . (2.10)
Pour des raisons un peu obscures, l’équation (2.9) est appelée l’équation de Chapman et Kolmogorov.
Cette équation (2.9) est en fait un cas spécial d’une équation beaucoup plus générale, aussi appelée
équation de Chapman et Kolmogorov, concernant les processus de Markov à temps continu et à
espace d’états quelconque. Quant à elle, l’équation (2.10) est souvent utilisée pour montrer qu’une
certaine probabilité de transition, disons Pijr est strictement positive. Il suffit simplement de trouver
des entiers m et n et un état ℓ tels que r = m + n, Piℓm > 0 et Pℓjn > 0. L’équation (2.10) nous
donne alors Pijr = Pijm+n ≥ Piℓm Pℓjn > 0.
2.4 Distributions conjointes et distributions marginales

Dans la présente section, nous supposons que (Xn ; n ≥ 0) est une chaı̂ne de Markov sur l’espace
d’états S, avec loi initiale ν et avec matrice stochastique P, et nous obtenons quelques résultats
élémentaires concernant la distribution des variables aléatoires X0 , X1 , X2 , ...
2.4.1 La loi marginale de Xn

On s’intéresse maintenant à L(Xn ), la loi marginale de Xn . Par définition on a que L(X0 ) = ν.
Pour n ≥ 1, la loi marginale de Xn peut être obtenue en conditionnant sur X0 et en utilisant les
probabilités de transition d’ordre n. En effet, pour tout n ≥ 1 et pour tout j dans S on a
X
P[Xn = j] = P[X0 = i] P[Xn = j|X0 = i]
i∈S
X
= νi Pijn = (νP n )j .
i∈S
Nous avons donc démontré le résultat suivant.
Théorème 6. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale ν et avec matrice
stochastique P, alors
L(Xn ) = νP n ∀n ≥ 0.
35
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.4.2 La distribution du vecteur (X0 , X1 , ..., Xn )

Pour calculer la loi conjointe de X0 et X1 , on utilise la règle de multiplication. Pour tout choix de
i0 et i1 dans S, on a
P[(X0 , X1 ) = (i0 , i1 )] = P[X0 = i0 , X1 = i1 ]

= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ]
= νi0 Pi0 i1 .
La loi conjointe de X0 , X1 et X2 s’obtient de la même façon. Pour tout choix de i0 , i1 et i2 dans S,

on a
P[(X0 , X1 , X2 ) = (i0 , i1 , i2 )]
= P[X0 = i0 , X1 = i1 , X2 = i2 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X0 = i0 , X1 = i1 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X1 = i1 ]
= νi0 Pi0 i1 Pi1 i2 .
Plus généralement, on a le résultat suivant :

Théorème 4. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S, avec loi initiale ν et avec matrice
stochastique P, alors pour tout entier n ≥ 0 et pour tout (i0 , i1 , ..., in ) ∈ S n+1 on a
n−1
Y
P[(X0 , X1 , ..., Xn ) = (i0 , i1 , ..., in )] = νi0 Piℓ ,iℓ+1 . (2.11)
ℓ=0
Voici la réciproque du théorème 4. Sa démonstration est laissée en exercice.

Théorème 5. Soit S, un ensemble non vide, fini ou infini dénombrable. Soit ν, une distribution de
probabilités sur S. Soit P, une matrice stochastique sur S. Soit (Xn ; n ≥ 0), une suite de variables
aléatoires à valeurs dans S. Si l’équation (2.11) est satisfaite pour tout entier n ≥ 0 et pour tout
(i0 , i1 , ..., in ) ∈ S n+1 , alors (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S, avec loi initiale ν et avec
matrice stochastique P.
2.4.3 La distribution du vecteur (Xn1 , Xn2 , ..., Xnk )

En procédant comme aux sections 2.4.1 et 2.4.2, on obtient facilement la distribution conjointe de
Xn1 , Xn2 , ..., Xnk . Ici k est un entier positif et n1 , n2 , ..., nk sont des entiers tels que 0 ≤ n1 < n2 <
· · · < nk . En effet, pour tout choix d’états in1 , in2 , ..., ink dans S, on obtient
n −nk−1
P[(Xn1 , Xn2 , ..., Xnk ) = (in1 , in2 , ..., ink )] = (νP n1 )in Pinn2 −n n3 −n2
in Pin in · · · Pin
1 k
i .
1 1 2 2 3 k−1 nk
36
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.5 La propriété de Markov forte

Comme à la section précédente, on considère une chaı̂ne de Markov, disons (Xn ; n ≥ 0), sur un
espace d’états S, avec matrice stochastique P. Fixons un temps, disons le temps m, et considérons
la suite de variables aléatoires (Xm+n ; n ≥ 0). Fixons i∗ ∈ S. Les deux énoncés suivants sont des
conséquences de la propriété de Markov :
(a) Conditionnellement à Xm = i∗ , la suite de variables aléatoires (Xm+n ; n ≥ 0) est une chaı̂ne
de Markov avec matrice stochastique P, issu de l’état i∗ .
(b) Conditionnellement à Xm = i∗ , la suite de variables aléatoires (Xm+n ; n ≥ 1) est indépen-
dante des variables aléatoires X0 , X1 , ..., Xm−1 .
Sous certaines conditions, les énoncés (a) et (b) demeurent vrais lorsque le temps fixe m est remplacé
par un temps aléatoire T , c’est-à-dire une variable aléatoire T à valeur dans l’ensemble des entiers
non négatifs. On admettra même le cas où T prend la valeur ∞ avec une probabilité positive.
Définition. Un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0) est une variable aléatoire T à
valeurs dans l’ensemble N0 ∪ {∞} et telle que pour tout entier non négatif n l’événement {T = n}
peut être exprimé en termes des variables aléatoires X0 , X1 , X2 , ..., Xn .
Autrement dit, le temps aléatoire T est un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0)
si la condition suivante est satisfaite pour tout n ≥ 0 : ayant observé les variables aléatoires
X0 , X1 , X2 , ..., Xn , on sait si oui ou non on a T = n.
L’exemple le plus important d’un temps d’arrêt est le temps de frappe.
Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de frappe de
l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA défini par

min{n ≥ 0 : Xn ∈ A} si {n ≥ 0 : Xn ∈ A} 6= ∅
TA =
∞ si {n ≥ 0 : Xn ∈ A} = ∅
Il est facile de voir que le temps de frappe de l’ensemble A est bel et bien un temps d’arrêt. En
effet, pour tout n ≥ 0 on a {TA = n} = {X0 ∈ / A, X1 ∈
/ A, X2 ∈/ A, ..., Xn−1 ∈
/ A, Xn ∈ A}. De la
même façon, on vérifie facilement que les temps de premier retour sont des temps d’arrêt.
Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de premier retour
à l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA∗ défini par

min{n ≥ 1 : Xn ∈ A} si {n ≥ 1 : Xn ∈ A} 6= ∅
TA∗ =
∞ si {n ≥ 1 : Xn ∈ A} = ∅
Théorème 7. [La propriété de Markov forte]. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov sur S, avec
matrice stochastique P. Soit T , un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0). Soit i∗ ,
un état.
(a) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 0) est
une chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .
(b) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 1) est
indépendante des variables aléatoires X0 , X1 , ..., XT −1 .
37
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. Nous utiliserons la propriété de Markov forte seulement dans le cas où le temps
aléatoire T est un temps de frappe ou un temps de premier retour. Dans ces deux cas, le théorème
ci-dessus est intuitivement clair. Toutefois, la démonstration est plutôt délicate. L’étudiant peut
omettre le reste de la présente section.
Démonstration de la partie (a). Pour simplifier la présentation, on suppose que pour tout
i ∈ S on a P[T < ∞ | X0 = i] = 1. Posons Yn = XT +n et considérons la suite (Yn ; n ≥ 0). On
veut montrer que conditionnellement à XT = i∗ la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .
Pour tout choix d’un entier n ≥ 0 et d’états i0 , i1 , ..., in dans S, on a
P[(Y0 , Y1 , ..., Yn ) = (i0 , i1 , ..., in )|XT = i∗ ]
= P[(XT , XT +1 , ..., XT +n ) = (i0 , i1 , ..., in )|XT = i∗ ]

∞
X
= P[T = m|XT = i∗ ]P[(XT , XT +1 , ..., XT +n ) = (i0 , i1 , ..., in )|XT = i∗ , T = m]
m=0
∞
X
= P[T = m|XT = i∗ ]P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
m=0
Comme T est un temps d’arrêt, l’événement {T = m} est une union d’événements élémentaires
faisant intervenir seulement les variables aléatoires X0 , X1 , ..., Xm . Donc, en vertu de la propriété
de Markov, on a
P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
= P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ ].

Q
Comme à la section 2.3, on voit que cette dernière probabilité est égale à νi∗ (i0 ) n−1 ℓ=0 Piℓ ,iℓ+1 où
νi∗ = (νi∗ (k); k ∈ S) est la distribution de probabilité concentrée sur l’état i∗ . On a donc
P[(Y0 , Y1 , ..., Yn ) = (i0 , i1 , ..., in )|XT = i∗ ]

∞
X
= P[T = m|XT = i∗ ] P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
m=0
∞
X
= P[T = m|XT = i] P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ ]
m=0
∞
X n−1
Y
= P[T = m|XT = i∗ ] νi∗ (i0 ) Piℓ ,iℓ+1
m=0 ℓ=0
n−1
! ∞ n−1
Y X Y
= νi∗ (i0 ) Piℓ ,iℓ+1 P[T = m|XT = i∗ ] = νi∗ (i0 ) Piℓ ,iℓ+1 .
ℓ=0 m=0 ℓ=0
Le Théorème 5 nous permet donc de conclure que conditionnellement à XT = i∗ , la suite de variables

aléatoires (XT +n ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, issue de l’état i∗ .
38
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (b). Pour simplifier la présentation, on suppose à nouveau qu’on a

P[T < ∞ | X0 = i] = 1 pour tout i ∈ S. Fixons n ≥ 0 et fixons i0 , i1 , i2 , ... et j1 , j2 , ..., jn dans S. Il
faut montrer que
h i
P ∩Tk=0−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗
h i
= P ∩Tk=0
−1
(Xk = ik ) |XT = i∗ P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] .
Si on conditionne sur T on obtient
h i
P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗
∞
X h i
= P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗ , T = m
m=0
X∞

= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) ∩ (∩ℓ=1 (Xm+ℓ = jℓ )) |Xm = i∗
m=0
X∞

= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) |Xm = i∗ P [∩ℓ=1 (Xm+ℓ = jℓ ) |Xm = i∗ ]
m=0
∞
X
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗
m=0
X∞

= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗ , T = m
m=0
X∞ h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗ , T = m
m=0
h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗
Pour la deuxième égalité, nous avons utilisé la propriété de Markov, comme dans la démonstration
de la partie (a). Pour la troisième égalité, nous avons utilisé le point (b) du premier paragraphe de
la présente section. Pour la quatrième égalité, nous avons utilisé le fait que le terme P[∩nℓ=1 (Xm+ℓ =
jℓ )|Xm = i∗ ] ne dépend pas de m et est égal à P[∩nℓ=1 (XT +ℓ = jℓ )|XT = i∗ ] en vertu de la partie (a)
du présent théorème. Enfin, pour la cinquième égalité, nous avons appliqué à nouveau la propriété
de Markov. Ceci complète la démonstration.
2.6 Communication entre états

Dans la présente section nous étudions la structure de communication que la matrice stochastique
P induit sur l’espace d’états S. Comme pour la section précédente, on considère ici une chaı̂ne de
Markov, disons (Xn ; n ≥ 0), sur un espace d’états S, avec matrice stochastique P.
2.6.1 Accessibilité
Définition. On dit que l’état j est accessible à partir de l’état i, et on écrit alors i → j, s’il existe
un entier n ≥ 0 tel que Pijn > 0.
39
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
i → j ⇔ il existe un entier n ≥ 0 tel que Pijn > 0.
Autrement dit, on a
∞
X
i→j ⇔ Pijn > 0.
n=0
La relation d’accessibilité → ainsi définie est réflexive (on a i → i pour tout i ∈ S) puisque pour
tout i ∈ S on a Pii0 = 1. Elle est également transitive. En effet, si i → j et j → k alors, par
définition, on a Pijn1 > 0 pour un certain n1 ≥ 0 et Pjk n2
> 0 pour un certain n2 ≥ 0. L’équation de
Chapman et Kolmogorov nous donne alors
X
n1 +n2
Pik = Piℓn1 Pℓk
n2
≥ Pijn1 Pjk
n2
>0
ℓ∈S
et on conclut que i → k. En général, la relation → n’est ni symétrique, ni anti-symétrique. En effet,

on peut avoir i → j sans avoir j → i (donc la relation → n’est pas symétrique). On peut aussi avoir
i → j et j → i sans avoir i = j (donc la relation → n’est pas anti-symétrique).
Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, la relation d’accessibilité
peut aussi être exprimée en terme de la variable aléatoire
Nj = ≪ le nombre total de visites à l’état j ≫.
Plus précisément, on pose

∞
X
Nj = 1{j} (Xn )
n=0
avec
1 si Xn = j,
1{j} (Xn ) =
0 6 j.
si Xn =
L’espérance conditionnelle de Nj sachant X0 = i est alors donnée par
" ∞ #
X

E[Nj |X0 = i] = E 1{j} (Xn ) X0 = i

n=0
∞
X
= E[1{j} (Xn )|X0 = i]
n=0
X∞ ∞
X
= P[Xn = j|X0 = i] = Pijn .
n=0 n=0
On a donc le résultat élémentaire suivant :
Théorème 8. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i et j,
des états. Alors, les trois conditions suivantes sont équivalentes :
• i → j,
P∞ n
• n=0 Pij > 0,
• E[Nj |X0 = i] > 0.
40
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.6.2 Communication
Définition. On dit que les états i et j communiquent, et on écrit alors i ↔ j, si on a i → j et
j → i.
La relation ↔ ainsi définie est appelée la relation de communication sur S induite par la matrice
stochastique P. Cette relation est clairement symétrique : si on a i ↔ j, alors on a aussi j ↔ i.
De plus, la réflexivité et la transitivité de la relation d’accessibilité → entraı̂nent la réflexivité
et la transitivité de la relation de communication ↔. Rappelons qu’une relation qui est à la fois
symétrique, réflexive et transitive est appelée une relation d’équivalence. On a donc le résultat
suivant.
Théorème 9. Soit S, un ensemble fini ou infini dénombrable. Soit P, une matrice stochastique
sur S. La relation de communication sur S induite par la matrice stochastique P est une relation
d’équivalence.
Les classes d’équivalence de la relation de communication ↔ sont appelées les classes de com-
munication de la matrice stochastique P. On dit aussi les classes de communication de la chaı̂ne
de Markov (Xn ; n ≥ 0). Le cas où tous les états communiquent entre eux est particulièrement
important, d’où la définition suivante.
Définition. La matrice stochastique P est dite irréductible s’il existe une seule classe de commu-
nication, c’est-à-dire si on a i ↔ j pour tout i et j dans S. On dira que (Xn ; n ≥ 0) est une chaı̂ne
de Markov irréductible si sa matrice stochastique P est irréductible.
Exemple 6 :  
1/3 2/3 0 0 0 0 0

 6/7 0 0 0 0 1/7 0 


 0 0 0 1 0 0 0 

P=
 0 0 1/4 1/4 1/2 0 0 .


 0 0 0 0 0 0 1 

 0 0 0 0 3/4 1/4 0 
0 0 0 0 0 1/5 4/5
Ici l’étudiant peut vérifier que les classes de communication sont {1, 2}, {3, 4} et {5, 6, 7}. Pour voir
ça, il suffit de dessiner le graphe de communication.
Exemple 7 :  
1/3 2/3 0 0 0

 0 1/2 1/2 0 0 

P=
 1/4 0 0 3/4 0 .

 0 0 0 1/9 8/9 
2/3 0 0 1/3 0
En traçant le graphe de communication, l’étudiant peut voir que tous les états communiquent entre
eux. Il y a donc une seule classe de communication. La matrice P est donc irréductible.
Le Théorème 8 nous donne automatiquement le résultat suivant :
41
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 10. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Les trois
conditions suivantes sont équivalentes :
• La chaı̂ne est irréductible,
P∞ n
• n=0 Pij > 0, pour tout choix de i et j dans S,
• E[Nj |X0 = i] > 0, pour tout choix de i et j dans S.
Pour illustrer le concept d’irréductibilité, examinons la marche aléatoire sur {0, 1, 2, ..., m} avec
matrice stochastique
 
1−r r 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p ··· 0 0 0 
P= . .. .. .. .. .. ..  .
 .. . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 1−q q
Voici les classes de communication de P selon les valeurs des paramètres p, q et r.
p q r Classes de communication
0<p<1 0≤q<1 0<r≤1 {0, 1, 2, ..., m}∗

0<p<1 0≤q<1 r=0 {0}∗ , {1, 2, ..., m}
0<p<1 q=1 0<r≤1 {0, 1, 2, ..., m − 1}, {m}∗
0<p<1 q=1 r=0 {0}∗ , {1, 2, ..., m − 1}, {m}∗
p=0 0≤q<1 0<r≤1 {0, 1}∗ , {2}, {3}, ..., {m − 1}, {m}
p=0 0≤q<1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}
p=0 q=1 0<r≤1 {0, 1}∗ , {2}, {3}, ..., {m − 1}, {m}∗
p=0 q=1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}∗
p=1 0≤q<1 0<r≤1 {0}, {1}, {2}, ..., {m − 1, m}∗
p=1 0≤q<1 r=0 {0}∗ , {1}, {2}, ..., {m − 1, m}∗
p=1 q=1 0<r≤1 {0}, {1}, {2}, ..., {m − 1}, {m}∗
p=1 q=1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}∗
Nous terminons cette section avec la notion de classe absorbante.
Définition. Une classe de communication C est dite absorbante si la condition suivante est satis-
faite : X
Pij = 1 pour tout i ∈ C.
j∈C
42
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Lorsqu’une classe absorbante est un singleton, disons le singleton C = {i}, l’état i est appelé un
état absorbant. Dans le tableau de l’exemple précédent, les classes absorbantes sont indiquées par
des astérisques.
Si C1 et C2 sont des classes de communication pour P, on dit que C1 est accessible à partir de C2 ,
et on écrit C1 C2 , s’il existe un état i ∈ C2 et un état j ∈ C1 tels que i → j. Il est facile de vérifier
que la relation ainsi définie est une relation d’ordre sur l’ensemble des classes de communication
de P. Autrement dit, la relation satisfait les trois conditions suivantes :
• Réflexivité : Pour toute classe de communication C, on a C C.
• Antisymétrie : Si C1 C2 et C2 C1 , alors C1 = C2 .
• Transitivité : Si C1 C2 et C2 C3 , alors C1 C3 .
Les éléments minimaux de cette relation d’ordre sont précisément les classes absorbantes de P.
2.7 Périodicité
Si H est un ensemble non vide d’entiers positifs, alors pgcd(H) dénote le plus grand commun
diviseur de H, c’est-à-dire le plus grand entier k pour lequel h/k est un entier pour tout h ∈ H.
Voici quelques exemples élémentaires :
pgcd ({6, 20, 24}) = 2,

pgcd ({6, 7, 12, 24}) = 1,
pgcd ({5, 10, 15, 20, ...}) = 5.
Pour la définition suivante, on suppose que S est un ensemble non vide, fini ou infini dénombrable,
et que P est une matrice stochastique sur S.
Définition. Pour i ∈ S, la période de l’état i, dénotée d(i), est définie par l’équation
(
pgcd({n ≥ 1 : Piin > 0}) si {n ≥ 1 : Piin > 0} 6= ∅,
d(i) =
∞ si {n ≥ 1 : Piin > 0} = ∅.
Un état est dit apériodique si sa période est 1.
Exemple 8. Considérons la marche aléatoire sur N0 , avec réflexion à l’origine (r > 0). Si la réflexion
est instantanée (r = 1), alors on a d(i) = 2 pour tout i ∈ N0 . Si la réflexion est amortie (0 < r < 1),
alors on a d(i) = 1 pour tout i ∈ N0 .
Exemple 9. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique donnée par
 
0 1 0 0 0 0
 0 0 1/2 0 0 1/2 
 
 0 0 0 1 0 0 
P=  .
 0 1/3 0 0 2/3 0 

 0 0 0 0 0 1 
3/5 0 0 2/5 0 0
Si on trace de graphe de communication de cette chaı̂ne de Markov, on vérifie facilement que

d(i) = 3 pour tout i ∈ S.
43
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le résultat suivant nous dit que la périodicité est une notion de classe : à l’intérieur d’une classe
de communication, tous les états ont la même période.
Théorème 11. Soit P, une matrice stochastique sur l’espace d’états S. Soit i et j, des états. Si
i ↔ j, alors d(i) = d(j).
Démonstration. Fixons i 6= j ∈ S et supposons que i ↔ j. Posons
A = {n ≥ 1 : Pini > 0},

B = {n ≥ 1 : Pjnj > 0}.
On a donc d(i) = pgcd(A) et d(j) = pgcd(B). Puisque i ↔ j, il existe des entiers positifs n1 et n2
tels que Pijn1 > 0 et Pjin2 > 0. On a donc Pini1 +n2 > 0. Donc n1 + n2 ∈ A. Donc
d(i) divise n1 + n2 . (2.12)
Fixons n ∈ B. On a donc Pjnj > 0. En utilisant l’équation de Chapman et Kolmogorov à deux

reprises, on obtient
Piin1 +n+n2 ≥ Pijn1 Pjj
n n2
Pji > 0
et on conclut que n1 + n2 + n ∈ A. Donc
d(i) divise n1 + n2 + n. (2.13)
Ensemble, les équations (2.12) et (2.13) impliquent que
d(i) divise n.
On a donc montré que d(i) divise tous les entiers n ∈ B. Autrement dit, d(i) est un diviseur commun
de l’ensemble B. Puisque d(j) est le plus grand commun diviseur de l’ensemble B, on conclut que
d(i) ≤ d(j). De la même façon, on montre que d(j) ≤ d(i) et on conclut finalement que d(i) = d(j).
Dans le cas où la chaı̂ne de Markov (Xn ; n ≥ 0) est irréductible, le théorème précédent nous dit
que tous les états ont la même période. Dans ce cas, si la période commune à tous les états est d,
alors on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible de période d. Si d = 1, alors
on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible et apériodique. Cette terminologie
sera aussi utilisée pour décrire la matrice stochastique d’une telle chaı̂ne.
2.8 Chaı̂nes irréductibles et apériodiques

Les chaı̂nes de Markov qu’on rencontre en pratique sont souvent des chaı̂nes de Markov irréductibles
et apériodiques. Dans la présente section nous démontrons quelques résultats importants pour ce
type de chaı̂nes de Markov. Pour y arriver, nous aurons besoin du théorème suivant. Il s’agit d’un
résultat élémentaire classique en théorie des nombres. La démonstration est omise.
Théorème élémentaire de théorie des nombres : Soit A, un ensemble d’entiers positifs non
vide. Supposons que A est fermé pour l’addition et supposons que le plus grand commun diviseur
de l’ensemble A est 1. Alors il existe un entier positif m∗ tel que m ∈ A pour tout m ≥ m∗ .
44
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Revenons maintenant à nos chaı̂nes de Markov. Dans ce qui suit, P dénote comme d’habitude une
matrice stochastique sur l’espace d’états S.
Théorème 12. Si j est un état apériodique, alors il existe un entier positif m∗j tel que Pjj
m > 0
∗
pour tout m ≥ mj .
Démonstration. Fixons j ∈ S et posons A = {n ≥ 1 : Pjj n > 0}. Si j est apériodique, alors A
est non vide et son plus grand commun diviseur est égal à 1. On vérifie facilement que A est fermé
pour l’addition. En effet, si n1 ∈ A et n2 ∈ A, alors n1 + n2 ∈ A puisque
X
n1 +n2 n1 n2 n1 n2
Pjj = Pjℓ Pℓj ≥ Pjj Pjj > 0.
ℓ∈S
Le Théorème 12 est donc une simple conséquence du théorème de théorie des nombres.
Théorème 13. Si P est irréductible et apériodique, alors pour tout i et j dans S il existe un entier
positif nij tel que Pijn > 0 pour tout n ≥ nij .
Démonstration. Fixons i et j dans S. Puisque P est irréductible, on a i → j. Il existe donc un

n∗
entier positif n∗ij tel que Pij ij > 0. Puisque P est apériodique, l’état j est apériodique. Donc, d’après
le théorème précédent, il existe un entier positif m∗j tel que Pjj m > 0 pour tout m ≥ m∗ . Posons
j
nij = n∗ij + m∗j . Alors pour tout n ≥ nij on a
X n∗ n−n∗ij n∗ n−n∗ij
Pijn = Piℓ ij Pℓj ≥ Pij ij Pjj > 0.
ℓ∈S
Théorème 14. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ tel que
Pijn > 0 pout tout i ∈ S, j ∈ S et n ≥ n∗ . (2.14)
Démonstration. Le théorème précédent nous assure que pour chaque couple (i, j) ∈ S 2 il existe
un entier positif nij tel que Pijn > 0 pour tout n ≥ nij . L’équation (2.14) est alors satisfaite avec
n∗ = max nij .
i,j∈S
Il est important de noter que dans l’énoncé du Théorème 14 l’hypothèse selon laquelle S est un
ensemble fini est importante. Elle nous assure que maxi,j∈S nij < ∞. Le Théorème 14 ne tient pas
si on enlève l’hypothèse selon laquelle S est un ensemble fini. C’est le cas par exemple de la marche
aléatoire sur les entiers non négatifs avec réflexion amortie à 0. Il est facile de voir que pour cette
chaı̂ne de Markov la conclusion du Théorème 14 ne tient pas.
On termine la présente section avec un résultat qui va un peu plus loin que le Théorème 14.
Théorème 15. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ et un nombre réel c > 0 tels que
Pijn ≥ c pout tout i ∈ S, j ∈ S et n ≥ n∗ . (2.15)
45
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. D’après le Théorème 14, il existe un entier positif n∗ pour lequel l’équation (2.14)
est satisfaite. En particulier on a Pijn∗ > 0 pour tout i et j dans S. Posons
c = min Pijn∗ .
(i,j)∈S 2
Puisque S est un ensemble fini, on a c > 0. Avec ce choix de la constante c, on obtient, pour tout
n ≥ n∗ , X X X
Pijn = Piℓn−n∗ Pℓjn∗ ≥ Piℓn−n∗ c = c Piℓn−n∗ = c ∀i ∈ S, ∀j ∈ S.
ℓ∈S ℓ∈S ℓ∈S
L’équation (2.15) est donc satisfaite avec ces choix de n∗ et de c.
2.9 Récurrence
On considère une chaı̂ne de Markov (Xn ; n ≥ 0) à valeurs dans l’espace d’états S et avec matrice
stochastique P. Pour i ∈ S, on pose
fi = P[ Il existe un n ≥ 1 tel que Xn = i | X0 = i]

= P[∪∞
n=1 (Xn = i) | X0 = i].
La quantité fi est donc la probabilité conditionnelle de retour à l’état i sachant que la chaı̂ne est
démarrée à l’état i.
Définition. Si fi = 1, on dit que i est un état récurrent. Si fi < 1, on dit que i est un état
transitoire.
Dans certains cas, on peut calculer la probabilité fi sans trop de difficulté. Voici un exemple
élémentaire.
Exemple 10. Considérons le cas où l’espace des états S est l’ensemble de tous les entiers non
négatifs et supposons que les probabilités de transition sont données par

 3/4 si j = i
Pi,j = 1/4 si j = i + 1

0 sinon
pour tout i ≥ 0. Il est facile de voir qu’on a alors fi = 3/4 pour tout i ∈ S. Les états sont donc
tous transitoires.
En général il peut être difficile de calculer la probabilité fi . Mais ce qui nous intéresse c’est simple-
ment de pouvoir déterminer si fi = 1 (l’état i est récurrent) ou si fi < 1 (l’état i est transitoire).
Le théorème suivant nous donne un critère pour y arriver.
Rappelons que Ni représente le nombre total de visite à l’état i, c’est-à-dire

∞
X 1 si x ∈ A,
Ni = 1{i} (Xn ) avec la convention 1A (x) =
0 si x ∈
/ A.
n=0
46
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Si fi < 1, alors la propriété de Markov forte nous permet de conclure que la distribution condition-
nelle du nombre total de visites à l’état i sachant que X0 = i est la loi géométrique avec paramètre
1 − fi . On a donc, dans le cas fi < 1,
m−1
fi (1 − fi ) si m ∈ {1, 2, 3, ...},
P[Ni = m|X0 = i] =
0 si m ∈
/ {1, 2, 3, ...}.
Dans le cas où fi = 1, la propriété de Markov forte nous donne P[Ni = ∞|X0 = i] = 1. On a donc
le résultat suivant, valide autant dans le cas où fi < 1 que dans le cas où fi = 1.
Théorème 16.
1
E[Ni |X0 = i] = .
1 − fi
Le théorème suivant sera notre principal outil pour déterminer si un état est récurrent ou transitoire.
Théorème 17. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i, un
état. Alors, les trois conditions suivantes sont équivalentes :
(a) L’état i est récurrent,
P∞ n
(b) n=0 Pi i = ∞,
(c) E[Ni |X0 = i] = ∞.
P
Démonstration. Nous avons vu, à la section 2.6, que E[Ni |X0 = i] = ∞ n
n=0 Pi i . Les conditions
(b) et (c) sont donc équivalentes. Par ailleurs le Théorème 16 implique que les conditions (a) et (c)
sont équivalentes.
Exemple 11. Considérons le cas où l’espace des états S est un ensemble fini et où P est irréductible
et apériodique. D’après le Théorème 15, il existe un entier r ≥ 1 et un réel c > 0 tels que
n
Pi,j ≥c ∀i ∈ S, ∀j ∈ S, ∀n ≥ r.
En particulier, pour tout i ∈ S on obtient

∞
X ∞
X ∞
X
Pini ≥ Pini = c = ∞.
n=0 n=r n=r
Les états sont donc tous récurrents.

Le résultat suivant montre que tout comme la périodicité, la récurrence est une propriété de classe :
Théorème 18. Supposons que i ↔ j. Alors i est récurrent si et seulement si j est récurrent.
Démonstration. Fixons i et j, des états qui communiquent entre eux et supposons que i est un
état récurrent. Puisque i et j communiquent, il existe un entier n1 ≥ 0 tel que Pjni1 > 0 et il
n2
P∞ unmentier n2 ≥ 0 tel que Pi j > 0. Puisque i est récurrent, le Théorème 17 nous dit que
existe
m=0 Pi i = ∞. On obtient donc
47
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X ∞
X
Pjnj ≥ Pjnj
n=0 n=n1 +n2
X∞
= Pjnj1 +m+n2
m=0
∞ ∞
!
X X
≥ Pjni1 Pimi Pinj2 = Pjni1 Pimi Pinj2
m=0 m=0
P∞
Puisque Pjni1 > 0, Pinj2 > 0 et m
m=0 Pi i = ∞, on conclut que
∞
X
Pjnj = ∞.
n=0
L’état j est donc, en vertu du Théorème 17, un état récurrent.
2.10 Rérurrence positive et récurrence nulle

La notion de récurrence peut aussi être exprimée avec l’aide de la variable aléatoire
(
∗
min{n ≥ 1 | Xn = i} si {n ≥ 1 | Xn = i} 6= ∅,
Ti =
∞ si {n ≥ 1 | Xn = i} = ∅.
En effet, le résultat suivant est une conséquence immédiate de la définition de récurrence donnée à
la section précédente :
Théorème 18. L’état i est récurrent si et seulement si P[Ti∗ < ∞ | X0 = i] = 1.
La classification suivante jouera un rôle important lorsque nous étudierons les notions de loi sta-
tionnaire et de convergence des chaı̂nes de Markov.
Définition. Soit i, un état récurrent. Si E[Ti∗ | X0 = i] < ∞, on dit que l’état i est récurrent positif.
Si E[Ti∗ | X0 = i] = ∞, on dit que l’état i est récurrent nul.
Suivant la tradition, on pose

mi = E[Ti∗ | X0 = i].
Le choix de la lettre m vient de l’anglais ; mi est le mean return time to state i. La terminologie
récurrence positive et récurrence nulle peut être justifiée de la façon suivante. Nous verrons plus
tard que sous certaines conditions la quantité 1/mi représente la proportion de temps que la chaı̂ne
de Markov passe à l’état i à la longue. Si mi < ∞, alors 1/mi > 0, donc récurrence positive. Si
mi = ∞, alors 1/mi = 0, donc récurrence nulle.
Le théorème suivant montre que la propriété de récurrence positive est aussi une propriété de classe.
Théorème 19. Si i est un état récurrent positif et si i ↔ j, alors j est aussi un état récurrent
positif.
48
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. On fixe i et j dans S et on suppose que i est récurrent positif et que i ↔ j.

Le Théorème 18 nous assure que j est récurrent. On veut montrer que E[Tj∗ | X0 = j] < ∞. On
procède en 3 étapes. Pour simplifier la démonstration, on suppose que
P[Ti∗ < Tj∗ | X0 = i] > 0 et P[Tj∗ < Ti∗ | X0 = i] > 0. (2.16)
Notez que puisque les états i et j communiquent et sont récurrents, on a forcément P[Tj∗ <
Ti∗ | X0 = i] > 0. Toutefois on n’a pas nécessairement P[Ti∗ < Tj∗ | X0 = i] > 0. Pour compléter la
démonstration du Théorème 19, il faudrait traiter séparément le cas où P[Ti∗ < Tj∗ | X0 = i] = 0.
Ce n’est pas très difficile et les détails ne seront pas présentés ici.
Étape 1. Par hypothèse on a E[Ti∗ | X0 = i] < ∞. Combiné avec la condition (2.16) et le fait que
E[Ti∗ | X0 = i] = E[Ti∗ | X0 = i, Ti∗ < Tj∗ ] P[Ti∗ < Tj∗ | X0 = i]

+ E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] P[Tj∗ < Ti∗ | X0 = i]
on conclut que
E[Ti∗ | X0 = i, Ti∗ < Tj∗ ] < ∞ et E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] < ∞. (2.17)
Étape 2. Supposons qu’on démarre la chaı̂ne à l’état i et qu’on atteint l’état j avant notre premier
retour à l’état i. La propriété de Markov forte nous dit qu’une fois rendu à j, c’est comme si on
recommeçait à neuf à partir de l’état j, indépendamment du passé. On a donc
E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] = E[Tj∗ + (Ti∗ − Tj∗ ) | X0 = i, Tj∗ < Ti∗ ]
= E[Tj∗ | X0 = i, Tj∗ < Ti∗ ] + E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ]
> E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ] = E[Ti∗ | X0 = j].
On a donc
E[Ti∗ | X0 = j] < E[Ti∗ | X0 = i, Tj∗ < Ti∗ ].
On a vu à l’étape 1 que le terme de droite de cette dernière équation est fini. On conclut que
E[Ti∗ | X0 = j] < ∞. (2.18)
Étape 3. Si on démarre à l’état j, alors on peut borner supérieurement le temps de retour à l’état
j de la façon suivante :
Tj∗ ≤ Ti∗ + U1 + U2 + · · · + UN + V.
Ici V est la durée la première excursion de i à i qui passe par j et U1 , U2 , ..., UN sont les durées
des excursions de i à i qui ne passe pas par j et qui surviennent avant la première excursion de i
à i passant par j. Ici N est une variable aléatoire avec loi géométrique sur le entiers non négatifs.
Grâce à la propriété de Markov forte, on obtient
E[Tj∗ | X0 = j] ≤ E[Ti∗ + U1 + U2 + · · · + UN + V | X0 = j]
= E[Ti∗ | X0 = j] + E[N ] E[U1 ] + E[V ].
L’étape 2 nous donne E[Ti∗ | X0 = j] < ∞ et l’étape 1 nous donne E[U1 ] < ∞ et E[V ] < ∞. On a
donc E[Tj∗ | X0 = j] < ∞. L’état j est donc récurrent positif.
49
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Considérons le cas particulier d’une chaı̂ne de Markov irréductible et apériodique sur un espace
d’états fini. On a vu à l’exemple 11 que dans ce cas tous les états sont récurrents. Le théorème
suivant va un peu plus loin.
Théorème 20. Si P est irréductible et apériodique et si S est un ensemble fini, alors tous les états
sont récurrents positifs.
Démonstration. Fixons io ∈ S. On doit montrer que E[Ti∗o | X0 = io ] < ∞. D’après le Théorème

15, il existe un entier n∗ et un réel c > 0 qui sont tels que Pijn∗ ≥ c pour tout i et j dans S. Divisons
l’axe du temps en blocs de longueur n∗ de la façon suivante :
• Premier bloc : les temps 1, 2, ..., n∗ .
• Deuxième bloc : les temps n∗ + 1, n∗ + 2, ..., 2n∗ .
• Troisième bloc : les temps 2n∗ + 1, 2n∗ + 2, ..., 3n∗ .
Etc.
La condition Pijn∗ ≥ c pour tout i et j dans S nous assure que
• peu importe où on est au temps 0, la probabilité d’être à io au temps n∗ est au moins c ;
• peu importe où on est au temps n∗ , la probabilité d’être à io au temps 2n∗ est au moins c ;
• peu importe où on est au temps 2n∗ , la probabilité d’être à io au temps 3n∗ est au moins c ;
etc.
Donc, si on pose
M = le plus petit entier m pour lequel on a Xmn∗ = io
alors on a P[M > k | X0 = io ] ≤ (1 − c)k . Il s’ensuit que
∞
X ∞
X
E[M | X0 = io ] = P[M > k | X0 = io ] ≤ (1 − c)k < ∞.
k=0 k=0
Or on a Ti∗o ≤ n∗ M . On obtient donc
E[Ti∗o | X0 = io ] ≤ E[n∗ M | X0 = io ] = n∗ E[M | X0 = io ] < ∞.
Remarque. La conclusion du Théorème 20 est valide même dans le cas périodique. Mais pour la
démonstration il faut invoquer une version du Théorème 15 pour les chaı̂nes de Markov périodiques.
Nous nous concentrons ici sur le cas apériodique.
Chaı̂ne ergodique. Une chaı̂ne de Markov est dite ergodique si elle est irréductible, apériodique
et récurrente positive. Nous verrons au chapitre 4 que les chaı̂nes de Markov ergodiques possèdent
des propriétés asymptotiques remarquables.
50
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 1. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec espace d’états S = {1, 2, 3}, avec loi
initiale ν = (1/4, 1/2, 1/4) et avec probabilités de transition données par la matrice stochastique
suivante :  
0.1 0.2 0.7
P =  0.3 0.3 0.4 
0.1 0.1 0.8
(a) Dessinez le graphe de communication.
(b) Obtenez P[X4 = 3 | X0 = 1, X1 = 1, X2 = 2, X3 = 1].
(c) Obtenez P[X2 = 2 | X0 = 1].
(d) Obtenez P[X2 = 2].
(e) Obtenez P[X0 = 2, X1 = 2, X2 = 1, X3 = 3].
Numéro 2. On dispose de 4 boules rouges et 4 boules noires. On dispose également de deux urnes ;
l’urne A et l’urne B. Au temps 0, ces 8 boules sont sur la table. Parmi les 8 boules, on en choisit 4
au hasard et on les met dans l’urne A. On met les 4 autres boules dans l’urne B. Ensuite, à chaque
étape, on choisit une boule au hasard dans l’urne A et on l’échange avec une boule choisie au hasard
dans l’urne B. On s’intéresse à la suite de variables aléatoires (Xn ; n ≥ 0), où Xn dénote le nombre
de boules rouges dans l’urne A après n étapes. Pourquoi cette suite de variables aléatoires est-elle
une chaı̂ne de Markov ? Quelle est la loi initiale de cette chaı̂ne de Markov ? Quelle est la matrice
des probabilités de transition de cette chaı̂ne de Markov ? Dessinez le graphe de communication.
La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?
Numéro 3. Au temps 0, un panier contient 3 boules rouges et 3 boules noires. À chaque unité de
temps, on choisit 2 boules au hasard parmi les 6 boules du panier. Si la paire choisie comprend une
rouge et une noire, on met ces 2 boules de côté et on les remplace dans le panier par 2 boules bleues.
Si la paire choisie ne comprend pas une rouge et une noire, on remet ces 2 boules dans le panier. On
pose Xn = le nombre de boules rouges dans le panier au temps n. La suite (X0 , X1 , X2 , ...) est une
chaı̂ne de Markov. Quel est l’espace des états ? Quelle est la loi initiale ? Obtenez la matrice des
probabilités de transition. Dessinez le graphe de communication. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ? Obtenez la distribution de X3 .
Numéro 4. On considère 2 individus. Il sont tous les deux de génotype aA. Ces deux individus
auront 2 enfants qui constitueront la génération suivante. Chaque enfant reçoit un gène de chaque
parent. Ainsi, chaque génération est constituée de deux individus. Ces deux individus auront deux
enfants qui formeront la génération suivante. On pose Xn = l’ensemble des génotypes présents à la
génération n. L’espace des états est donc
S = {{aa}, {aA}, {AA}, {aa, aA}, {aa, AA}, {aA, AA}}.
Quelle est la loi initiale ? Obtenez la matrice des probabilités de transition. Dessinez le graphe de
communication. La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?
Calculez P [X1 = {aa, AA}, X2 = {aA}, X3 = {aa}].
51
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 5. Voici une version élémentaire du jeu des serpents et des échelles. L’échiquier est de
dimension 3 par 3. Il y a donc 9 cases numérotées de 1 à 9. Il y a deux échelles : une qui va de la
case 2 à la case 7 et une qui va de la case 3 à la case 5. Il y a deux serpents : un qui va de la case 6
à la case 1 et un qui va de la case 8 à la case 4. On joue avec une pièce de monnaie au lieu d’un dé.
Avec Pile, on avance de une case, avec Face on avance de deux cases. La position d’un joueur après
n lancers peut être décrite à l’aide d’une chaı̂ne de Markov. Expliquez comment. Quel est votre
espace d’états ? Obtenez la matrice des probabilités de transition. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ?
Numéro 6. Un village compte m individus. Ces individus sont tous des solitaires. Ils se promènent
dans le village. Certains individus sont des zombies, d’autres sont en santé. À chaque unité de temps,
deux individus se rencontrent. Les m 2 choix possibles sont équiprobables. Si ces deux individus sont
tous les deux des zombies ou tous les deux des individus en santé, rien ne se produit. Si un des deux
est un zombie et l’autre est en santé, l’individu en santé a une probabilité p de se faire mordre et de
devenir un zombie. Les zombies demeurent des zombies pour toujours. On pose Xn = le nombre de
zombies après les n premières rencontres. Obtenez la matrice stochastique de la chaı̂ne de Markov
(Xn ; n ≥ 0). La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ? Dans
le cas où m = 20 et p = 2/5, calculez P[(X1 , X2 , X3 , X4 ) = (7, 8, 8, 9)|X0 = 6].
Numéro 7. Suite problème numéro 6. Supposons qu’au temps 0 la population compte 1 zombie et
m − 1 individus en santé. Posons
T = min{n ≥ 0 : Xn = m}.
Ce T est donc le temps que ça prendra, c’est-à-dire le nombre de rencontres que ça prendra, pour
que toute la population soit transformée en zombies.
(a) Obtenez une expression aussi simple que possible, en termes de p et N , pour E[T ].
(b) Optionnel. Montrez que
E[T ] 1
lim = .
m→∞m log(m) p
P −1
Suggestion pour la partie (a) : Écrivez T sous la forme T = N i=1 (Vi+1 − Vi ) avec Vi = min{n ≥
0 : Xn = i}. Quelle est la distribution de la variable Vi+1 − Vi ?
Numéro 8. On considère une séquence de lancers d’un dé ordinaire. On pose S(0) = 0 et, pour
chaque entier k ≥ 1, on pose S(k) = la somme des résultats des k premiers lancers. Pour chaque
entier n ≥ 0, on pose Xn = S(Kn ) − n avec Kn = min{k ≥ 0 : Sk ≥ n}. La suite (Xn ; n ≥ 0) est
une chaı̂ne de Markov.
(a) Quel est l’espace des états de cette chaı̂ne de Markov ?
(b) Quelle est la loi initiale ?
(c) Quelle est la matrice des probabilités de transition ?
(d) Dessinez le graphe de communication.
(e) Voici, dans l’ordre, les résultats des 9 premiers lancers : 6, 3, 5, 1, 6, 2, 4, 5, 2. Dessinez la
trajectoire (Xn ; 0 ≤ n ≤ 30).
Numéro 9. Soit P, une matrice stochastique sur S. Montrez que si on a, pour un certain entier
positif r, Pijr > 0 pour tout i ∈ S et j ∈ S, alors on a Pijn > 0 pour tout i ∈ S et j ∈ S et pour tout
n ≥ r.
52
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 10. On suppose que Y−1 , Y0 , Y1 , Y2 , Y3 , ... sont i.i.d. Bernoulli(1/2) et, pour n ≥ 0, on
pose Xn = Yn−1 + Yn . Exemple : les Yj représentent les résultats de lancers d’une pièce de monnaie
(pile = 1 et face = 0) et Xn représente le nombre de piles lors des deux derniers lancers. La suite
(Xn ; n ≥ 0) est-elle une chaı̂ne de Markov ? Si oui, donnez l’espace des états, la loi initiale et la
matrice des probabilités de transition. Si non, expliquez pourquoi.
Numéro 11. Dans chacun des cas suivants dessinez le graphe de communication et identifiez les
classes de communication de la matrice stochastique P. La chaı̂ne est-elle irréductible ? Y a-t-il des
classes absorbantes ? Y a-t-il des états absorbants ?
(a) L’espace des états est N0 = {0, 1, 2, 3, ...} et les probabilités de transition sont données par
les équations suivantes : Pij = 3/4 si j = i + 1 et Pij = 1/4 si j = i.
(b) L’espace des états est S = {1, 2, 3, 4, 5, 6} et la matrice des probabilités de transition est
 
0 1/3 1/3 1/3 0 0
 0 1 0 0 0 0 
 
 0 0 1/2 0 1/2 0 
P=  0 0

 0 0 0 1 

 0 0 1/2 0 1/2 0 
1 0 0 0 0 0
(c) L’espace des états est Z = {...−2, −1, 0, 1, 2, ...} et les probabilités de transition sont données
par les équations suivantes : P0,1 = 1 et...
• Si i ∈ {1, 2, 3, ....}, alors


 1/100 si j =i−1

1/100 si j =i
Pi,j =

 97/100 si j =i+1

1/100 si j = −i
• Si i ∈ {... − 3, −2, −1} et si i n’est pas un multiple de 5, alors Pi,−i = 1.

• Si i ∈ {... − 25, −20, −15, −10, −5}, alors Pi,i = 1.
(d) L’espace des états est Z = {...−2, −1, 0, 1, 2, ...} et les probabilités de transition sont données
par les équations suivantes : P0,1 = 1 et...
• Si i ∈ {1, 2, 3, ....} et si i n’est pas un multiple de 5, alors


 1/100 si j =i−1

1/100 si j =i
Pi,j =

 97/100 si j =i+1

1/100 si j = −i
• Si i ∈ {5, 10, 15, 20, 25, ....}, alors


 2/100 si j = i
Pi,j = 97/100 si j = i + 1

1/100 si j = −i
• Si i ∈ {... − 3, −2, −1} et si i n’est pas un multiple de 5, alors Pi,−i = 1.

• Si i ∈ {... − 25, −20, −15, −10, −5}, alors Pi,i = 1.
53
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 12. L’espace des états est S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13} et la matrice des pro-
babilités de transition est
 
0 1/3 0 1/3 0 0 0 0 0 1/3 0 0 0
 0 0 1 0 0 0 0 0 0 0 0 0 0 
 
 1 0 0 0 0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 1 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 1 0 0 0 0 0 0 0 
 
 
 0 0 0 0 0 0 1 0 0 0 0 0 0 
 
P= 0 0 0 0 0 0 0 1 0 0 0 0 0 
 
 0 0 0 0 0 0 0 0 1 0 0 0 0 
 
 1 0 0 0 0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 0 0 0 0 0 1/2 0 1/2 
 
 0 0 0 0 0 0 0 0 0 1/2 0 1/2 0 
 
 0 0 0 0 0 0 0 0 0 0 1/2 0 1/2 
0 0 0 0 0 0 0 0 0 1/2 0 1/2 0
Déterminez les classes de communication. Pour chaque classe de communication, déterminez la

période. Si la période est supérieure à 1, déterminez les sous-classes cycliques.
Numéro 13. On considère une chaı̂ne de Markov avec matrice stochastique P sur un espace d’états
fini S de cardinal, disons, m. On fixe i et j dans S, avec i 6= j. Montrez que si il existe un entier
n ≥ 1 tel que Pijn > 0, alors forcément il existe un entier 1 ≤ no < m tel que Pijno > 0.
Numéro 14. On suppose que les hypothèses suivantes sont valides pour le centre-ville de Vancou-
ver :
(i) Si il a plu hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.75.
(ii) Si il a fait beau hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.55.
(iii) Si il a plu hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est 0.25.
(iv) Si il a fait beau hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est
0.15.
Avec ces informations, expliquer comment on peut modéliser l’évolution de la météo au centre-ville
de Vancouver avec l’aide d’une chaı̂ne de Markov. Spécifiez l’espace des états et la matrice des
probabilités de transition.
Numéro 15. On considère le modèle de Ehrenfest avec m boules et avec Xn = le nombre de boules
dans l’urne A au temps n. On fixe 0 ≤ k ≤ m et on pose µn = E[Xn | X0 = k].
(a) En conditionnant sur Xn , montrez que µn+1 = 1 + (1 − 2/m)µn .
(b) Avec l’aide du résultat de la partie (a), exprimez µn sous une forme compacte en termes de
ℓ
n, m et k. Rappel : 1 + r + r 2 + r 3 + · · · + r ℓ−1 = 1−r
1−r .
(c) Utilisez le résultat de la partie (b) pour obtenir limn→∞ µn .
54
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 16.
(a) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −1/i2
 e si j = i + 1
2
Pij = 1 − e−1/i si j = 1

0 sinon
(i) Montrez que cette chaı̂ne est irréductible et apériodique.

(ii) Montrez que cette chaı̂ne est transitoire.
(iii) Si on démarre à l’état 1, quelle est la distribution du nombre total de visites à l’état 1
durant la vie entière de cette chaı̂ne de Markov ?
(b) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −1/i
 e si j = i + 1
Pij = 1 − e−1/i si j = 1

0 sinon

(ii) Montrez que cette chaı̂ne est récurrente nulle.
(c) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −2/i
 e si j = i + 1
Pij = 1−e −2/i si j = 1

0 sinon

(ii) Montrez que cette chaı̂ne est récurrente positive.
P P∞
Indices : Il est pratique de savoir que ∞ k=1 1/k = ∞ et
2
k=1 1/k < ∞. Pour déterminer si c’est
récurrent ou transitoire, essayez un calcul direct de 1 − f1 , la probabilité de ne jamais retourner à
l’état 1 sachant qu’on démarre à l’état 1. Pour la partie (ii) des numéros (b) et
P(c), essayez de calculer
∞
directement m1 . Pour y arriver, utilisez la formule m1P = E[T1 |X0 = 1] = k=1 P[T1∗ ≥ k|X0 = 1]
∗
plutôt que la formule usuelle m1 = E[T1 |X0 = 1] = ∞

∗ ∗
k=1 k P[T1 = k|X0 = 1]. Enfin, comparez
Pk 1
j=1 j avec log(k).
55
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
56
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 3
Marches aléatoires
Dans le présent chapitre nous étudions un type particulier de chaı̂ne de Markov à temps discret :
les marches aléatoires. Ceci nous permettra d’illustrer plusieurs concepts étudiés au chapitre 2.
3.1 La marche aléatoire sur Z

Une particule se déplace sur l’ensemble des entiers relatifs Z. Au temps 0, la particule se trouve à
l’origine. À chaque unité de temps, la particule se déplace vers un des deux sites voisins : vers la
droite avec probabilité p, vers la gauche avec probabilité 1 − p. On suppose ici que 0 < p < 1. Le
cas p = 0 et le cas p = 1 sont sans intérêt. Si on pose
Xn = la position de la particule après n déplacements,
alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur Z, issue de l’origine et avec matrice
stochastique donnée par 
 p si j = i + 1,
Pij = 1 − p si j = i − 1,

0 si j ∈
/ {i − 1, i + 1}.
Cette chaı̂ne de Markov est appelée la marche aléatoire sur Z. Si p = 1/2, on dit que la marche
aléatoire est symétrique. Si p > 1/2, on dit qu’il y a dérive vers la droite alors que si p < 1/2 on
dit qu’il y a dérive vers la gauche. Avec la description ci-dessus, notre marche aléatoire est dite
issu de l’origine. On peut bien sûr considérer le cas où la marche aléatoire démarre à partir d’un
autre point ainsi que le cas où elle démarre à partir d’un point choisi au hasard selon une certaine
distribution de probabilité sur Z.
En examinant son graphe de communication, on constate que cette chaı̂ne de Markov est irréductible
et qu’elle est de période 2. La chaı̂ne étant irréductible, le Théorème 18 du chapitre 2 nous assure
que les états sont ou bien tous récurrents, ou bien tous transitoires. Examinons ce qui se passe avec
l’état 0. Pour déterminer
P∞si nous sommes dans le Pcas récurrent ou dans le cas transitoire, il suffit
n ∞ n < ∞.
de déterminer si on a n=0 P00 = ∞ ou si on a n=0 P00
n > 0 si
En examinant le graphe de communication de cette marche aléatoire, on constate que P00
et seulement si n est un entier pair. On obtient donc
∞
X ∞
X
n 2n
P00 = P00 .
n=0 n=0
57
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Si la marche aléatoire est à l’origine au temps zéro, alors elle sera à l’origine au temps 2n si et
seulement si il y a, parmi les 2n premiers pas, exactement n pas vers la droite et n pas vers la
gauche. Il y a en tout 2nn trajectoires différentes, de longueur 2n, avec n pas vers la droite et n
pas vers la gauche. Chacune de ces trajectoires a une probabilité égale à pn (1 − p)n . On a donc

2n 2n n
P00 = p (1 − p)n ,
n
de sorte que
∞ ∞ ∞ ∞
X
n
X
2n
X 2n n n
X (2n)!
P00 = P00 = p (1 − p) = (p (1 − p))n .
n n! n!
n=0 n=0 n=0 n=0
Est-ce que cette somme converge ou est-ce qu’elle diverge ? Pour répondre à cette question, nous
allons invoquer la formule de Stirling. Cette formule, habituellement écrite sous la forme suivante
√
n! ∼ nn e−n 2πn, (3.1)
√
nous dit que n! est asymptotiquement équivalent à nn e−n 2πn. Le sens précis de l’équation (3.1)
est le suivant :
n!
lim √ = 1.
n→∞ n en −n 2πn
En appliquant 3 fois la formule de Stirling, on obtient
√
2n (2n)! (2n)2n e−2n 2π2n 22n
= ∼ √ √ =√ .
n n! n! nn e−n 2πn nn e−n 2πn πn
On a donc
2n 2n n 22n (4p (1 − p))n
P00 = p (1 − p)n ∼ √ (p (1 − p))n = √ .
n πn πn
On a donc obtenu le résultat suivant.
Proposition 1. Pour la marche aléatoire sur Z, on a

2n 2n n (4p (1 − p))n
P00 = p (1 − p)n ∼ √ . (3.2)
n πn
En particulier, pour la marche aléatoire symétrique sur Z, on a

2n
2n 1
P00 = n2n ∼ √ . (3.3)
2 πn
Pour la suite nous aurons besoin du résultat suivant.
Proposition 2. Si (an ; n ≥ 1) et (bn ; n ≥ 1) sont des suites de nombres réels positifs et si an ∼ bn

alors on a
X∞ X∞
an < ∞ si et seulement si bn < ∞.
n=1 n=1
58
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P∞
Démonstration. P∞ La démonstration se fait en deux partie. D’une part
P∞ on montre que si Pn=1 an
∞
converge, alors n=1 bn converge. D’autre part on montre que si n=1 an diverge, alors n=1 bn
diverge. Rappelons d’abord que notre hypothèse an ∼ bb signifie que limn→∞ abnn = 1. Cela implique,
entre autres choses, qu’il existe un entier n∗ tel que
1 an
≤ ≤ 2 pour tout n ≥ n∗ . (3.4)
2 bn
P
Première partie. Supposons que ∞ n=1 an < ∞. La première inégalité de l’équation (3.4) nous
donne bn ≤ 2an pour tout n ≥ n∗ et on obtient donc
∞
X nX
∗ −1 ∞
X nX
∗ −1 ∞
X
bn = bn + bn ≤ bn + 2 an < ∞.
n=1 n=1 n=n∗ n=1 n=n∗
P
Deuxième partie. Supposons que ∞ n=1 an = ∞. La deuxième inégalité de l’équation (3.4) nous
donne bn ≥ an /2 pour tout n ≥ n∗ et on obtient donc
∞ ∞ ∞
X X 1 X
bn ≥ bn ≥ an = ∞.
n=n∗
2 n=n
n=1 ∗
Ceci complète la démonstration de la Proposition 2.
Revenons à notre marche aléatoire. D’après les deux propositions ci-dessus, on a

∞ ∞
X
2n
X (4p (1 − p))n
P00 <∞ si et seulement si √ < ∞.
n=0 n=1
πn
Dans le cas où p = 1/2, on obtient

∞ ∞ ∞
X (4p (1 − p))n X 1 1 X 1
√ = √ =√ √ = ∞.
n=1
πn n=1
πn π n=1 n
P∞ 2n
Donc, dans le cas où p = 1/2 on a n=0 P00 = ∞. On conclut que la marche aléatoire symétrique
sur Z est récurrente.
Dans le cas où p 6= 1/2, on a 0 ≤ 4p(1 − p) < 1 et on obtient
∞ ∞
X (4p (1 − p))n X
√ < (4p (1 − p))n < ∞.
n=1
πn n=1
P
Donc dans le cas où p 6= 1/2 on a ∞ 2n
n=0 P00 < ∞. On conclut que la marche aléatoire asymétrique
sur Z est transitoire. On a donc démontré le théorème suivant :
Théorème 1. Dans le cas symétrique, la marche aléatoire sur Z est récurrente. Dans le cas
asymétrique elle est transitoire.
Remarque. Comme on a pu le voir dans les paragraphes précédents, la récurrence de la marche

aléatoire symétrique sur Z est une conséquence de l’équation (3.3). Voici comment on aurait pu devi-
ner le résultat (3.3) avec l’aide du théorème limite central. On note d’abord qu’on peut représenter
59
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
la marche aléatoire symétrique sur Z de la façon suivante. On se donne une suite de variables
aléatoires indépendantes et identiquement distribuées, disons ξ1 , ξ2 , ξ3 , ..., avec distribution
P[ξi = 1] = 1/2 et P[ξi = −1] = 1/2,
et on pose
0P si n = 0
Xn = n
j=1 ξj si n ≥ 1.
La suite (Xn ; n ≥ 0) est alors une marche aléatoire symétrique sur Z, issue de l’origine. Avec cette
représentation, on a  
X2n
2n
P00 = P[X2n = 0 | X0 = 0] = P  ξj = 0 .
j=1
Les variables ξj étant i.i.d. avec moyenne 0 et variance

P 1, le théorème limite central nous dit que
si n est grand alors la distribution de la variable 2n
j=1 j peut être approximée par la loi N (0, 2n).
ξ
Avec correction pour la continuité, on obtient
 
2n Z 1
2n
X 1 2 1 1
P00 = P ξj = 0 ≈ √ e−x /4n dx ≈ 2 × √ = √ .
−1 4πn 4πn πn
j=1
3.2 La marche aléatoire sur Zd

À la section 3.1, nous avons étudié la marche aléatoire sur Z. On peut également étudier la marche
aléatoire sur Zd , où d est un entier supérieur à 1. Nous allons nous limiter au cas symétrique.
Pour la marche aléatoire symétrique sur Z2 , la particule démarre au point (0, 0). À chaque unité
de temps la particule se déplace vers un des quatre sites adjacents, chaque direction ayant la même
probabilité 1/4 d’être choisie. Dans le cas d = 3, chaque état possède six voisins. La particule
démarre au point (0, 0, 0) et à chaque unité de temps elle se déplace vers un des six sites adjacents,
chaque direction ayant la même probabilité 1/6 d’être choisie. Dans Zd chaque état possède 2d
voisins. Par exemple, dans Z5 , les 10 voisins de l’état (8, 3, −2, 7, 28) sont les états
(8, 3, −2, 7, 29) (8, 3, −2, 8, 28) (8, 3, −1, 7, 28) (8, 4, −2, 7, 28) (9, 3, −2, 7, 28)
(8, 3, −2, 7, 27) (8, 3, −2, 6, 28) (8, 3, −3, 7, 28) (8, 2, −2, 7, 28) (7, 3, −2, 7, 28)
Plus généralement, les voisins du point (j1 , j2 , ..., jd ) ∈ Zd sont les 2d points de Zd qui diffèrent du
point (j1 , j2 , ..., jd ) en une seule coordonnée et pour lesquels la valeur absolue de cette différence
est égale à 1. À chaque unité de temps, la marche aléatoire effectue une transition vers un des
2d états voisins. Ces transitions se font avec probabilité 1/(2d) pour chacune des 2d directions
possibles. La matrice stochastique associée à la marche aléatoire symétrique sur Zd est donc la
matrice P = (Pij ; i ∈ Zd , j ∈ Zd ), avec
(
1
2d si |i − j| = 1
Pij =
0 si |i − j| 6= 1.
Ici, |i − j| dénote la distance euclidienne entre les points i et j.
Voici un résultat fondamental en théorie des processus aléatoires.
60
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 2. [Polya 1922]

La marche aléatoire sur Zd est récurrente si d = 1 ou d = 2. Elle est transitoire si d ≥ 3.
Démonstration. Le cas d = 1 a été traité à la section 3.1. Considérons le cas d = 2. Écrivons

2n , plutôt que P 2n
P00 (0,0)(0,0) , pour dénoter la probabilité conditionnelle P[X2n = (0, 0) | X0 = (0, 0)].
2n
On calcule ce P00 en procédant comme à la section 3.1. Pour être de retour à l’origine après 2n
pas, il faut que le nombre de pas vers la droite soit égal au nombre de pas vers la gauche et il faut
que le nombre de pas vers le haut soit égal au nombre de pas vers le bas. Imaginez une trajectoire
de longueur 2n qui démarre au point (0, 0) et qui se termine au point (0, 0). Si cette trajectoire
comprend k pas vers la droite, alors forcément elle comprend k pas vers la gauche, n − k pas vers le
haut et n − k pas vers le bas. Le nombre total de trajectoires de ce type est donné par le coefficient
multinomial
(2n)!
.
k!k!(n − k)!(n − k)!
Les valeurs possibles de k sont les entiers 0, 1, 2, 3, ..., n. Chaque trajectoire a une probabilité égale
à 1/42n . On obtient donc
n
2n
X (2n)! 1
P00 =
k!k!(n − k)!(n − k)! 42n
k=0
n
1 (2n)! X n!n!
= 2n
4 n!n! k!k!(n − k)!(n − k)!
k=0

2n X n 2
n n
=
42n k
k=0
2n 2 !2 2n
n n
= =
42n 22n
P 2
Pour l’avant dernière égalité, on a utilisé l’identité combinatoire bien connue nk=0 nk = 2n n .
La deuxième partie de l’équation (3.3) nous permet donc de conclure que pour la marche aléatoire
symétrique sur Z2 on a
!
2n 2
2n n 1
P00 = 2n
∼ . (3.5)
2 πn
P P2n
Puisque la série ∞ 1
n=1 n diverge, on conclut que la série
2n
n=0 P00 diverge. On a donc récurrence.
À la lumière des équations (3.3) et (3.5), on pourrait être tenté de croire que pour la marche
aléatoire symétrique sur Zd on a
!d
2n
2n n 1
P00 = ∼ .
22n (πn)d/2
Attention, cette généralisation ne tient pas ! En réalité, l’égalité ci-dessus est valide seulement dans
le cas d = 1 et dans le cas d = 2. Par ailleurs, le résultat suivant est vraie pour tout d ≥ 1 :
2n dd/2 /2d−1
P00 ∼ . (3.6)
(πn)d/2
61
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On peut obtenir le résultat (3.6) à partir de la version multi-dimensionnelle du théorème limite

central, comme on a fait pour le cas d = 1 à la fin de la section 3.1.
P∞ 1 P∞ 2n
Avec d ≥ 3, la série n=1 nd/2 converge ! Donc, avec d ≥ 3, la série n=0 P00 converge et on
conclut que la marche aléatoire symétrique sur Zd est transitoire lorsque d ≥ 3.
Remarque. Prenons le cas d = 3. Le théorème de Polya nous dit que la marche aléatoire symétrique
sur Z3 est transitoire. Donc, partant de l’origine il n’est pas certain que nous reviendrons un jour
à l’origine. Mais alors, quelle est la probabilité de retour à l’origine ? Il existe une formule très
compliquée qui permet de calculer cette probabilité. Cette formule nous donne f0 = 0.340537330...
3.3 La marche aléatoire sur {0, 1, 2, ..., m}

Nous reprenons ici l’exemple 2 de la section 2 du chapitre 2 : la marche aléatoire (Xn ; n ≥ 0)
sur l’ensemble {0, 1, 2, ..., m}. Pour fixer les idées, on suppose ici que les frontières 0 et m sont
absorbantes. La matrice des probabilités de transition est donc la matrice stochastique suivante. Il
s’agit bien sûr d’une matrice carrée de dimension m + 1 par m + 1.
 
1 0 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p · · · 0 0 0 

P=
 0 0 1 − p 0 ··· 0 0 0  .
 .. .. .. .. .. .. .. 
 . . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 0 1
On suppose que 0 < p < 1. Dans ce cas, il y a 3 classes de communication. Ce sont les ensembles
{0}, {1, 2, ..., m − 1} et {m}. La classe {1, 2, ..., m − 1} est transitoire et les états 0 et m sont
absorbants. Considérons les temps

min{n ≥ 0 : Xn = 0} si {n ≥ 0 : Xn = 0} 6= ∅
T0 =
∞ sinon,

min{n ≥ 0 : Xn = m} si {n ≥ 0 : Xn = m} 6= ∅
Tm =
∞ sinon,
T{0,m} = min{T0 , Tm }.
Il est facile de montrer que pour tout k ∈ {0, 1, 2, ..., m} on a
P[T{0,m} < ∞ | X0 = k] = 1. (3.7)
Imaginez que notre marche aléatoire est obtenue de la façon suivante. On démarre à l’état k. À
chaque unité de temps, on lance une pièce de monnaie dont la probabilité de pile est p. Si on obtient
pile, on fait un pas vers la droite (à moins d’être déjà rendu à l’état m). Si on obtient face, on
fait un pas vers la gauche (à moins d’être déjà rendu à l’état 0). Considérons les blocs de temps
B1 = {0, 1, 2, ..., m−1}, B2 = {m, m+1, m+2, ..., 2m−1}, B3 = {2m, 2m+1, 2m+2, ..., 3m−1}, B4 =
{3m, 3m + 1, 3m + 2, ..., 4m − 1}, etc. La probabilité que la pièce de monnaie nous donne m piles
62
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
consécutives ou m faces consécutives durant le bloc de temps Bℓ est pm + (1 − p)m > 0. Il est donc
certain que pour notre séquence de lancers de la pièce de monnaie on obtiendra éventuellement
un bloc Bℓ pour lequel les m lancers auront donné la même face. La probabilité que notre marche
aléatoire n’atteigne jamais l’ensemble {0, m} est donc nulle. L’équation (3.7) est donc satisfaite.
Pour k ∈ {0, 1, 2, ..., m}, posons
vm (k) = P[Tm < T0 |X0 = k].
Ce vm (k) est donc la probabilité d’absorption à m étant donnée que la marche démarre à l’état k.
Trivialement on a vm (0) = 0 et vm (m) = 1. Pour k ∈ {1, 2, 3, ..., m − 1} on obtient
vm (k) = P[Tm < T0 |X0 = k]

= P[Tm < T0 |X0 = k, X1 = k − 1] (1 − p) + P[Tm < T0 |X0 = k, X1 = k + 1] p
= P[Tm < T0 |X0 = k − 1] (1 − p) + P[Tm < T0 |X0 = k + 1] p
= (1 − p) vm (k − 1) + p vm (k + 1).
On a donc
vm (0) = 0
vm (k) = (1 − p) vm (k − 1) + p vm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
vm (m) = 1
Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est donnée
par
k
vm (k) = . (3.8)
m
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est
donnée par
k
1 − 1−pp
vm (k) = m . (3.9)
1−p
1− p
On a donc le résultat suivant.
Théorème 3. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m},  k

 m si p = 1/2

k
P[Tm < T0 |X0 = k] =

1− 1−p p
 1− 1−p m si p =

 6 1/2.
p
Calculons maintenant l’espérance de la variable aléatoire T{0,m} . Pour k ∈ {0, 1, 2, ..., m}, posons
wm (k) = E[T{0,m} |X0 = k].
Ce wm (k) est donc le temps moyen avant absorption pour la marche aléatoire sur {0, 1, 2, ..., m}
lorsque l’état initial est l’état k. Trivialement on a wm (0) = wm (m) = 0. Pour k ∈ {1, 2, 3, ..., m−1}
63
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
on obtient
wm (k) = E[T{0,m} |X0 = k]

= E[T{0,m} |X0 = k, X1 = k − 1] (1 − p) + E[T{0,m} |X0 = k, X1 = k + 1] p
= (1 + E[T{0,m} |X0 = k − 1]) (1 − p) + (1 + E[T{0,m} |X0 = k + 1]) p
= (1 − p) (1 + wm (k − 1)) + p (1 + wm (k + 1))
= 1 + (1 − p) wm (k − 1) + p wm (k + 1).
On a donc
wm (0) = 0
wm (k) = 1 + (1 − p) wm (k − 1) + p wm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
wm (m) = 0
Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est alors
donnée par
wm (k) = k(m − k). (3.10)
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est alors
donnée par
k
1−p
k m 1 − p
wm (k) = − . (3.11)
1 − 2p 1 − 2p 1 − 1−p m
p
On a donc le résultat suivant.
Théorème 4. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m}, 

 k(m − k) si p = 1/2

k
E[T{0,m} |X0 = k] =

1− 1−p
k m p
 1−2p − 1−2p 1− 1−p m si p 6= 1/2.


p
Remarque. En anglais, la technique utilisée dans la présente section est appelée first step analysis,
la raison étant que nous avons conditionné sur le résultat du premier pas.
3.4 La marche aléatoire sur N0

Considérons maintenant la marche aléatoire (Xn ; n ≥ 0) sur l’ensemble N0 = {0, 1, 2, 3, ...}. Voici
la matrice stochastique de cette marche aléatoire.
 
1−r r 0 0 0 ···
 1−p 0 p 0 0 ··· 
 
 0
 1 − p 0 p 0 ··· 

P= 0 0 1−p 0 p ··· 
 
 0
 0 0 1 − p 0 ··· 

.. .. .. .. ..
. . . . .
64
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On s’intéresse au cas irréductible. On suppose donc que 0 < p < 1 et 0 < r ≤ 1. Posons
B = l’événement ≪ la marche ne visitera jamais l’origine ≫ = {T0 = ∞}

Bm = l’événement ≪ la marche visitera l’état m avant de visiter l’état 0 ≫ = {Tm < T0 }.
Lorsque X0 = k > 0 on a
B = ∩∞
m=k+1 Bm et Bk+1 ⊃ Bk+2 ⊃ Bk+3 ⊃ · · ·
On obtient donc, pour k ≥ 1,
P[T0 = ∞|X0 = k] = P[B|X0 = k] = P[∩∞

m=k+1 Bm |X0 = k]
= lim P[Bm |X0 = k] = lim P[Tm < T0 |X0 = k]
m→∞ m→∞
= lim vm (k)
m→∞
 k

 1− 1−p
p
limm→∞ 1−p m si p 6= 1/2
= 1− p

 k
limm→∞ m si p = 1/2
 k
 1 − 1−p si p > 1/2
= p

0 si p ≤ 1/2.
On a donc 
 1−p k si p > 1/2
P[T0 < ∞|X0 = k] = p (3.12)

1 si p ≤ 1/2.
Ce résultat nous permet, entre autres choses, de conclure que dans le cas irréductible (0 < r ≤ 1 et
0 < p < 1) la marche aléatoire sur N0 est transitoire si p > 1/2 et récurrente si p ≤ 1/2.
Nous allons maintenant considérer le cas irréductible et récurrent (0 < r ≤ 1 et 0 < p ≤ 1/2) et
nous allons déterminer si la récurrence est nulle ou positive. Comme à la section précédente, posons
T{0,m} = min{T0 , Tm } et notons que si X0 = k alors on a T{0,k+1} ≤ T{0,k+2} ≤ T{0,k+3} ≤ · · · et
T0 = lim T{0,m} .
m→∞
On en déduit que si p = 1/2 alors pour tout k ≥ 1 on a
E[T0 |X0 = k] = E[ lim T{0,m} |X0 = k] = lim E[T{0,m} |X0 = k] = lim k(m − k) = ∞
m→∞ m→∞ m→∞
alors que si p < 1/2 alors pour tout k ≥ 1 on a
E[T0 |X0 = k] = E[ lim T{0,m} |X0 = k] = lim E[T{0,m} |X0 = k]

m→∞ m→∞
 k 
1−p

 k m 1− p 
 k
= lim − m = < ∞.
m→∞   1 − 2p 1 − 2p 1− p 1−p 
 1 − 2p
On conclut que si p = 1/2 on a récurrence nulle alors que si p < 1/2 on a récurrence positive.
65
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
3.5 Retour sur la marche aléatoire sur Z

Nous avons vu à la section 1 du présent chapitre que la marche aléatoire symétrique sur Z est
récurrente. Avec l’aide des résultats obtenus à la section précédente, il est facile de montrer qu’il
s’agit d’une récurrence nulle. Il suffit de montrer que
E[T0∗ | X0 = 0] = ∞. (3.13)
où T0∗ dénote le temps du premier retour à l’état 0, c’est-à-dire T0∗ = min{n ≥ 1 : Xn = 0}. Voici
deux méthodes différentes pour démontrer l’équation (3.13).
Première méthode. Puisqu’on démarre à l’origine, au temps 1 on se retrouve où bien à l’état 1,
ou bien à l’état -1. On a vu à la section précédente que, partant de l’état 1, l’espérance du temps
nécessaire pour atteindre l’état 0 est infini. Par symétrie il en est de même si on part de l’état -1.
On a donc
E[T0∗ | X0 = 0]
= E[T0∗ | X0 = 0, X1 = 1] P[X1 = 1 | X0 = 0] + E[T0∗ | X0 = 0, X1 = −1] P[X1 = −1 | X0 = 0]

∗ 1 ∗ 1
= (1 + E[T0 | X0 = 1]) × (1 + E[T0 | X0 = −1]) ×
2 2

1 1
= (1 + ∞) × + (1 + ∞) × = ∞.
2 2
Deuxième méthode. L’argument suivant nous permet d’obtenir l’équation (3.13). Il nous permet
également de mieux comprendre ce qui se passe entre deux visites à l’état 0. Pour tout m ∈ Z,
posons
T0∗ −1
X
Km = I{m} (Xn ).
n=0
Cette variable aléatoire Km représente donc le nombre total de visites à l’état m avant le temps
T0∗ . On a alors X
T0∗ = Km
m∈Z
et il s’ensuit que X
E[T0∗ | X0 = 0] = E[Km | X0 = 0]. (3.14)
m∈Z
Nous allons maintenant calculer, pour tout m ∈ Z, l’espérance conditionnelle E[Km | X0 = 0]. Le
cas m = 0 est trivial. On a E[K0 | X0 = 0] = 1. Pour m 6= 0, il suffit de calculer E[Km | X0 = 0]
dans le cas m > 0 puisque par symétrie on a E[K−m | X0 = 0] = E[Km | X0 = 0].
Proposition 3. Fixons m > 0. Pour tout ℓ ≥ 1 on a

ℓ−1
1 1
P[Km ≥ ℓ | X0 = 0] = 1− .
2m 2m
Démonstration. Puisqu’on démarre à l’état 0, on aura Km ≥ 1 si et seulement si le premier pas

est un pas vers la droite (ce qui survient avec probabilité 1/2) et une fois rendu à l’état 1, on atteint
66
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
l’état m avant d’atteindre l’état 0 (ce qui survient avec probabilité 1/m en vertu du Théorème 3).
On a donc
1
P[Km ≥ 1 | X0 = 0] = .
2m
De même, on aura Km ≥ 2 si et seulement si on a Km ≥ 1 (ce qui survient avec probabilité 1/2m)
et, après notre première visite à l’état m, ou bien notre prochain pas est un pas vers la droite
(probabilité 1/2), ou bien notre prochain pas est un pas vers la gauche (probabilité 1/2) et par la
suite on atteint l’état m avant d’atteindre l’état 0 (probabilité (m − 1)/m en vertu du Théorème
3). On obtient donc

1 1 1m−1 1 1
P[Km ≥ 2 | X0 = 0] = + = 1− .
2m 2 2 m 2m 2m
On peut répéter ce processus indéfiniment. On obtient ainsi la Proposition 3.
Proposition 4. Pour tout m ∈ Z, on a E[Km | X0 = 0] = 1.
Démonstration. Suite à la remarque qui précède l’énoncé de la Proposition 3, il suffit de considérer

le cas m > 0. Dans ce cas la Proposition 3 nous donne
∞
X
E[Km | X0 = 0] = P[Km ≥ ℓ | X0 = 0]
ℓ=1
∞ ℓ−1
X 1 1
= 1−
2m 2m
ℓ=1
∞ ∞
1 X 1 ℓ−1 1 X 1 k
= 1− = 1− = 1.
2m 2m 2m 2m
ℓ=1 k=0
P∞ k 1
Pour la dernière égalité on a utilisé le fait que k=0 r = 1−r pour tout −1 < r < 1.
L’équation (3.14) combinée avec la Proposition 4 nous donne l’équation (3.13). On a donc démontré,
de deux façons différentes, le résultat suivant.
Théorème 5. La marche aléatoire symétrique sur Z est récurrente nulle.
Remarques.
1. Voici une troisième méthode pour montrer que la récurrence de la marche aléatoire symétrique
sur Z est une récurrente nulle. On peut montrer que la distribution conditionnelle de la va-
riable T0∗ sachant que X0 = 0 est donnée par
2k−2

k−1
P[T0∗ = 2k | X0 = 0] = k = 1, 2, 3, ...
k 22k−1
À partir de ce résultat on peut déduire que E[T0∗ | X0 = 0] = ∞.

2. On peut aussi montrer que la marche aléatoire symétrique sur Z2 est récurrente nulle. Une
approche possible consiste à adapter la deuxième méthode présentée ci-dessus.
67
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
3.6 Marche aléatoire sur un graphe simple connexe

Un graphe simple est un couple (S, A) où S est un ensemble non vide, fini ou infini dénombrable,
et où V est un ensemble de paires {x, y} avec x ∈ S et y ∈ S. Les éléments de S sont appelés les
sommets du graphe et les éléments de A sont appelés les arêtes du graphe. Les sommets x et y sont
dits voisins si ils sont connectés par une arête c’est-à-dire si la paire {x, y} appartient à l’ensemble
A. Implicitement on a les propriétés suivantes :
• Un graphe simple ne contient pas d’arêtes qui vont d’un sommet vers lui-même.
• Dans un graphe simple il y a toujours au plus une arête entre deux sommets donnés.
Un graphe simple est dit connexe si pour tout x ∈ S et y ∈ S, avec x 6= y, il existe un chemin qui
relie x à y c’est-à-dire il existe un entier n ≥ 1 et des sommets x = x0 , x1 , x2 , ..., xn−1 , xn = y tels
que {xj−1 , xj } ∈ A pour j = 1, 2, 3, ..., n.
On considère un graphe simple connexe, disons le graphe (S, A). Pour x ∈ S, on pose
degré(x) = le nombre de sommets y ∈ S qui sont voisins du sommet x
Si S est un ensemble fini de cardinal m, alors forcément on a degré(x) ≤ m − 1 pour tout x ∈ S.

Dans le cas où S est un ensemble infini dénombrable, on supposera toujours que degré(x) < ∞
pour tout x ∈ S.
Définition. Soit (S, A), un graphe simple connexe. La marche aléatoire sur (S, A) est la chaı̂ne de
Markov avec espace d’états S et avec probabilités de transition données par

1/degré(i) si j est un voisin de i
Pij =
0 sinon.
Certains des exemples étudiés dans le présent chapitre sont en fait des exemples de marche aléatoires
sur des graphes simples connexes. En voici trois.
1. La marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instantannée à 0 et à m.
L’étudiant peut vérifier que dans cet exemple on a degré(0) = degré(m) = 1 et degré(i) = 2
pour tout i ∈ {1, 2, ..., m − 1}.
2. La marche aléatoire symétrique sur Z. Dans ce cas on a degré(ℓ) = 2 pour tout ℓ ∈ Z.
3. La marche aléatoire symétrique sur Z2 . Dans ce cas on a degré(ℓ) = 4 pour tout ℓ ∈ Z2 .
Au prochain chapitre, nous verrons quelques propriétés et applications intéressantes des marches
aléatoires sur les graphes simples connexes finis.
68
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 1. André dispose de 20$ et Benoı̂t dispose de 15$. Il vont jouer à pile ou face jusqu’à ce
que l’un d’eux se ruine. À chaque pile André donne 25 cents à Benoı̂t. À chaque face Benoı̂t donne
25 cents à André. Quelle est la probabilité que André gagne ? Si la pièce est lancée à toutes les 30
secondes, le jeu durera en moyenne combien de temps ?
Numéro 2. Charles dispose de 20$ et Denis dispose de 15$. Il vont jouer à lancer un dé jusqu’à
ce que l’un d’eux se ruine. Quand le lancer du dé donne lieu à un 1 ou un 4, Denis donne 25 cents
à Charles. Quand le lancer du dé donne lieu à un 2, un 3, un 5 ou un 6, Charles donne 25 cents à
Denis. Quelle est la probabilité que Charles gagne ? Si le dé est lancé à toutes les 30 secondes, le
jeu durera en moyenne combien de temps ?
Numéro 3. Au Casino Chez Fabien, il y a un seul jeu et une seule sorte de joueur. Lorsqu’un
joueur se présente, il arrive toujours avec 40$. Il mise toujours 1$ et il finit toujours par se ruiner.
On suppose qu’à chaque fois qu’il mise 1$, il a une probabilité p de gagner 1$ (en plus de récupérer
le 1$ qu’il a misé) et une probabilité 1 − p de perdre son 1$. Le joueur mise 1$ à toutes les 30
secondes, jusqu’à ce qu’il soit complètement ruiné. On a observé les temps de jeu des 457 derniers
joueurs. Le temps moyen requis pour se ruiner était de 3h40m. Estimez p.
P
Numéro 4. En classe on a utilisé le critère basé sur ∞ n
n=0 Pii pour montrer que la marche aléatoire
sur Z est récurrente si p = 1/2 et non récurrente si p 6= 1/2. Avec l’aide de la loi des grands
nombres, donnez une démonstration alternative de la non récurrence de la marche aléatoire sur Z
lorsque p 6= 1/2. Suggestion : On écrit Xn pour dénoter la position au temps n. On suppose que
la marche démarre à l’origine. Donc X0 = 0. On peut alors exprimer Xn de la façon suivante :
Xn = η1 + η2 + · · · + ηn avec η1 , η2 , η3 , ... i.i.d. avec distribution donnée par P[ηj = −1] = 1 − p et
P[ηj = 1] = p. Quelle est l’espérance des ηj ? Qu’est-ce que la loi des grands nombres nous dit au
sujet de Xn /n ? Qu’est-ce qu’elle nous dit au sujet de Xn ?
Numéro 5. SupposonsPque η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. Poisson(1). Posons Y0 = 0
et, pour n ≥ 1, Yn = nk=1 (ηk − 1).
(a) Obtenez la fonction de masse de Yn et calculez sa moyenne et sa variance.
(b) Expliquez en quelques mots pourquoi la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace d’états Z.
(c) Obtenez une expression pour les probabilités de transition Pij .
(d) La chaı̂ne (Yn ; n ≥ 0) est-elle irréductible ? Est-elle apériodique ?
P
(e) La chaı̂ne (Yn ; n ≥ 0) est-elle récurrente ? Utilisez le critère basé sur ∞ n
n=0 P00 .
Numéro 6. Un rat se déplace dans un labyrinthe constitué de 9 cases carrées de dimension 1 × 1

disposées de façon à former un carré de dimension 3 × 3. En partant du coin supérieur gauche et
en allant de gauche à droite, ligne par ligne, les cases sont appelées case A, case B,. case C,...,
case I. Chaque case communique, au moyen de petites portes, avec les 2, 3 ou 4 cases qui lui sont
adjacentes. Lorsqu’il se trouve dans une case, le rat choisit une des portes accessibles, au hasard et
de façon uniforme. On suppose que le rat fait une transition par unité de temps et on pose Xn =
la case dans laquelle se trouve le rat après n transition. La suite (Xn ; n ≥ 0) est alors une chaı̂ne
de Markov à temps discret. Vérifiez qu’il s’agit d’une marche aléatoire sur un graphe simple et
connexe. Dessinez ce graphe. Calculez le degré de chaque sommet.
69
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 7. On considère la marche aléatoire (Xn ; n ≥ 0) sur le graphe suivant. L’espace des états
est l’ensemble des 13 sommets. À partir d’un sommet, on se déplace vers un sommet choisi au
hasard et de façon uniforme parmi nos voisins immédiats.
L’état situé en plein centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en
commençant par l’état situé à droite de A et en voyageant dans le sens anti-horaire, les états
B, C, D, E, F et G. Les 6 états en périphérie sont, en commençant par celui d’en haut et en voya-
geant dans le sens anti-horaire, les états H, I, J, K, L et M . On pose


 0 si Xn = A

Yn = 1 si Xn ∈ {B, C, D, E, F, G}



2 si Xn ∈ {H, I, J, K, L, M }.
La suite (Yn ; n ≥ 0) est-elle une chaı̂ne de Markov sur {0, 1, 2} ? Si oui, quelle est sa matrice
stochastique ? Si non, pourquoi ?
Numéro 8. Au casino de Charlevoix, la roulette compte 37 cases numérotées 0, 1, 2, 3,..., 36. La

case 0 est de couleur verte. Parmi les 36 autres cases, il y a 18 cases rouges et 18 cases noires.
On suppose qu’il s’agit d’une roulette honnête : lorsqu’on fait tourner la roulette, chacune des 37
cases a la même probabilité 1/37 de capturer la bille. Lorsqu’on mise 10$ sur la couleur rouge, la
probabilité de gagner est donc 18/37 et la probabilité de perdre est 19/37. Si la bille est capturée par
une case rouge, on gagne ; on récupère notre mise de 10$ et le casino nous donne 10$ additionnel.
Si la bille est capturée par une case noire ou par la case verte, on perd notre mise de 10$.
Un joueur se présente au casino de Charlevoix avec 100$. Il joue uniquement à la roulette et il mise
toujours 10$ sur le rouge. Il joue jusqu’à ce que sa fortune atteigne 200$ ou jusqu’à ce qu’il soit
ruiné, selon le cas.
(a) Calculez la probabilité que le joueur rentrera chez lui avec 200$.
(b) En supposant que le croupier fait tourner la roulette 30 fois par heure, combien d’heures en
moyenne notre joueur passera-t-il au casino ?
(c) Le joueur vient de rentrer chez lui. Calculez la probabilité que durant son séjour au casino
sa fortune maximale aura été de 170$.
70
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 9. Une particule se déplace sur le graphe binaire infini dessiné ci-dessous. L’ensemble
des états (ou sites) est l’ensemble S de tous les sommets du graphe. À chaque unité de temps, la
particule se déplace vers un de ses voisins, c’est-à-dire vers un des sites adjacents au site où elle
se trouve présentement. Notez que le site O n’a que deux voisins alors que tous les autres sites
ont exactement trois voisins. Lors d’une transition, les sites adjacents ont tous la même probabilité
d’être choisi.
(a) Obtenez la probabilité que partant du site C la particule visitera un jour le site O.
(b) Cochez la bonne case :
L’état C est transitoire.
L’état C est récurrent nul.
L’état C est récurrent positif.
Numéro 10.
(a) Avec la notation de la section 3.3, calculez vm (50) et wm (50) dans le cas où m = 100 et
p = 0.48.
(b) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k pour laquelle la probabilité
vm (k) est le plus proche possible de 1/2.
(c) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k qui maximize l’espérance
wm (k).
71
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 11. On fixe m, un entier positif, et on fixe 0 < r < 1. On considère (Xn ; n ≥ 0), la marche
aléatoire symétrique sur {0, 1, 2, ..., m}, avec absorption à 0 et à m et avec ralentissement de taux r
partout ailleurs. Il s’agit de la chaı̂ne de Markov sur {0, 1, 2, ..., m} avec probabilités de transition
données par P00 = Pmm = 1 et, pour 0 < i < m,
 1−r
 2 si j = i − 1
Pij = r si j = i
 1−r
2 si j = i + 1
(a) Dessinez le graphe de communication. Quelles sont les classes de communication ? Quels
sont les états transitoires ? Quels sont les états récurrents ? Déterminez la période de chaque
état.
(b) Partant de l’état i, quelle est la probabilité d’absorption à l’état 0 ? À l’état m ?
(c) Si cette chaı̂ne de Markov démarre à un état i autre que l’état 0 ou l’état m, quel est la
distribution du temps passé à cet état i avant de faire une première vraie transition (c’est-
à-dire une transition vers un état autre que l’état i) ?
(d) Partant de l’état i, quelle est l’espérance du temps d’absorption
T{0,m} = min{n ≥ 0 : Xn ∈ {0, m}}.
Numéro 12. Dans le cas m > 0, obtenez la fonction de masse de la variable aléatoire Km de la
section 3.5, conditionnellement à X0 = 0. Dessinez le graphe de cette fonction de masse dans les
cas m = 1, m = 2, m = 3, m = 10.
Numéro 13. Considérons la marche aléatoire sur N0 = {0, 1, 2, 3, ...} avec p = 1/2. On pose
T = min{n ≥ 0 : Xn = 0}. On fixe m, un entier strictement plus grand que 0. On pose
T
X
Vm = 1{m} (Xn ).
n=0
La variable aléatoire Vm dénote donc le nombre total de visites à l’état m avant le temps T . Pour
k ≥ 0, calculez E[Vm | X0 = k].
Suggestions :
• Calculez d’abord E[Vm | X0 = m]. Pour y arriver, il suffit de voir que la distribution condi-
tionnelle de Vm sachant X0 = m est une loi géométrique sur les entiers positifs.
• Obtenez ensuite E[Vm | X0 = k] dans le cas où k > m.
• Enfin, obtenez E[Vm | X0 = k] dans le cas où 0 ≤ k < m.
Numéro 14. On considère la marche aléatoire (Xn ; n ≥ 0) sur Z, avec paramètre p > 1/2. On
pose
X∞
N= 1{0} (Xn ).
n=0
Autrement dit, N dénote le nombre total de visite à l’origine durant la vie entière de la marche
aléatoire. Pour chaque k ∈ Z, obtenez la distribution conditionnelle de N sachant X0 = k.
72
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 15. Une particule se déplace sur les 11 points du shéma ci-dessous. La particule démarre
au point A. À chaque unité de temps la particule se déplace vers un des deux points adjacents ;
elle va dans le sens horaire avec probabilité 3/5, dans le sens anti-horaire avec probabilité 2/5.
Si Xn dénote la position de la particule après n transitions, alors la suite de variables aléatoires
(Xn ; n ≥ 0) est une chaı̂ne de Markov.
(a) Il est clair que cette chaı̂ne de Markov est irréductible. Est-elle périodique ou apériodique ?
Si elle est périodique, donnez sa période. Si elle est apériodique, expliquez pourquoi.
(b) Obtenez l’espérance du temps que ça va prendre, en partant du point A, pour atteindre le
point B.
Numéro 16. On considère la marche aléatoire (Xn ; n ≥ 0) sur N0 , avec paramètre p = 1/2 et avec
réflexion instantannée à l’origine. Pour k ∈ N0 , on pose
Tk = min{n ≥ 0 : Xn = k}.
Calculez E[Tk |X0 = 0].
Numéro 17. Xavier se déplace sur Z selon une marche aléatoire (Xn ; n ≥ 0) issue du point 25 et
avec paramètre p = 2/3. Indépendamment de Xavier, Yvonne se déplace sur Z selon une marche
aléatoire (Yn ; n ≥ 0) issue du point 15 et avec paramètre p = 3/4. Calculez l’espérance du temps que
ça va prendre pour que Yvonne rattrape Xavier. Autrement dit, calculez l’espérance de la variable
aléatoire suivante :
T = min{n ≥ 0 : Xn = Yn }.
73
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 18. Soit (Xn ; n ≥ 0), la marche aléatoire symétrique sur N0 = {0, 1, 2, 3, ...}, avec absorp-
tion à l’état 0. On démarre cette marche aléatoire à l’état 1 et on considère la variable aléatoire
Z = max{Xn ; n ≥ 0}.
Par exemple, dans le schéma ci-dessous on a Z = 4.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(a) Pour m ≥ 1, calculez P[Z ≥ m].

(b) À partir du résultat de la partie (a), obtenez E[Z].
74
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 4
Chaı̂nes de Markov à temps discret :

loi stationnaire et convergence
Dans le présent chapitre nous étudions le concept de loi stationnaire et nous montrons que sous
certaines conditions une chaı̂ne de Markov (Xn ; n ≥ 0) possède une et une seule loi stationnaire et
la distribution de Xn converge vers cette loi stationnaire peu importe l’état initial de la chaı̂ne.
4.1 Loi stationnaire

Le concept de loi stationnaire joue un rôle très important en théorie des chaı̂nes de Markov.
Définition. Soit P, une matrice stochastique sur l’espace d’états S. Une loi stationnaire pour P, ou
distribution stationnaire pour P, est une distribution de probabilité sur S, disons π = (πi ; i ∈ S), qui
satisfait l’équation matricielle πP = π. Autrement dit, la distribution de probabilité π = (πi ; i ∈ S)
est une loi stationnaire pour P si on a
X
πi Pij = πj pour tout j ∈ S. (4.1)
i∈S
Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et si π est une loi stationnaire
pour P, alors on dira aussi que π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0).
On a vu au chapitre 2 que si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et
avec loi initiale ν, alors la distribution de Xn est le vecteur L(Xn ) = νP n . Supposons que π est une
loi stationnaire pour P et supposons qu’on démarre notre chaı̂ne de Markov avec la distribution π.
On a alors L(Xn ) = πP n . En utilisant l’associativité du produit matriciel et en invoquant n fois
l’équation πP = π, on obtient
L(Xn ) = πP n = (πP) P n−1

= πP n−1 = (πP) P n−2
= πP n−2 = (πP) P n−3
..
.
= πP 2 = (πP) P
= πP = π.
75
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc le résultat suivant :
Théorème 1. Si π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0) et si L(X0 ) = π,
alors on a L(Xn ) = π pour tout n ≥ 0.
Une chaı̂ne de Markov peut posséder plusieurs lois stationnaires. Prenons le cas de la chaı̂ne de
Markov sur S = {0, 1} avec matrice stochastique

1 0
P= .
0 1
Il est facile de voir que dans ce cas toutes les distributions de probabilité sur S sont des lois
stationnaires pour P.
Considérons maintenant le cas des chaı̂nes de Markov irréductibles. C’est le cas qui nous intéresse
le plus dans les applications. Nous verrons plus loin que si une chaı̂ne de Markov est irréductible,
alors elle possède une loi stationnaire si et seulement si elle est récurrente positive. Dans ce cas,
cette loi stationnaire est unique et est donnée par
1
πi =
mi
où mi = E[Ti∗ | X0 = i] (voir la section 10 du chapitre 2). En particulier, une chaı̂ne de Markov
irréductible sur un espace d’états fini possède une et une seule loi stationnaire.
Pour trouver la loi stationnaire associée à une matrice stochastique irréductible P, il suffit de
trouver une distribution de probabilité π = (πi ; i ∈ S) qui satisfait le système d’équations linéaires
donné par l’équation (4.1). Considérons le cas où l’espace des états S est un ensemble de cardinal
m. L’équation (4.1) nous donne alors m équations linéaires avec m inconnues. Étant donné que les
sommes lignes de la matrice P sont toutes égales à 1, la me équation est forcément une combinaison
linéaire des m − 1 autres et le système d’équations
P (4.1) possèdera donc une infinité de solutions.
Si on ajoute à ces m − 1 équations la condition m i=1 πi = 1, alors on a un système de m équations
avec m inconnues et ce système possèdera une solution unique.
Exemple 1. Supposons que S = {1, 2, 3} et que la matrice stochastique P est donnée par
 
0 1 0
P =  1/4 1/4 1/2  .
0 3/4 1/4
P3
Si on écrit au long l’équation (4.1) avec j = 1 et avec j = 2 ainsi que l’équation i=1 πi = 1, on
obtient le système d’équations linéaires suivant :
1
4 π2 = π1
1 3
π1 + π2 + π3 = π2
4 4
π1 + π2 + π3 = 1
On résout facilement ce système d’équations linéaires et on obtient la solution suivante :

3 12 8
(π1 , π2 , π3 ) = , , .
23 23 23
76
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En procédant comme dans l’exemple ci-dessus, on peut en principe trouver la loi stationnaire de
n’importe quelle chaı̂ne de Markov irréductible sur un espace d’états fini. Dans certains cas, on
peut exploiter la structure particulière de la matrice P pour trouver rapidement la loi stationnaire.
Ci-dessous on considère deux scénarios particuliers.
Matrices doublement stochastiques

Définition. Une matrice stochastique est dite doublement stochastique si ses sommes colonnes
sont toutes égales à 1. On dit aussi matrice bistochastique.
En d’autres mots, une matrice doublement stochastique est une matrice stochastique dont la trans-
posée est elle aussi une matrice stochastique. La notion de matrice doublement stochastique est
importante parce que d’une part on rencontre souvent ce type de matrice stochastique dans la
pratique et d’autre part on a le résultat suivant :
Théorème 2. Si P est une matrice doublement stochastique sur un espace d’états fini S, alors la
loi uniforme sur S est une loi stationnaire pour P.
Démonstration. Sans perte de généralité, supposons que S = {1, 2, 3, ..., m} pour un certain entier
positif m. Posons
1 1 1 1
π = (π1 , π2 , π3 , ...πm ) = , , , ..., .
m m m m
Il faut montrer qu’avec ce choix P
de π on a bel et bien πP = π. Autrement dit, on doit montrer que
pour tout j ∈ {1, 2, ..., m} on a mi=1 πi Pij = πj . Fixons j ∈ {1, 2, ..., m}. On obtient
m m m
X X 1 1 X 1
πi Pij = Pij = Pij = = πj .
m m m
i=1 i=1 i=1
Pour l’avant dernière égalité, on a utiliser le fait que P est doublement stochastique.
Exemple 2. Considérons la marche aléatoire symétrique sur {0, 1, 2, 3, 4, 5} avec réflexion amortie
à 50% à chacune des deux frontières. La matrice stochastique associée à cette chaı̂ne de Markov est
la matrice suivante :  1 1 
2 2 0 0 0 0
 1
 2 0 12 0 0 0 

 
 0 1 0 1 0 0 
 2 2 
P= .
 0 0 12 0 12 0 
 
 1 1 
 0 0 0 2 0 2 
0 0 0 0 12 21
On observe que cette matrice stochastique est en fait doublement stochastique. Le théorème 2 nous
permet de conclure que la loi de probabilité π = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6) est stationnaire pour
cette marche aléatoire.
Exemple 3. On considère une jeu de cartes ordinaire. On place ce jeu de cartes sur la table, face
vers le bas. Les positions des cartes sont numérotées de 1 à 52, avec 1 pour la carte du dessus et
52 pour la carte du dessous. On mélange les cartes de la façon suivante. À chaque unité de temps,
77
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
on choisit un entier, disons l’entier k, au hasard et avec distribution uniforme sur l’ensemble des
entiers de 1 à 52, puis on prend la carte en position k et on la mets en position 1. Autrement dit,
on choisit une carte au hasard et on la place sur le dessus du paquet. On pose Xn = l’état du jeu
de cartes après n transitions. La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’espace des
états est l’ensemble des 52! permutations possibles des entiers 1 à 52. On vérifie facilement que la
matrice stochastique associée à cette chaı̂ne de Markov est une matrice carrée de dimension 52! par
52! avec les propriétés suivantes. Chaque ligne de cette matrice comprend 52 entrées qui sont égales
à 1/52. De même, chaque colonne de cette matrice comprend 52 entrées qui sont égales à 1/52.
Cette matrice est donc doublement stochastique et on conclut que la loi uniforme sur l’ensemble
des 52! permutations est une loi stationnaire pour cette chaı̂ne de Markov.
Marche aléatoire sur un graphe simple, connexe et fini

On reprend le scénario de la section 6 du chapitre 3. On a donc un graphe simple et connexe, disons
le graphe (S, A), et on considère la marche aléatoire sur ce graphe, c’est-à-dire la chaı̂ne de Markov
avec espace d’états S et avec probabilités de transition données par
(
1/degré(i) si j est un voisin de i
Pij =
0 sinon.
On suppose maintenant que S est un ensemble fini. On pose

X
Z= degré(i) = 2 × Cardinal(A)
i∈S
et on écrit Vi pour dénoter l’ensemble des états qui sont voisins de l’état i. Notez que le degré de
l’état i est simplement le cardinal de l’ensemble Vi et que la probabilité de transition Pij peut être
1
écrite sous la forme suivante : Pij = 1 (j). Rappelons qu’on utilise la notation 1A (x) pour
degré(i) Vi
dénoter la fonction indicatrice de l’ensemble A. Autrement dit, 1A (x) = 1 si x ∈ A et 1A (x) = 0 si
x∈ / A.
Théorème 3. Soit (Xn ; n ≥ 0), une marche aléatoire sur un graphe simple, connexe et fini. Soit
π, la distribution de probabilité sur S donnée par
degré(i)
πi = pour tout i ∈ S.
Z
Alors π est une loi stationnaire pour la chaı̂ne (Xn ; n ≥ 0).
Démonstration. Il suffit de vérifier que l’équation (4.1) est satisfaite pour tout j ∈ S. Fixons
j ∈ S. On obtient
X X degré(i) 1

πi Pij = × 1V (j)
Z degré(i) i
i∈S i∈S
1 X 1 X degré(j)
= 1Vi (j) = 1Vj (i) = = πj .
Z Z Z
i∈S i∈S
Pour la troisième égalité, on a simplement utilisé le fait que j ∈ Vi si et seulement si i ∈ Vj .
78
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 4. Considérons la marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instan-
tannée aux frontières. Il s’agit d’une marche aléatoire sur un graphe simple, connexe et fini. On
a degré(0) = degré(m) = 1 et degré(i) = 2 pour tout i ∈ {1, 2, ..., m − 1}. On a Z = 2m. La loi
stationnaire est donc
1 1 1 1 1 1
π= , , , , ..., , .
2m m m m m 2m
Exemple 5. Considérons l’exercice numéro 6 du chapitre 3. Il s’agit de la marche aléatoire sur le

graphe suivant :
A B C
D E F
G H I
Les sommets A, C, G et I sont de degré 2. Les sommets B, D, F et H sont de degré 3. Le sommet

E est de degré 4. On a Z = 24. La loi stationnaire est donc le vecteur

2 3 2 3 4 3 2 3 2
(πA , πB , πC , πD , πE , πF , πG , πH , πI ) = , , , , , , , , .
24 24 24 24 24 24 24 24 24
Exemple 6. La marche aléatoire récurrente positive sur N0

Nous terminons cette section avec un exemple de calcul de loi stationnaire pour une chaı̂ne de
Markov sur un espace d’états infini. Plus précisément, nous considérons le cas de la marche aléatoire
sur N0 avec paramètres 0 < p < 1/2 et 0 < r ≤ 1. Voici la matrice des probabilités de transition :
 
1−r r 0 0 0 ···
 1−p 0 p 0 0 ··· 
 
 0
 1 − p 0 p 0 · · · 

P= 0 0 1−p 0 p ··· 
 
 0
 0 0 1 − p 0 ···  
.. .. .. .. ..
. . . . .
Nous avons vu à la section 3.4 que cette marche aléatoire est une chaı̂ne de Markov irréductible
et récurrente positive. De plus, elle est apériodique si 0 < r < 1. On souhaite trouver P un vecteur
π = (π0 , π1 , π2 , ...) qui satisfait l’équation matricielle πP = π sujet à la contrainte ∞
k=0 πk = 1.
79
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Lorsqu’on écrit au long l’équation matricielle πP = π, on obtient les équations suivantes :
π0 (1 − r) + π1 (1 − p) = π0 (0)
π0 r + π2 (1 − p) = π1 (1)
π1 p + π3 (1 − p) = π2 (2)
π2 p + π4 (1 − p) = π3 (3)
π3 p + π3 (1 − p) = π4 (4)
.. ..
. .
À l’aide de l’équation (0), on peut exprimer π1 en termes de π0 . On obtient

1
π1 = rπ0 . (0∗ )
1−p
À l’aide des équations (0∗ ) et (1), on peut exprimer π2 en termes de π0 . On obtient

p
π2 = rπ0 . (1∗ )
(1 − p)2
À l’aide des équations (0∗ ), (1∗ ) et (2), on peut exprimer π3 en termes de π0 . On obtient
p2
π3 = rπ0 . (2∗ )
(1 − p)3
Bref, on obtient
pk−1
πk = rπ0 pour tout k ≥ 1. (4.2)
(1 − p)k
P∞
Combinée avec le fait que k=0 πk = 1, l’équation (4.2) nous donne
∞
X ∞
X
1 = πk = π0 + πk
k=0 k=1
∞
Xpk−1
= π0 + rπ0
(1 − p)k
k=1
∞ k
rπ0 X p
= π0 +
p 1−p
k=1
rπ0 p/(1 − p)
= π0 +
p 1 − (p/(1 − p))

r
= π0 1 + .
1 − 2p
On obtient donc
1 1 − 2p
π0 = r = .
1+ 1−2p 1 − 2p + r
Lorsqu’on insère ce résultat dans l’équation (4.2), on obtient finalement notre loi stationnaire :

1−2p
 1−2p+r si k = 0
πk = k
 1−2p r p
si k ≥ 1.
1−2p+r p 1−p
80
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le cas particulier où r = p, cette distribution prend la forme suivante.
πk = (1 − p∗ )k p∗ pour tout k ≥ 0,
avec
1 − 2p
p∗ = .
1−p
On reconnaı̂t la loi géométrique(p∗ ) sur {0, 1, 2, 3, ...}.
4.2 Le théorème du renouvellement

Nous présentons ici une version ≪ temps discret ≫ d’un théorème de la théorie des probabilités
appelé le théorème du renouvellement. Ce théorème sera utilisé dans la prochaine section pour
étudier la convergence des chaı̂nes de Markov à temps discret. Voici un exemple illustratif.
Exemple 7. On considère une séquence de lancers d’un dé. On pose S0 = 0 et, pour m ≥ 1,
Sm = V1 + V2 + · · · + Vm . Ici Vk dénote le résultat du k e lancer du dé. Pour n ≥ 1, on pose
pn = P [∪∞
m=1 {Sm = n}] = P [∃ m ≥ 1 : Sm = n] .
On souhaite évaluer la limite limn→∞ pn . L’interprétation suivante va nous aider à deviner la

réponse. On imagine un jeton que l’on déplace, selon les résultats de nos lancers du dé, sur un
échiquier linéaire infini c’est-à-dire une séquence de cases numérotées 1, 2, 3, 4,... comme dans le
schéma ci-dessous. Dans ce schéma, les petits disques noirs indiquent les cases où le jeton atterrit.
Ici on a illustré le cas où les résultats des cinq premiers lancers du dé sont, dans cet ordre, 2, 4, 1,
3 et 4 de sorte que (S1 , S2 , S3 , S4 , S5 ) = (2, 6, 7, 10, 14).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Avec cette interprétation, pn est simplement la probabilité que le jeton atterrira sur la case numéro
n durant son voyage vers l’infini. Le raisonnement suivant nous permet de deviner la réponse à la
question posée. Ici les variables aléatoires V1 , V2 , V3 , ... sont i.i.d. avec loi uniforme sur l’ensemble
{1, 2, 3, 4, 5, 6}. L’espérance de cette loi est 7/2. La longueur moyenne des pas du jeton est donc
7/2. Après 2000 pas, la distance totale parcourue par le jeton sera donc environ 2000 × 27 = 7000.
Donc après 2000 pas le jeton sera aux alentours de la case numéro 7000 et il aura visité 2000 cases.
La proportion de cases visitées par le jeton est donc environ 2000/7000, c’est-à-dire 2/7. Il est donc
raisonnable de croire que
2
lim pn = . (4.3)
n→∞ 7
Quelques remarques au sujet de cet exemple.
1. Le raisonnement ci-dessus demeure valide si on utilise un dé non équilibré,
P à condition de
faire les ajustements suivants. La longueur moyenne des pas sera µ = 6ℓ=1 ℓ P[V1 = ℓ] plutôt
que 7/2 et la limite qui apparaı̂t à l’équation (4.3) sera 1/µ plutôt que 2/7. De plus, il n’est
pas nécessaire que les faces soient numérotées 1, 2, 3, 4, 5, 6 et il n’est pas nécessaire que le
dé utilisé soit un dé à 6 faces.
81
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2. Le raisonnement ci-dessus demeure valide si, pour le premier pas, on utilise un dé différent
de celui utilisé pour tous les autres pas.
3. Le raisonnement ci-dessus ne tient pas toujours. Par exemple, si on utilise un dé équilibré
à 6 faces et si les valeurs de ces 6 faces sont les valeurs 2, 4, 6, 8, 10, 12 plutôt que 1, 2,
3, 4, 5, 6, alors limn→∞ pn n’existe pas. Dans ce cas on a p2n+1 = 0 pour tout n ≥ 0 et
limn→∞ p2n = 2/7.
À la lumière de l’exemple et des remarques ci-dessus, le résultat suivant n’est pas surprenant.
Théorème 4. [Le Théorème du renouvellement ; cas discret].
On considère des variables aléatoires indépendantes, disons U, V1 , V2 , V3 , .... On suppose que
(i) Les variables V1 , V2 , V3 , ..., sont i.i.d. à valeurs dans {1, 2, 3, ...}.
(ii) La variable aléatoire U est à valeurs dans {0, 1, 2, 3, ...}.
(iii) p.g.c.d.{n ≥ 1 : P[V1 = n] > 0} = 1.
On pose
S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m tel que U + Sm = n], pour tout n ≥ 1
µ = E[V1 ].
On admet la possibilité que µ = ∞. On a alors

1
lim pn = . (4.4)
n→∞ µ
Nous allons prendre ce résultat pour acquis. Une démontration sera présentée à la section 4.5.
4.3 Théorème de convergence

Il existe différentes façon d’énoncer le théorème de convergence pour les chaı̂nes de Markov à temps
discret et il existe différentes approches possibles pour démontrer le théorème. Nous utiliserons
l’approche basée sur le théorème du renouvellement présenté à la section précédente. Dans ce qui
suit, on suppose que (Xn ; n ≥ 0) est une chaı̂ne de Markov à temps discret sur l’espace d’états S
et avec matrice stochastique P. On rappelle que mj dénote l’espérance du temps de retour à l’état
j lorsqu’on démarre la chaı̂ne à l’état j.
Théorème 5. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive. Alors
(a) Pour tout i et j dans S on a
1
lim Pijn = . (4.5)
n→∞ mj
Pour la suite, on pose πj = 1/mj , pour tout j ∈ S.
(b) Le vecteur π = (πj ; j ∈ S) est une distribution de probabilité sur S.
(c) En fait, le vecteur π = (πj ; j ∈ S) est une loi stationnaire pour P.
(d) En fait, le vecteur π = (πj ; j ∈ S) est la seule loi stationnaire pour P.
82
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (a). Fixons i et j dans S et posons
U (j) = min{n ≥ 0 : Xn = j}
(j)
V1 = min{n ≥ 1 : XU (j) +n = j}
(j)
V2 = min{n ≥ 1 : XU (j) +V (j) +n = j}
1
(j)
V3 = min{n ≥ 1 : XU (j) +V (j) +V (j) +n = j}
1 2
..
.
L’irréductibilité et la récurrence de notre chaı̂ne de Markov entraine que P[U (j) < ∞|X0 = i] = 1
(j)
et P[Vn < ∞|X0 = i] = 1 pour tout i et j dans S et pour tout n ≥ 1. L’apériodicité de notre
chaı̂ne de Markov entraine que la condition
(j)
pgcd{n ≥ 1 : P[V1 = n|X0 = i] > 0} = 1,
est satisfaite. On peut donc appliquer le théorème du renouvellement de la section précédente. On

(j) P (j)
obtient, avec Sm = m ℓ=1 Vℓ ,
h i 1
lim P ∪∞ (j) (j)
m=1 U + S m = n X
0 = i = (j)
n→∞
E[V1 |X0 = i]
c’est-à-dire
1
lim P[Xn = j|X0 = i] = ,
n→∞ mj
c’est-à-dire
1
lim Pijn = .
n→∞ mj
Remarque. La démonstration ci-dessus montre que la partie (a) du théorème est valide aussi bien
dans le cas récurrent nul que dans le cas récurrent positif puisque le théorème du renouvellement
est valide même dans le cas où µ = ∞ (avec l’interprétation 1/µ = 1/∞ = 0). En fait il est facile
de voir que que l’équation (4.5) est valide aussi dans le cas transitoire.
Pour les parties (b), (c) et (d), on a besoin de l’hypothèse de récurrence positive.
PSi la chaı̂ne est récurrente positive, alors on a mj < ∞ et donc

Démonstration de la partie (b).
πj = 1/mj > 0. Pour montrer que j∈S πj = 1, on fixe un état i ∈ S et on utilise le résultat de la
partie (a) : X X X
πj = lim Pijn = lim Pijn = lim 1 = 1.
n→∞ n→∞ n→∞
j∈S j∈S j∈S
SiPS est un ensemble fini,Palors la somme ci-dessus est une somme finie et la deuxième égalité
( j∈S limn→∞ = limn→∞ j∈S ) est triviale. Dans le cas où S est un espace d’états infini, on peut
justifier la deuxième égalité en utilisant l’hypothèse de récurrence positive. Les détails techniques
seront présentés à la section 4.6.
83
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (c). Il faut montrer Pque πP = π. Autrement dit, il faut montrer
que pour tout j ∈ S on a (πP)j = πj , c’est-à-dire i∈S πi Pij = πj . Voici comment y arriver. On
fixe un état k ∈ S et on utilise le résultat de la partie (a) :
X X X X
n n n n+1
πi Pij = lim Pki Pij = lim Pki Pij = lim Pki Pij = lim Pkj = πj .
n→∞ n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S
À nouveau le point délicat est le passage de la somme à l’intérieure de la limite. C’est trivial si
S est un ensemble fini et c’est plus compliqué dans le cas où S est un ensemble infini. Les détails
techniques pour le cas où S est un ensemble infini seront présentés à la section 4.6.
Démonstration de la partie (d). Supposons que le vecteur π ∗ = (πj∗ ; j ∈ S) est aussi une loi
stationnaire pour P. On a alors π ∗ = π ∗ P. De là on conclut que π ∗ = π ∗ P n pour tout n ≥ 1. Donc
si on fixe un état j ∈ S, on a
X
πj∗ = (π ∗ P n )j = πi∗ Pijn pour tout n ≥ 1.
i∈S
On obtient donc
X X X X X
πj∗ = lim πi∗ Pijn = lim πi∗ Pijn = πi∗ lim Pijn = πi∗ πj = πj πi∗ = πj .
n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S i∈S
À nouveau le point délicat est la justification de la deuxième égalité. C’est trivial si S est fini et ça
plus compliqué dans le cas où S est infini. Les détails techniques pour le cas où S est un ensemble
infini seront présentés à la section 4.6.
Remarque 1. On a vu que toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états
fini est récurrente positive. On a donc le corollaire suivant :
Corollaire. Toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états fini possède
une et une seule loi stationnaire. Cette loi stationnaire est la loi π = (πj ; j ∈ S) avec πj = 1/mj .
Remarque 2. Le théorème 5 admet la réciproque suivante : Si une chaı̂ne de Markov irréductible
et apériodique possède un loi stationnaire, alors cette chaı̂ne de Markov est récurrente positive. La
démonstration, qui n’est pas très difficile, ne sera pas présentée ici.
Pour le prochain théorème, on utilisera la notation suivante :
n
X
Nj (n) = 1{j} (Xℓ ).
ℓ=0
La variable aléatoire Nj (n) est donc le nombre total de visites à l’état j du temps 0 au temps n.
Théorème 6. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive et
écrivons π = (πj ; j ∈ S) pour dénoter la loi stationnaire. Alors pour tout i et j dans S on a

Nj (n)
P lim = πj X0 = i = 1.
(4.6)
n→∞ n + 1
Autrement dit, peu importe où on démarre la chaı̂ne, la proportion de temps passé à l’état j durant
l’intervalle de temps de 0 à n converge vers πj quand n tend vers l’infini.
84
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. Avec la notation de la démonstration du Théorème 5, la loi des grands nombres

nous donne " P #
(j)
U (j) + m V
ℓ=1 ℓ

P lim = mj X0 = i = 1.
m→∞ m
Par ailleurs, l’hypothèse de récurrence nous assure que
h i

P lim Nj (n) = ∞ X0 = i = 1.
n→∞
En combinant ces deux équations, on obtient

" PNj (n) (j) #
U (j) + ℓ=1 Vℓ

P lim = mj X0 = i = 1. (4.7)
n→∞ Nj (n)
En examinant le graphe de la trajectoire de notre chaı̂ne de Markov, on observe que

Nj (n) Nj (n)+1
X (j)
X (j)
(j) (j)
U + Vℓ ≤n<U + Vℓ .
ℓ=1 ℓ=1
On a donc PNj (n) (j) PNj (n)+1 (j)

U (j) + ℓ=1 Vℓ n U (j) + ℓ=1 Vℓ
≤ < . (4.8)
Nj (n) Nj (n) Nj (n)
L’équation (4.7) appliquée au terme de droite et au terme de gauche de l’équation (4.8) nous donne

n
P lim = mj X0 = i = 1,

n→∞ Nj (n)
donc
Nj (n) 1
P lim = X0 = i = 1.
n→∞ n mj
Cette dernière équation est équivalente à l’équation (4.6). Ceci complète donc la démonstration du
Théorème 6.
Théorème 7. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive et

écrivons π = (πj ; j ∈ S) pour dénoter
P la loi stationnaire. Soit f , une fonction définie sur S et
à valeurs dans R. Supposons que j∈S |f (j)| πj < ∞. Alors, peu importe l’état initial i ∈ S, on a
n
1 X X
lim f (Xℓ ) = f (j) πj . (4.9)
n→∞ n + 1
ℓ=0 j∈S
Pn
Démonstration. Il suffit d’exprimer la somme ℓ=0 f (Xℓ ) comme une somme sur les états :
n
X X
f (Xℓ ) = f (j) Nj (n).
ℓ=0 j∈S
85
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On obtient donc
n
1 X 1 X
lim f (Xℓ ) = lim f (j) Nj (n)
n→∞ n + 1 n→∞ n + 1
ℓ=0 j∈S
X Nj (n)
= lim f (j)
n→∞ n+1
j∈S

X Nj (n)
= lim f (j)
n→∞ n+1
j∈S
X Nj (n) X
= f (j) lim = f (j) πj .
n→∞ n + 1
j∈S j∈S
Pour la dernière égalité, on a utilisé le Théorème 6. À nouveau le point délicat de cette démonstration
est la justification pour la troisième égalité ci-dessus, c’est-à-dire le passage de la limite à l’intérieur
de la somme. Dans le cas où S est un ensemble fini il n’y a pas de problème. Dans le cas où S est
un ensemble infini le passage de la limite à l’intérieur de la somme peut être justifié avec l’aide d’un
théorème d’analyse appelé le théorème de la convergence dominée.
Remarques.
1. Le côté droit de l’équation (4.9) peut-être interprété comme étant l’espérance de f (X ∗ ) où
X ∗ est une variable aléatoire à valeurs dans S et avec distribution π.
2. Le côté gauche de l’équation (4.9) peut être interprétée comme étant la limite (quand n tend
vers l’infini) du loyer moyen par unité de temps, en dollars, pour la période allant du temps
0 au temps n dans le scénario où à chaque visite à l’état j on doit payer un loyer égal à f (j)
dollars.
3. Sur le côté gauche de l’équation (4.9) on a une moyenne dans le temps alors que sur le côté
droit on a une moyenne sur l’espace des états. Le Théorème 7 nous dit que la moyenne dans
le temps converge vers la moyenne sur l’espace des états. Il s’agit d’un exemple de ce qu’on
appelle un théorème ergodique.
4.4 Quelques exemples

Exemple 8. Considérons le cas de la marche aléatoire sur un espace à seulement deux états,
disons l’espace S = {0, 1}. On peut alors écrire la matrice des probabilités de transition sous la
forme suivante :
1−a a
P=
b 1−b
avec 0 ≤ a ≤ 1 et 0 ≤ b ≤ 1. En examinant le graphe de communication de cette chaı̂ne de Markov,
on note que la chaı̂ne est irréductible et apériodique si et seulement si on a 0 < a+b < 2. Supposons
pour la suite qu’on a 0 < a + b < 2. Le Théorème 5 nous assure qu’il existe une et une seule loi
stationnaire. On vérifie facilement que cette loi stationnaire est la suivante :

b a
π = (π0 , π1 ) = , . (4.10)
a+b a+b
86
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le Théorème 5 nous dit également que pour tout i et j dans S on a limn→∞ Pijn = πj . Dans le
présent scénario, ceci veut dire 
n = b
limn→∞ P00 a+b , 



n a
limn→∞ P01 = a+b , 
n = b
(4.11)
limn→∞ P10 a+b ,



n = a


limn→∞ P11 a+b .
Dans le présent scénario, on peut obtenir le résultat (4.11) et calculant explicitement les Pijn . En
effet, en procédant par induction sur n, on montre facilement que
b n a a n a
!
n a+b + (1 − (a + b)) a+b a+b − (1 − (a + b)) a+b
P =
b n b a n b
a+b − (1 − (a + b)) a+b a+b + (1 − (a + b)) a+b
On peut réécrire cette équation sous la forme suivante :

! a −a
!
b a
n a+b a+b n a+b a+b
P = b a
+ (1 − (a + b)) −b b
(4.12)
a+b a+b a+b a+b
Puisqu’on suppose que 0 < a + b < 2, on a −1 < 1 − (a + b) < 1 et donc
lim (1 − (a + b))n = 0.
n→∞
Donc, dans le cas irréductible et apériodique, l’équation (4.12) nous donne

!
b a
a+b a+b
lim P n = b a
n→∞
a+b a+b
c’est-à-dire
! ! !
n n n n b a
P00 P01 limn→∞ P00 limn→∞ P01 a+b a+b
lim n n
= n n
= b a
. (4.13)
n→∞ P10 P11 limn→∞ P10 limn→∞ P11 a+b a+b
L’équation (4.13) nous dit la même chose que l’équation (4.11).
Remarque. En examinant l’équation (4.12), on constate que non seulement on a limn→∞ Pijn = πj
pour tout i et j dans S mais en fait on a le résultat plus fort que voici :
n
Pij − πj ≤ (1 − (a + b))n pour tout i et j dans S et pour tout n ≥ 1.
Ce résultat nous dit que les Pijn convergent vers les πj à une vitesse géométrique. Il s’agit d’un cas
particulier du théorème suivant. La démonstration sera omise.
Théorème 8. Si P est une matrice stochastique irréductible et apériodique sur un espace d’états
fini et si π = (πj ; j ∈ S) dénote sa loi stationnaire, alors il existe des constantes c > 0 et 0 < ρ < 1
telles que
max Pijn − πj ≤ c ρn pour tout n ≥ 1.
i,j∈S
Exemple 9. Reprenons l’exemple 6 du présent chapitre c’est-à-dire la marche aléatoire sur N0 =

{0, 1, 2, 3, ...} avec paramètre 0 < p < 1/2 et avec taux de réflexion à l’origine 0 < r < 1. Cette
87
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
marche aléatoire est alors une chaı̂ne de Markov irréductible, apériodique et récurrente positive.
D’après notre Théorème 5, cette chaı̂ne de Markov possède une et une seule loi stationnaire. Pour
simplifier la discussion, considérons le cas où r = p. On a vu à l’exemple 6 que dans ce cas la loi
stationnaire est la loi π = (π0 , π1 , π2 , ...) donnée par
πk = (1 − p∗ )k p∗ pour tout k ≥ 0,
avec
1 − 2p
p∗ = .
1−p
1
Cette loi est appelée la loi géométrique(p∗ ) sur les entiers non négatifs. Son espérance est p∗ − 1 et
1−p∗
sa variance est Les théorèmes de la section précédentes nous permettent d’arriver à diverses
p2∗ .
conclusions, dont les suivantes :
• Partant de l’état k, le temps moyen de retour à l’état k est

1 1 1−p 1−p k
mk = = = .
πk (1 − p∗ )k p∗ 1 − 2p p
• Peu importe l’état initial i, la distribution de Xn converge, quand n → ∞, vers la loi
géométrique(p∗ ) sur les entiers non négatifs.
Exemple 10. On considère une chaı̂ne de Markov sur l’espace d’états S = N0 = {0, 1, 2, 3, ...}.
Voici la matrice des probabilités de transition :
 
1/2 1/2 0 0 0 0 ···
 1/3 1/3 1/3 0
 0 0 ···  
P =  1/4 1/4 1/4 1/4 0 0 · · ·  .
 
 1/5 1/5 1/5 1/5 1/5 0 · · · 
 
.. .. .. .. .. .. . .
. . . . . . .
En examinant le graphe de communication, on constate que cette chaı̂ne est irréductible et apé-
riodique. En comparant cette chaı̂ne avec la marche aléatoire récurrente positive sur N0 , on peut
montrer que notre chaı̂ne est récurrente positive. Voir l’exercice 17. Donc, d’après notre Théorème
5, cette chaı̂ne de Markov possède une loi stationnaire unique. Soit π = (π0 , π1 , π2 , π3 , ...), cette loi
stationnaire. On doit avoir πP = π. Cela nous donne les équations suivantes.
1 1 1 1
π0 + π1 + π2 + π3 + ... = π0 (4.14)
2 3 4 5
1 1 1 1
π0 + π1 + π2 + π3 + ... = π1 (4.15)
2 3 4 5
1 1 1
π1 + π2 + π3 + ... = π2 (4.16)
3 4 5
1 1
π2 + π3 + ... = π3 (4.17)
4 5
1
π3 + ... = π4 (4.18)
5
..
. .
On remarque que l’on peut exprimer π1 , π2 , π3 , ... en fonction de π0 . Les équations (4.14) et (4.15)
nous donne π1 = π0 . Ensuite (4.15) et (4.16) nous donne π2 = π1 − 12 π0 = 12 π0 . Si on poursuit dans
88
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
cette voie, on obtient π3 = 61 π0 , π4 = 24

1 1
π0 et π5 = 120 1
π0 . On semble donc avoir πn = n! π0 . On peut
le vérifier plus formellement en remarquant que notre système d’équations nous donne la relation
de récurrence
1
πn+1 = πn − πn−1 n ∈ {1, 2, 3, ...}
n+1
1
et puis en vérifiant que πn = n! π0
est bel et bien solution de cette relation de récurrence. Bref, on
a donc π0 π0
π = π0 , π0 , , , ... .
2! 3!
P∞ −1
Pour terminer, on utilise le fait que n=0 πn = 1 et on obtient π0 = e−1 . On a donc πn = en! . La
loi stationnaire est donc la loi de poisson de moyenne 1.
Exemple 11. On fixe k et ℓ, des entiers positifs. On fixe r, un entier tel que 1 ≤ r ≤ k + ℓ. On
considère deux urnes, disons l’urne A et l’urne B. L’urne A contient k boules et l’urne B en contient
ℓ. Parmi ces k + ℓ boules, il y a r boules rouges et (k + ℓ) − r boules blanches. À chaque unité de
temps on choisit au hasard une boule à partir de l’urne A et une boule à partir de l’urne B et on
les échange ; la boule tirée de l’urne A est déposée dans l’urne B et la boule tirée de l’urne B est
déposée dans l’urne A. Notez que dans chaque urne le nombre de boules ne change jamais ; l’urne
A contient toujours k boules et l’urne B en contient toujours ℓ. Ce modèle est appelé le modèle de
Bernoulli et Laplace pour les gaz incompressibles. On pose
Xn = le nombre de boules rouges dans l’urne A au temps n.
La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’étudiant peut vérifier les faits suivants :
(a) L’espace des états est l’ensemble des entiers i tels que max{0, r − ℓ} ≤ i ≤ min{k, r}.
(b) La chaı̂ne est irréductible.
(c) Sauf dans le cas où k = ℓ = r = 1, la chaı̂ne est apériodique.
(d) La chaı̂ne est récurrente positive.
(e) La loi stationnaire est la loi hypergéométrique(k, r, k + ℓ). Autrement dit, les πj de la loi
stationnaire sont donnés par
r k+ℓ−r
j k−j
πj = k+ℓ
pour tout j ∈ S.
k
4.5 Annexe A : Démonstration du théorème de la section 4.2

Nous présentons ici une version simplifiée du théorème de la section 4.2.
Théorème 9. [Cas spécial du Théorème 4 du présent chapitre].
On fixe ℓ, un entier positif, et on considère des variables aléatoires i.i.d. à valeurs dans {1, 2, 3, ..., ℓ},
disons V1 , V2 , V3 , .... On suppose que p.g.c.d.{j ≥ 1 : P[V1 = j > 0} = 1. On pose
S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m ≥ 0 tel que Sm = n], pour tout n ≥ 0
µ = E[V1 ].
89
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a alors
1
lim pn = . (4.19)
n→∞ µ
Démonstration. On imagine que la suite (Sm ; m ≥ 0) représente la progression d’un jeton le

long de l’échiquier linéaire infini de l’exemple 7 de la section 4.2 avec la différence qu’on travaille
maintenant avec un dé à ℓ faces et ces ℓ faces ne sont pas nécessairement équiprobables. Fixons n,
un entier positif plus grand que ℓ. Puisqu’à chaque lancer de ce dé on avance d’au mons une case,
il est certain qu’un jour on va atteindre la section {n, n + 1, n + 2, n + 3, ...} de l’échiquier. Donc, si
An dénote l’événement “le jeton va se rendre au delà de la case numéro n − 1”, c’est-à-dire si on
pose
An = ∪∞
m=0 {Sm ≥ n}
alors on a P[An ] = 1. Par ailleurs, avant d’aller au-delà de la case n − 1, le jeton va visiter au moins
une des ℓ case situées juste à gauche de la case numéro n. Le schéma ci-dessous illustre le cas où
ℓ = 6.
n−7 n−6 n−5 n−4 n−3 n−2 n−1 n
Si on pose
Bn,1 = “le jeton visite la case n − 1”

Bn,2 = “le jeton visite la case n − 2 et fait ensuite un pas de longueur au moins 2”
Bn,3 = “le jeton visite la case n − 3 et fait ensuite un pas de longueur au moins 3”
..
.
Bn,ℓ = “le jeton visite la case n − ℓ et fait ensuite un pas de longueur au moins ℓ”
alors on a
Bn,1 ∪ Bn,2 ∪ · · · ∪ Bn,ℓ = An .
Combiné avec le fait que P[An ] = 1 et le fait que les événements Bn,1 , Bn,2 , ..., Bn,ℓ sont mutuelle-
ment exclusifs, on obtient
P[Bn,1 ] + P[Bn,2 ] + · · · + P[Bn,ℓ ] = 1. (4.20)
Pour 1 ≤ j ≤ ℓ, on a
P[Bn,j ]
= P[( le jeton visite la case n − j ) ∩ ( le jeton fait ensuite un pas de longueur au moins j )]
= P[ le jeton visite la case n − j ]
×P[ le prochain pas est de longueur au moins j | le jeton vient de visiter la case n − j ]
= pn−j P[V1 ≥ j].
L’équation (4.20) nous donne donc
pn−1 P[V1 ≥ 1] + pn−2 P[V1 ≥ 2] + · · · + pn−ℓ P[V1 ≥ ℓ] = 1 (4.21)
90
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En supposant que cette limite existe, posons
L = lim pn .
n→∞
Si on fait tendre n vers l’infini dans l’équation (4.21), on obtient
L P[V1 ≥ 1] + L P[V1 ≥ 2] + · · · + L P[V1 ≥ ℓ] = 1,
c’est-à-dire
L (P[V1 ≥ 1] + P[V1 ≥ 2] + · · · + P[V1 ≥ ℓ]) = 1.
La somme qui apparait ci-dessus est simplement l’espérance de V1 , c’est-à-dire µ. On a donc L µ = 1,
c’est-à-dire L = 1/µ.
Remarque. La démonstration ci-dessus est incomplète. Nous avons montré que si limn→∞ pn existe,
alors limn→∞ pn = 1/µ. Pour compléter la démonstration, il faudrait montrer que cette limite existe
bel et bien. C’est là qu’on utiliserait l’hypothèse à l’effet que p.g.c.d.{j ≥ 1 : P[V1 = j > 0} = 1.
4.6 Annexe B : Démonstrations des théorèmes de la section 4.3

La prochaine version du présent document contiendra les détails techniques qui ont été omis dans
les démonstrations des théorèmes de la section 4.3. Ces détails sont disponibles sur demande.
91
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 1. On considère une chaı̂ne de Markov (Xn ; n ≥ 0) sur l’ensemble S = {a, b, c}, avec loi
initiale ν = (1/4, 1/2, 1/4) et avec matrice stochastique
 
1/3 1/3 1/3
P =  1/2 1/4 1/4 
3/4 1/8 1/8
Obtenez la loi stationnaire de cette chaı̂ne de Markov.
Numéro 2. On fixe m, un entier positif, et on considère une chaı̂ne de Markov qui évolue de la
façon suivante sur l’espace S = {0, 1, 2, ..., m} :
• Si au temps n on est à l’état 0, alors au temps n + 1 on sera à l’état m.
• Si au temps n on est à l’état 0 < i ≤ m, alors au temps n + 1 on sera à un état choisi avec
distribution uniforme sur l’ensemble {0, 1, ..., i − 1}.
Donnez la matrice des probabilités de transition P. Dans le cas où m = 3, obtenez la loi stationnaire
π = (π0 , π1 , π2 , π3 ).
Numéro 3. On considère une puce qui se déplace sur les six sommets d’un hexagone régulier. À
chaque unité de temps, la puce fait un saut vers un des deux sommets adjacents au sommet sur
lequel elle se trouve. Elle va dans le sens horaire avec probabilité p et dans le sens anti-horaire avec
probabilité 1 − p. On suppose que 0 < p < 1. Les six sommets sont étiquetés 1, 2, 3, 4, 5 et 6 (en
allant dans le sens horaire). Au temps 0 on choisit un des sommets selon le résultat du lancer d’un
dé et on place la puce sur le sommet choisi. Obtenez la probabilité qu’après 37 sauts la puce sera
au sommet numéro 4.
Numéro 4. Montrez que la loi binomiale(m, 1/2) est une loi stationnaire pour le modèle de Eh-
renfest avec m boules.
Numéro 5. On considère la marche aléatoire sur le graphe suivant :
Nous avons rencontré cette marche aléatoire dans les exercices du chapitre 3. L’état situé en plein
centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en commençant par l’état situé
à droite de A et en voyageant dans le sens anti-horaire, les états B, C, D, E, F et G. Les 6 états en
périphérie sont, en commençant par celui d’en haut et en voyageant dans le sens anti-horaire, les
états H, I, J, K, L et M .
92
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) Obtenez la loi stationnaire.

(b) Dans ce problème, les points B, C, D, E, F et G sont à un pas du point A et les points
H, I, J, K, L et M sont à deux pas du point A. À la longue, on est en moyenne à quelle
distance du point A.
Numéro 6. Une particule se déplace sur m points placés sur un cercle. (Imaginez que ces m points
sont situés sur le cercle de rayon 1 aux angles k × 2π m , k = 0, 1, 2, ..., m − 1). À chaque unité de
temps, la particule fait un pas dans le sens anti-horaire avec probabilité a, elle reste sur place avec
probabilité b et elle fait un pas dans le sens horaire avec probabilité c. On suppose que a, b et c
sont positifs et que a + b + c = 1. On pose Xn = la position de la particule au temps n.
(a) Expliquez pourquoi la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov.
(b) La chaı̂ne est-elle irréductible ? Expliquez.
(c) La chaı̂ne est-elle apériodique ? Expliquez.
(d) Obtenez la loi stationnaire.
Numéro 7. On reprend le scénario de l’exercice numéro 14 du chapitre 2. Donc, pour le centre-ville

de Vancouver, on fait les hypothèses suivantes :
(i) Si il a plu hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.75.
(ii) Si il a fait beau hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.55.
(iii) Si il a plu hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est 0.25.
(iv) Si il a fait beau hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est
0.15.
D’après ces hypothèses, il pleut en moyenne combien de jours par année à Vancouver ?
Numéro 8. On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec

 −2/i
 e si j = i + 1
Pij = 1 − e−2/i si j = 1

0 sinon

(ii) Montrez que cette chaı̂ne est récurrente positive.
On a vu au numéro 16(c) du chapitre 2 que cette chaı̂ne de Markov est irréductible, apériodique et
récurrente positive. Obtenez sa loi stationnaire.
Numéro 9. On reprend l’exercice numéro 5 du chapitre 2. Il s’agit d’une version élémentaire du

jeu des serpents et des échelles. L’échiquier est de dimension 3 par 3. Il y a donc 9 cases numérotées
de 1 à 9. Il y a deux échelles : une qui va de la case 2 à la case 7 et une qui va de la case 3 à la
case 5. Il y a deux serpents : un qui va de la case 6 à la case 1 et un qui va de la case 8 à la case
4. On joue avec une pièce de monnaie au lieu d’un dé. Avec Pile, on avance de une case, avec Face
on avance de deux cases. Partant de la case 0, ça va prendre en moyenne combien de lancers de la
pièce de monnaie pour atteindre la case 9 ?
93
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 10. On considère un jeu ordinaire de 52 cartes. On suppose que le jeu est neuf ; les cartes
sont dans l’ordre usuel des jeux de carte neufs (d’abord les piques de as à roi, puis les coeurs de
as à roi, puis les trèfles de as à roi, et enfin les carreaux de as à roi). On mélange les cartes selon
la méthode suivante. On choisit un nombre au hasard et de façon uniforme parmi les nombres 1 à
52. Si le nombre choisi est le nombre k, alors on prend la carte en position k et on la place sur le
dessus du paquet c’est-à-dire en position 1. Si on fait une transition par seconde, combien de temps
ça prendra, en moyenne, pour que le jeu de carte revienne à son état initial ?
Numéro 11. Pour la pièce A, la probabilité de pile est 9/10. Pour la pièce B, la probabilité de pile
est 5/10. Au départ, je choisis une pièce au hasard. Je lance cette pièce jusqu’à ce que j’obtienne
le côté face. Je change alors de pièce et je lance ma nouvelle pièce jusqu’à ce que j’obtienne le côté
face. Dès que j’obtiens face, je change de pièce. Et ainsi de suite. À la longue, quelle proportion des
lancers utilisent la pièce A ?
Numéro 12. On fixe 0 < p < 1 et on considère la chaı̂ne de Markov qui évolue de la façon
suivante sur l’espace S = {a, b, c, d}. À chaque unité de temps, on lance une pièce de monnaie avec
probabilité de pile égale à p. Si on obtient le côté face, alors on reste où on est. Si on obtient le
côté pile, alors on se déplace vers un des 3 autres états, chacun avec la même probabilité.
(a) Obtenez P, la matrice des probabilités de transition de cette chaı̂ne de Markov.
(b) Obtenez la loi stationnaire
(c) [Difficile]. Calculez explicitement la matrice P n et vérifiez que P n converge bel et bien vers
la matrice dont chacune des lignes est la loi stationnaire.
Numéro 13. On fixe m, un entier positif. On considère une séquence de lancers d’un dé. On écrit
Sn pour dénoter le total des n premiers lancers et on écrit pm (n) pour dénoter la probabilité que Sn
est un multiple de m. Obtenez limn→∞ pm (n). Suggestion : examinez la chaı̂ne de Markov définie
par Xn = le reste de la division de Sn par m.
Numéro 14. On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, 5} avec matrice des probabilités
de transition donnée par  
0 1/5 4/5 0 0
 0 0 0 1/2 1/2 
 
P=  0 0 0 1/4 3/4 

 1 0 0 0 0 
1 0 0 0 0
Calculez directement les mj = E[Tj∗ | X0 = j] et déduisez-en la loi stationnaire.
Numéro 15. On considère une chaı̂ne de Markov irréductible et apériodique sur l’espace d’états
S = {A, B, C, D}. Supposons que
• le temps moyen entre deux visites successives à l’état A est 3,
• le temps moyen entre deux visites successives à l’état B est 4,
• le temps moyen entre deux visites successives à l’état C est 6.
Quel est le temps moyen entre deux visites successives à l’état D ?
Numéro 16. Un consultant en statistique a des clients à Montréal, à Ottawa et à Québec. Il passe
toutes ses nuits dans l’une ou l’autre de ces trois villes. Il se déplace de ville en ville selon une
chaı̂ne de Markov avec les règles suivantes :
94
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
• Si un jour il est à Ottawa, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 1/2 qu’il restera à Ottawa.
• Si un jour il est à Montréal, alors il y a probabilité 1/8 qu’il sera à Ottawa le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 3/4 qu’il restera à Montréal.
• Si un jour il est à Québec, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Ottawa le lendemain et probabilité 1/2 qu’il sera à Québec.
À Ottawa le consultant paie 135$ pour une nuit à l’hôtel. À Montréal il paie 170$ et à Québec il
paie 110$. À la longue il paie en moyenne combien par nuit ?
Numéro 17. On considère la marche aléatoire sur le graphe connexe suivant :
A C D
E F G
(i) Obtenez P[X3 = F | X0 = B].

(ii) Si (πA , πB , πC , πD , πE , πF , πG ) dénote la loi stationnaire, alors que vaut πG ?
Numéro 18. Voici la matrice stochastique d’une chaı̂ne de Markov sur l’ensemble S = {1, 2, 3, 4, 5} :
 
0 1/2 1/2 0 0
 1/3 0 2/3 0 0 
 
P=  1/4 1/4 0 1/4 1/4 

 0 0 2/3 0 1/3 
0 0 1/2 1/2 0
Obtenez la loi stationnaire.
Numéro 19. On considère le modèle de Bernoulli et Laplace décrit à l’exemple 11, section 4.4.
(a) Obtenez la matrice des probabilités de transition de cette chaı̂ne de Markov dans le cas où
l’urne A contient 7 boules, l’urne B contient 10 boules et seulement 5 de ces 17 boules sont
rouges.
(b) Obtenez les probabilités de transition Pij dans le cas général. Notez qu’on peut avoir Pij > 0
seulement si j ∈ {i − 1, i, i + 1}. Il suffit donc de calculer les probabilités Pi,i−1 , Pii et Pi,i+1 .
Numéro 20. [Difficile mais joli]. On considère la chaı̂ne de Markov sur S = {0, 1, 2, 3, ...} avec
P0,0 = 3/4 et P0,1 = 1/4 et, pour i ≥ 1,

1 1 1 1
Pi,i+1 = 1− et Pi,i−1 = 1+ .
2 i+2 2 i+2
Obtenez la loi stationnaire de cette chaı̂ne de Markov.
95
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
96
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 5
Processus de branchement
5.1 Introduction
On suppose que ξn,ℓ , n ≥ 0, ℓ ≥ 1, sont des variables aléatoires à valeurs dans N0 = {0, 1, 2, ...},
indépendantes et identiquement distribuées. On pose pj = P[ξn,ℓ = j] et on écrit p = (p0 , p1 , p2 , ...).
On fixe k ∈ N0 , on pose X0 = k et on définit X1 , X2 , X3 , ... de façon itérative à l’aide de l’équation
Xn
X
Xn+1 = ξn,ℓ n ≥ 0. (5.1)
ℓ=1
Définition. La suite (Xn ; n ≥ 0) est appelée un processus de branchement de Galton et Watson

avec distribution de progéniture p = (p0 , p1 , p2 , ...) et avec k individus à la génération 0. La variable
aléatoire ξn,ℓ représente le nombre d’enfants de l’individu numéro ℓ de la ne génération. La variable
Xn représente le nombre total d’individus présents à la génération n.
Remarque. Ce modèle fut introduit en 1875 par Francis Galton (1822-1911) et Henry William
Watson (1827-1903). Galton s’intéressait au problème de la survie des noms de famille en Angleterre.
En avril 1873 il publia le problème suivant dans le magazine Educational Times :
PROBLEM 4001: A large nation, of whom we will only concern ourselves

with adult males, N in number, and who each bear separate surnames
colonise a district. Their law of population is such that, in each
generation, a0 per cent of the adult males have no male children who
reach adult life; a1 have one such male child; a2 have two; and so on
up to a5 who have five. Find (1) what proportion of their surnames
will have become extinct after r generations; and (2) how many
instances there will be of the surname being held by m persons.
Watson proposa une solution et, en 1875, Galton et Watson publièrent ensemble un article intitulé
On the probability of extinction of family names dans le Journal of the Anthropological Institute of
Great Britain and Ireland. En réalité, le mathématicien français Irénée-Jules Bienaymé (1796-1878)
avait étudié ce modèle dès 1845. C’est pourquoi on dit parfois “le processus de branchement de
Bienaymé-Galton-Watson”.
Le processus de Galton et Watson est une chaı̂ne de Markov à temps discret. L’espace des états est
l’ensemble des entiers non négatifs N0 . La matrice des probabilités de transitions est donnée par la
proposition suivante. Rappelons d’abord le concept de convolution de distributions de probabilité.
97
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Rappel. Si u = (u0 , u1 , u2 , ...) et v = (v0 , v1 , v2 , ...) sont des distributions de probabilité sur N0 ,
alors la convolution de u et v est la distribution de probabilité sur N0 , disons w = (w0 , w1 , w2 , ...),
donnée par
X k
wk = ui vk−i k ≥ 0.
i=0
La convolution
P de u et v est parfois dénotée u ⋆ v. On peut donc écrire w = u ⋆ v. On a donc
(u ⋆ v)k = ki=0 ui vk−i . Le concept de convolution est important à cause du résultat suivant : si X
et Y sont des variables aléatoires indépendantes, avec distributions u et v respectivement, alors la
distribution de la variable aléatoire X + Y est la convolution u ⋆ v. Il s’ensuit que si X1 , X2 , ..., Xm
sont desPvariables aléatoires i.i.d. avec distribution u = (u0 , u1 , u2 , ...), alors la distribution de la
somme m i=1 Xi est la convolution u ⋆ u ⋆ u ⋆ · · · ⋆ u. Cette convolution est parfois notée u
⋆m et elle
est appelée la convolution d’odre m de la distribution de probabilité u (avec elle-même). Notez que
la convolution d’odre 1 de la loi u est simplement la loi u et la convolution d’odre 0 de la loi u est
simplement la distribution concentrée à l’état 0.
Proposition 1. Le processus de branchement de Galton et Watson, avec distribution de progéniture

p = (p0 , p1 , p2 , ...) et avec k individus à la génération 0, est une chaı̂ne de Markov à temps discret sur
l’espace d’états N0 . Sa loi initiale est la distribution de probabilité concentrée à l’état k. Sa matrice
de probabilités de transition est la matrice P = (Pij ; i ≥ 0, j ≥ 0) dont la ie ligne (Pij ; j ≥ 0) est
la convolution d’odre i de la distribution de progéniture p = (p0 , p1 , p2 , ...).
Démonstration. Il est clair que (Xn ; n ≥ 0) est une chaı̂ne de Markov avec espace d’états N0 et
avec loi initiale concentrée à l’état k. Les probabilités de transition sont données par
"X #
Xn

Pij = P[Xn+1 = j|Xn = i] = P ξn,ℓ = j Xn = i = P[ξn,1 + ξn,2 + · · · + ξn,i = j].

ℓ=1
Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,i étant i.i.d. avec distribution p, il suit que la distribution de
ξn,1 + ξn,2 + · · · + ξn,i est la convolution d’ordre i de la distribution de progéniture p = (p0 , p1 , p2 , ...).
Dans ce qui suit, on s’intéresse surtout au cas où il y a un seul individu à la génération 0. Les
questions concernant le cas général peuvent facilement se ramener à ce cas spécial ; s’il y a k
individus à la génération 0, avec k > 1, alors le processus de branchement de Galton et Watson
peut être vu comme étant la superposition de k processus de branchement de Galton et Watson
indépendants les uns des autres et ayant chacun exactement un individu à la génération 0.
Le prochain résultat concerne la structure de communication du processus de Galton et Watson.
Proposition 2. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...).
(a) L’état 0 est absorbant.
(b) Si p1 = 1, alors tous les états sont absorbants.
(c) Si p1 < 1, alors tous les états autres que l’état 0 sont transitoires.
Démonstration.
(a) Si on a 0 individu à la génération n, alors il est clair qu’on aura 0 individu à la génération
suivante. Autrement dit, P00 = 1. L’état 0 est donc un état absorbant.
98
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) Si p1 = 1, c’est-à-dire si p = (0, 1, 0, 0, 0, ...), alors les individus de notre population ont
toujours exactement 1 enfant. Il s’ensuit que la taille de la population est constante ! Donc
on a Pii = 1 pour tout i ∈ N0 . Les états sont donc tous absorbants !
(c) Nous allons considérer séparément le cas où p1 < 1 et p0 > 0 et le cas où p1 < 1 et p0 = 0.
Le cas où p1 < 1 et p0 > 0. Dans ce cas on obtient, pour tout i ≥ 1, P[X1 = 0|X0 = i] =
pi0 > 0. Or l’état 0 est absorbant. Donc, partant de l’état i, on a une probabilité positive de
ne plus jamais revenir à l’état i. L’état i est donc transitoire.
Le cas où p1 < 1 et p0 = 0. Dans ce cas, la taille de la population ne peut jamais

diminuer. De plus, si on a i ≥ 1 individus au temps n, alors on a une probabilité pi1 d’avoir
à nouveau i individus au temps n + 1 (c’est le cas où chacun des i individus de la génération
n a exactement 1 enfant) et une probabilité 1 − pi1 > 0 d’avoir plus que i individus à la
génération n + 1 (c’est la cas où au moins un des i individus de la génération n a plus que
1 enfant). Donc, la distribution du nombre total de visites à l’état i, sachant qu’on démarre
à l’état i, est la loi géométrique avec probabilité de succès 1 − pi1 > 0. Il suit que l’état i est
transitoire.
Génération 0
Génération 1
Génération 2
Génération 3
Génération 4
Figure 1 : Processus de Galton et Watson
Exemple 1. On considère une population d’amibes dans une expérience en laboratoire. Au temps
0 notre population compte seulement 3 amibes. Après une unité de temps, indépendamment les
unes des autres, chaque amibe a une probabilité 0.45 de mourir et une probabilité 0.55 de se
diviser en 2 nouvelles amibes. Si on pose Xn = “le nombre d’amibes au temps n”, alors la suite
(Xn ; n ≥ 0) est un processus de branchement de Galton et Watson avec distribution de progéniture
p = (0.45, 0, 0.55, 0, 0, 0, ...).
99
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
5.2 L’espérance et la variance de Xn

Définition. L’espérance de la distribution de progéniture est dénotée µ. On a donc
∞
X
µ= jpj .
j=0
Définition. La variance de la distribution de progéniture est dénotée σ 2 . On a donc

∞
X
σ2 = (j − µ)2 pj .
j=0
Remarque. La moyenne µ est toujours bien définie mais elle peut être infinie. Dans le cas où
µ = ∞, on dit que la variance n’existe pas.
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ. Alors
E[Xn |X0 = 1] = µn . (5.2)
Démonstration. Par définition, on a E[X1 |X0 = 1] = E[ξ0,1 ] = µ. Fixons n ≥ 1. On obtient

∞
X
E[Xn+1 |X0 = 1] = E[Xn+1 |X0 = 1, Xn = j] P[Xn = j|X0 = 1]
j=0
∞
X
= E[Xn+1 |Xn = j] P[Xn = j|X0 = 1]
j=0
∞
X
= E[ξn,1 + ξn,2 + · · · + ξn,j ] P[Xn = j|X0 = 1].
j=0
Pour la première égalité, on a simplement conditionné sur Xn . Pour la deuxième égalité, on a utilisé
la propriété de Markov. Enfin, pour la troisième égalité on a utilisé le fait que si Xn = j, alors
l’équation (5.1) nous donne Xn+1 = ξn,1 + ξn,2 + · · · + ξn,j . Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,j
étant i.i.d. avec moyenne µ, on a E[ξn,1 + ξn,2 + · · · + ξn,j ] = jµ. L’équation précédente nous donne
donc
∞
X
E[Xn+1 |X0 = 1] = jµ P[Xn = j|X0 = 1]
j=0
∞
X
= µ j P[Xn = j|X0 = 1] = µ E[Xn |X0 = 1].
j=0
On a donc
E[X1 |X0 = 1] = µ
et E[Xn+1 |X0 = 1] = µ E[Xn |X0 = 1] pour tout n ≥ 1.
On obtient alors l’équation (5.2) par itération.
100
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ < ∞ et de variance σ 2 . Alors


 nσ 2 si µ = 1
Var[Xn |X0 = 1] = µn−1 (µn − 1) 2 (5.3)

 σ si µ 6= 1.
µ−1
Démonstration. Par définition, on a Var[X1 |X0 = 1] = Var[ξ0,1 ] = σ 2 . Fixons n ≥ 1. La formule

de calcul de variance par conditionnement nous donne
Var[Xn+1 |X0 = 1] = E[Var[Xn+1 |X0 = 1, Xn ]|X0 = 1] + Var[E[Xn+1 |X0 = 1, Xn ]|X0 = 1]

= E[Var[Xn+1 |Xn ]|X0 = 1] + Var[E[Xn+1 |Xn ]|X0 = 1]
= E[Xn σ 2 |X0 = 1] + Var[Xn µ|X0 = 1]
= σ 2 E[Xn |X0 = 1] + µ2 Var[Xn |X0 = 1]
= σ 2 µn + µ2 Var[Xn |X0 = 1].
Pour la dernière égalité on a utilisé la Proposition 3. On obtient ainsi
Var[X1 |X0 = 1] = σ 2
Var[X2 |X0 = 1] = σ 2 µ (1 + µ)

Var[X3 |X0 = 1] = σ 2 µ2 1 + µ + µ2

Var[X4 |X0 = 1] = σ 2 µ3 1 + µ + µ2 + µ3
..
.
La formule générale est donc

Var[Xn |X0 = 1] = σ 2 µn−1 1 + µ + µ2 + · · · + µn−1 (5.4)

Si µ = 1, on a µn−1 1 + µ + µ2 + · · · + µn−1 = n. Si µ 6= 1, on a µn−1 1 + µ + µ2 + · · · + µn−1 =
µn−1 (µn − 1)/(µ − 1). L’équation (5.4) est donc équivalente à l’équation (5.3).
Retour à l’exemple 1. Calculons l’espérance, disons µ10 , et l’écart-type, disons σ10 , de la taille
de la population après 10 unités de temps. Avec p = (9/20, 0, 11/20, 0, 0, ...) on obtient µ = 11/10
et σ 2 = 99/100. Les propositions 3 et 4 nous donnent donc
E[X10 |X0 = 1] = 2.594 et Var[X10 |X0 = 1] = 37.2038.
On en déduit que
E[X10 |X0 = 3] = 3 × 2.5937 = 7.781 et Var[X10 |X0 = 3] = 3 × 37.2038 = 111.61.
On obtient donc
µ10 = 7.781 et σ10 = 10.565.
101
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
5.3 La fonction génératrice des probabilités

La fonction génératrice des probabilités (f.g.p.) est un outil semblable à la fonction génératrice des
moments. Elle est particulièrement utile lorsqu’on travaille avec des variables aléatoires à valeurs
dans l’ensemble des entiers non négatifs N0 . La présente section vise deux objectifs. D’abord nous
présentons les principales propriétés de la f.g.p. dans le cas général. Puis nous utilisons ces résultats
dans le cadre du processus de Galton et Watson.
Définition. Soit N , une variable aléatoire à valeurs dans N0 = {0, 1, 2, ...} et avec fonction de
masse pk = P[N = k]. La fonction génératrice des probabilités de la variable aléatoire N , ou de la
distribution de probabilité p = (p0 , p1 , p2 , ...), est la fonction dénotée ϕ(s) et définie par
∞
X ∞
X
ϕ(s) = E[sN ] = sk P[N = k] = s k pk .
k=0 k=0
La proposition suivante regroupe les principales propriétés élémentaires de la fonction génératrice

des probabilités. Ces propriétés sont des conséquences immédiates de la théorie des séries de puis-
sances et du fait que les pk sont non négatifs et de somme unité. Ces propriétés sont valides pour
la fonction génératrice des probabilités de n’importe quelle distribution de probabilité sur N0 .
Proposition 5. Soit p = (p0 , p1 , p2 , ...), une distribution de probabilité sur N0 , avec fonction
génératrice des probabilités ϕ(s) et avec moyenne µ. Donc
∞
X ∞
X
ϕ(s) = s j pj et µ= jpj .
j=0 j=0
(a) On a toujours ϕ(0) = p0 .

(b) On a toujours ϕ(1) = 1.
(c) [−1, 1] ⊂ Dϕ , où Dϕ dénote lePdomaine de la fonction ϕ, c’est-à-dire
∞ j
Dϕ = {s ∈ R tel que la série j=0 s pj converge}.
(d) La fonction ϕ(s) est continue sur (−1, 1), continue à droite au point s = −1 et continue à
gauche au point s = 1.
(e) Toutes les dérivées
P∞ jde la fonction ϕ(s) existent sur (−1, 1). On les obtient en dérivant la
série ϕ(s) = j=0 s pj terme à terme.
(f) Les dérivées de la fonction ϕ(s) sont non négatives en tout point s ∈ [0, 1).
(g) On a µ = lim ϕ′ (s). Cette limite est parfois notée ϕ′ (1− ).
s↑1
(h) Si p0 < 1, alors ϕ′ (s) > 0 pour tout 0 < s < 1.
(i) Si p0 + p1 < 1, alors ϕ′′ (s) > 0 pour tout 0 < s < 1.
Quelques explications.
• Les parties (a) et (b) sont élémentaires.
• Les parties (c), (d) et (e) sont des conséquences du fait que si |s| ≤ 1, alors
∞
X ∞ ∞
j X X
s pj = |s|j pj ≤ pj = 1 < ∞.
j=0 j=0 j=0
102
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P
Ceci montre que la série ∞ j
j=0 s pj converge absolument en tout point s ∈ [−1, 1]. Pour voir
que ceci entraı̂ne les points (c), (d) et (e) de la proposition, l’étudiant devrait revoir la partir
du cours Analyse I qui porte sur les séries de puissances.
• Pour le point (f), on note d’abord qu’en vertu du point (e) on a, pour tout s ∈ (−1, 1),
ϕ′ (s) = p1 + 2p2 s + 3p3 s2 + 4p4 s3 + · · · (5.5)

′′ 2 3
ϕ (s) = 2p2 + 6p3 s + 12p4 s + 20p5 s + · · · (5.6)
′′′ 2
ϕ (s) = 6p3 + 24p4 s + 60p5 s + · · ·
etc.
Puisque leurs coefficients sont tous non négatifs, ces séries de puissances prennent seulement
des valeurs non négatives lorsqu’on les évalue en un point s ∈ [0, 1).
• Le point (g). Lorsqu’on prends la limite s ↑ 1 dans l’équation (5.5), on obtient

lim ϕ′ (s) = lim p1 + 2p2 s + 3p3 s2 + 4p4 s3 + · · · = p1 + 2p2 + 3p3 + 4p4 + · · · = µ.
s↑1 s↑1
Pour justifier le passage de “limite de la somme” à “somme des limites”, l’étudiant devrait
revoir la partie du cours Analyse I portant sur les séries de puissances.
• Pour le point (h), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.5), on obtient ϕ′ (s) ≥ 0. De plus, si p0 < 1 alors on a pj > 0 pour au moins une valeur
j ≥ 1 ; dans ce cas on obtient ϕ′ (s) > 0 pour tout 0 < s < 1.
• Pour le point (i), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.6), on obtient ϕ′′ (s) ≥ 0. De plus, si p0 + p1 < 1 alors on a pj > 0 pour au moins une
valeur j ≥ 2 ; dans ce cas on obtient ϕ′′ (s) > 0 pour tout 0 < s < 1.
L’étudiant est familier avec le fait que la fonction génératrice des moments d’une somme de variables
aléatoires indépendantes est égale au produit des fonctions génératrices des moments de ces variables
aléatoires. La proposition suivante nous dit qu’il en est de même pour la fonction génératrice des
probabilités.
Proposition 6. Si X et Y sont des variables aléatoires indépendantes et à valeurs dans N0 , alors
la f.g.p. de la variable aléatoire X + Y est égale au produit des f.g.p. de X et de Y . Il en est de
même pour toute somme d’un nombre fini de variables aléatoires indépendantes et à valeurs dans
l’ensemble des entiers non négatifs N0 .
Démonstration. Posons T = X + Y . Sous les hypothèses énoncées ci-dessus, on obtient
ϕT (s) = E[sT ] = E[sX+Y ] = E[sX sY ] = E[sX ] E[sY ] = ϕX (s) ϕY (s).
L’égalité E[sX sY ] = E[sX ] E[sY ] vient du fait que l’espérance d’un produit de variables aléatoires
indépendantes est égale au produit de leurs espérances. Ici les variables aléatoires sX et sY sont
indépendantes puisque X et Y sont indépendantes.
Retour à l’exemple 1. Voici la f.g.p. de la distribution de progéniture de l’exemple 1 :

9 11 2
ϕ(s) = E[sξ0,1 ] = s0 P[ξ0,1 = 0] + s2 P[ξ0,1 = 2] = + s
20 20
103
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Retour aux processus de branchement de Galton et Watson.

Le théorème suivant est fondamental pour l’étude des processus de branchement.
Théorème 1. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). Soit ϕ(s), la f.g.p. de la distribution de progéniture. Alors,
conditionnellement à X0 = 1, la f.g.p. de Xn est égale à la fonction ϕ(s) composée avec elle-même
n fois. Autrement dit, si on pose
ϕn (s) = E[sXn |X0 = 1],
alors on a, pour tout s ∈ [−1, 1],
ϕn (s) = (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(s) = ϕ(ϕ(ϕ(ϕ(ϕ(ϕ (s)))))).

| {z } | {z }
n fois n fois
Corollaire.
P[Xn = 0 | X0 = 1] = ϕn (0) = (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(0) = ϕ(ϕ(ϕ(ϕ(ϕ(ϕ (0)))))).

| {z } | {z }
n fois n fois
Démonstration. On procède comme dans la démonstration de la proposition 3.
ϕn+1 (s) = E[sXn+1 |X0 = 1]

∞
X
= E[sXn+1 |X0 = 1, Xn = j] P[Xn = j|X0 = 1]
j=0
∞
X
= E[sXn+1 |Xn = j] P[Xn = j|X0 = 1]
j=0
∞
X
= E[sξn,1 +ξn,2 +···ξn,j ] P[Xn = j|X0 = 1]
j=0
∞
X
= ϕξn,1 + ξn,2 + · · · ξn,j (s) P[Xn = j|X0 = 1]
j=0
∞ j
!
X Y
= ϕξn,ℓ (s) P[Xn = j|X0 = 1]
j=0 ℓ=1
∞
X
= (ϕ(s))j P[Xn = j|X0 = 1]
j=0
= E[(ϕ(s))Xn |X0 = 1] = ϕn (ϕ(s)).
On obtient le résultat désiré par itération.
Démonstration du Corollaire. Le corollaire est une conséquence immédiate du Théorème 1 et

de la partie (a) de la Proposition 5.
104
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
5.4 La probabilité de disparition de la population

Lorsqu’on est en présence d’un processus de branchement de Galton et Watson, une question
fondamentale se pose : est-ce que la population va disparaı̂tre ou est-ce qu’elle va survivre pour
toujours ? Posons
∞
[
D= {Xn = 0}.
n=0
La réalisation de cet événement D signifie la disparition de la population. On s’intéresse à la
probabilité de disparition de la population.
Définition. Soit (Xn ; n ≥ 0), un processus de Galton et Watson. La probabilité de disparition est
notée θ et est définie par l’équation
θ = P[D|X0 = 1] = P [ ∪∞
n=0 {Xn = 0} | X0 = 1] .
Le résultat suivant nous dit qu’il est suffisant de considérer le cas où X0 = 1.
Proposition 7. Pour tout k ∈ N0 on a P[D|X0 = k] = (P[D|X0 = 1])k c’est-à-dire
P[D|X0 = k] = θ k .
Démonstration. Supposons qu’on a k individus au temps 0, disons les individus I1 , I2 , ..., Ik .

Alors, la population au temps n peut-être vue comme étant composée de k sous-populations : les
descendants de l’individu I1 , les descendants de l’individu I2 ,..., les descendants de l’individu Ik . Ces
k sous-populations se comportent indépendamment les unes des autres. Chaque sous-population
est un processus de Galton et Watson avec un seul individu au temps 0. Donc pour chaque sous-
population la propabilité de disparition est θ. La probabilité que la population entière disparaisse
est égale au produit des probabilités de disparition de chacune des sous-populations. On a donc
P[D|X0 = k] = θ k .
Proposition 8.
θ = lim P [Xn = 0|X0 = 1]
n→∞
Démonstration. C’est une simple conséquence de la propriété de continuité des probabilités. En

effet, puisque {X0 = 0} ⊂ {X1 = 0} ⊂ {X2 = 0} ⊂ {X3 = 0} ⊂ · · · , on obtient
θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = lim P[Xn = 0|X0 = 1].
n→∞
Proposition 9. h i
θ = P lim Xn = 0|X0 = 1
n→∞
Démonstration. Puisque la suite (Xn ; n ≥ 0) est à valeurs dans N0 et puisque l’état 0 est absor-
bant, on a n o
∪∞n=0 {X n = 0} = ω ∈ Ω : lim X n (ω) = 0 .
n→∞
On a donc
θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = P[ lim Xn = 0 | X0 = 1].
n→∞
105
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le résultat suivant est fondamental. Il nous dit que si on exclut le cas trivial où p1 = 1 alors
ou bien la population disparaı̂t (c’est-à-dire limn→∞ Xn = 0), ou bien elle explose (c’est-à-dire
limn→∞ Xn = ∞).
de progéniture p = (p0 , p1 , p2 , ...). Supposons que p1 < 1. Alors on a
P[ lim Xn = 0|X0 = 1] = θ,
n→∞
P[ lim Xn = ∞|X0 = 1] = 1 − θ.
n→∞
Démonstration. On a vu à la Proposition 2 que si p1 < 1, alors tous les états autres que 0 sont
transitoires. Ceci implique que pour tout k ≥ 1, la chaı̂ne visitera l’ensemble {1, 2, 3, ..., k} seulement
un nombre fini de fois. Comme l’état 0 est absorbant, il suit que ou bien on aura limn→∞ Xn = 0,
ou bien on aura limn→∞ Xn = ∞. Donc
P[ lim Xn = 0|X0 = 1] + P[ lim Xn = ∞|X0 = 1] = 1.

n→∞ n→∞
Combiné avec la Proposition 9, cette dernière équation nous donne la conclusion souhaitée.
Le théorème suivant est le principal résultat du présent chapitre. Il nous donne une recette pour
calculer θ, la probabilité de disparition d’un processus de Galton et Watson. La partie (a) peut
être utilisée pour calculer une approximation de θ. La partie (b) peut être utilisée pour calculer la
valeur exacte de θ.
Théorème 3. Soit (Xn ; n ≥ 0), un processus de Galton et Watson avec distribution de progéniture
p = (p0 , p1 , p2 , ...). Soit ϕ(s), la f.g.p. de la distribution de progéniture. Soit ϕn (s), la f.g.p. de la
distribution conditionnelle de Xn sachant que X0 = 1. Soit θ, la probabilité de disparition de la
population.
(a) On a toujours θ = lim ϕn (0) = limn→∞ (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(0).
n→∞ | {z }
n fois
(b) La probabilité de disparition θ est la plus petite solution non négative de l’équation s = ϕ(s).
Démonstration de la partie (a). La partie (a) est une conséquence immédiate de la Proposition
8 et du Corollaire du Théorème 1.
Démonstration de la partie (b). À partir du résultat de la partie (a) on obtient ϕ(θ) =
ϕ (limn→∞ ϕn (0)). La fonction ϕ(s) étant continue, on a ϕ(limn→∞ sn ) = limn→∞ ϕ(sn ) pour toute
suite convergente sn avec sn ∈ [0, 1]. En particulier on obtient

ϕ(θ) = ϕ lim ϕn (0) = lim ϕ(ϕn (0)) = lim ϕn+1 (0) = θ.
n→∞ n→∞ n→∞
Ceci montre que θ est solution de l’équation s = ϕ(s). Pour une démonstration alternative, voir
l’exercice 14.
La probabilité de disparition θ est donc une solution de l’équation s = ϕ(s). Etant une probabilité,
ce θ est une solution non négative de l’équation s = ϕ(s). Il reste à montrer que c’est la plus petite
solution non négative de l’équation s = ϕ(s). Nous allons considérer les 4 cas exhaustifs suivants.
106
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le cas où p0 = 0 : Si p0 = 0, alors les individus de notre population ont toujours au moins un
enfant de sorte que la population ne disparaı̂t jamais. On a donc θ = 0. Notre θ est donc bel et
bien la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où p0 = 1 : Si p0 = 1, alors avec probabilité 1 la population disparaı̂t dès la génération
1. On a donc θ = 1. Par ailleurs, si p0 = 1 alors on a ϕ(s) = 1 pour tout s et la seule solution de
l’équation s = ϕ(s) est la solution s = 1. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ ≤ 1 : D’après la Proposition 5, les conditions suivantes sont satisfaites :
(i) ϕ(0) = p0 ∈ (0, 1),
(ii) ϕ(1) = 1,
(iii) lims↑1 ϕ′ (s) = µ,
(iv) ϕ′ (s) > 0 pour tout s ∈ (0, 1),
(v) ϕ′′ (s) = 0 pour tout s ∈ (0, 1) si p0 + p1 = 1.
(vi) ϕ′′ (s) > 0 pour tout s ∈ (0, 1) si p0 + p1 < 1.
Lorsque µ ≤ 1, ces conditions entraı̂nent que ϕ(s) > s pour tout s ∈ [0, 1). L’équation s = ϕ(s)
possède donc une seule solution sur l’intervalle [0, 1], la solution s = 1. Notre θ est donc bel et bien
la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ > 1 : Lorsque µ > 1, les conditions (i) à (vi) énoncées ci-dessus
entraı̂nent que l’équation s = ϕ(s) possède exactement deux solutions sur l’intervalle [0, 1] : la
solution s = 1 et une solution s∗ ∈ (0, 1). Il nous reste à montrer que ce s∗ est notre probabilité
de disparition θ. À la partie (a) du théorème, on a montré que θ = limn→∞ ϕn (0). En examinant
le graphe de la fonction ϕ(s), présenté à la page suivante, on constate que la suite (ϕn (0); n ≥ 0)
converge vers s∗ . On conclut que s∗ = θ. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).
107
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
p0
p0 ϕ(p0) θ
Figure 2. La f.g.p. du processus de Galton et Watson

dans le cas où 0 < p0 < 1 et µ > 1.
108
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le cas où p1 = 1 n’est pas très intéressant puisque dans ce cas il n’y a rien d’aléatoire et tous les
états sont absorbants. Pour le dernier théorème de la présente section, on considère seulement le
cas où p1 < 1.
de progéniture p = (p0 , p1 , p2 , ...). On suppose que p1 < 1.
(a) Si µ < 1, alors θ = 1.
(b) Si µ = 1, alors θ = 1.
(c) Si µ > 1, alors θ < 1.
Démonstration. Ce théorème est une conséquence du Théorème 3. Il suffit d’examiner le graphe

de la fonction génératrice des probabilités ϕ(s) tout en se rappelant que µ est la pente de la tangente
du graphe de cette fonction à s = 1.
Le Théorème 4 motive la définition suivante :
Définition. On considère une processus de branchement de Galton et Watson. On suppose que µ

dénote la moyenne de la distribution de progéniture. On suppose que p1 < 1.
• Le cas où µ < 1 est appelé le cas sous-critique.
• Le cas où µ = 1 est appelé le cas critique.
• Le cas où µ > 1 est appelé le cas sur-critique.
Retour à l’exemple 1. Dans notre exemple, on a µ > 1. Le Théorème 4 nous assure que θ < 1.
Calculons ce θ.
Calcul de θ via la partie (a) du Théorème 3. Avec le logiciel R on obtient
varphi <- function(n)

{
s <- 0
for(j in 1:n)
{s <- (9 + 11* s^2)/20}
round(s,4)
}
> varphi(20)
[1] 0.8023
> varphi(40)
[1] 0.8164
> varphi(60)
[1] 0.8080
> varphi(80)
[1] 0.8182
> varphi(100)
[1] 0.8182
On conclut que θ ≈ 0.8182.
109
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Calcul de θ via la partie (b) du Théorème 3. L’équation ϕ(s) = s nous donne

9 11 2
+ s =s
20 20
c’est-à-dire
11 s2 − 20 s + 9 = 0.
Les racines de cette équation quadratique sont les valeurs s1 = 9/11 et s2 = 1. La partie (b) du
Théorème 3 nous permet de conclure que la probabilité de disparition est θ = 9/11. Notez que
9/11 = 0.818181... de sorte que les deux approches donnent bel et bien la même réponse.
Conclusion. On a obtenu
P[D | X0 = 1] = θ = 9/11.
Dans notre exemple on s’intéresse à la probabilité de disparition de notre population d’amibes
sachant qu’on démarre au temps 0 avec 3 amibes. On obtient don
P[D | X0 = 3] = θ 3 = (9/11)3 = 0.5477.
5.5 Quelques généralisations

Dans le présent chapitre, notre étude s’est limitée au processus de branchement de Galton et Wat-
son. Il existe plusieurs façons de généraliser le processus de Galton et Watson. Nous mentionnons
ici quatre généralisations possibles. Il y en a plusieurs autres.
5.5.1 Processus de Galton et Watson avec distribution de progéniture qui évolue

dans le temps
Dans tout ce que nous avons fait jusqu’à maintenant nous avons supposé que la distribution de
progéniture est la même à chaque génération. Il est facile d’imaginer des scénarios où cette distri-
bution évolue dans le temps. Par exemple, la distribution de progéniture au temps n, c’est-à-dire la
distribution de progéniture pour les individus de la génération n, pourrait être une loi de Poisson
de moyenne νn . On pourrait spécifier une expression appropriée pour ce νn selon le scénario qu’on
souhaite modéliser.
5.5.2 Processus de Galton et Watson avec immigration

On peut supposer qu’à chaque génération un certain nombre d’immigrants se joignent à notre
population. Posons Yn = le nombre d’immigrants qui se joignent à notre population à la génération
n. Un modèle simple consiste à supposer que les variables aléatoires Y1 , Y2 , Y3 , ... sont i.i.d. et que
ces variables sont indépendantes des variables ξn,ℓ , n ≥ 0, ℓ ≥ 1. On pourrait aussi imaginer des
modèles plus complexes où l’immigration dépend de la taille de la population.
5.5.3 Processus de Galton et Watson avec deux types d’individus

Le modèle suivant a été étudié de façon approfondie et est présenté en détails dans plusieurs livres.
On suppose qu’il y a 2 types d’individus dans notre population, disons les rouges et les bleus. Les
110
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
individus rouges peuvent avoir des enfants rouges et des enfants bleus. Les individus bleus peuvent
avoir des enfants rouges et des enfants bleus. On pose
R
ξnℓ = le nombre d’enfants rouges du ℓe individu rouge de la génération n
B
ξnℓ = le nombre d’enfants bleus du ℓe individu rouge de la génération n
R
ηnℓ = le nombre d’enfants rouges du ℓe individu bleu de la génération n
B
ηnℓ = le nombre d’enfants bleus du ℓe individu bleu de la génération n
R , ξ B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution sur N2 .
On suppose que les couples (ξn,ℓ n,ℓ 0
De même on suppose que les couples (ηn,ℓ R , η B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution
n,ℓ
sur N20 . De plus, on suppose que la famille de couples aléatoires ((ξn,ℓ R , ξ B ), n ≥ 0, ℓ ≥ 1) est
n,ℓ
indépendante de la famille de couples aléatoires ((ηn,ℓR , η B ), n ≥ 0, ℓ ≥ 1). La plupart des résultats
n,ℓ
obtenus dans le présent chapitre ont des versions analogues pour le processus de Galton et Watson
à deux types.
5.5.4 Processus de Galton et Watson à temps continu

Plus loin, nous étudierons brièvement une version à temps continu du processus de Galton et
Watson. Dans la version la plus simple de ce processus de Galton et Watson à temps continu, au
lieu de vivre pendant une unité de temps, les individus vivent pendant un temps aléatoire. Les
durées de vie des individus sont des variables aléatoires qu’on suppose i.i.d. avec loi exponentielle
de paramètre λ.
111
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 1. Considérons le processus de branchement de Galton et Watson avec distribution de
progéniture donnée par p = (1/4, 1/4, 1/2, 0, 0, ...). On suppose qu’on démarre avec 1 individu.
(a) Quelle est la probabilité qu’on aura exactement 7 individus à la troisième génération ?
Réponse : 1/64.
(b) Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Quelle est l’espérance du nombre d’individus qui auront vécus durant les générations 0 à
10 ?
(d) Calculez la probabilité de disparition θ.
Numéro 2. Considérons le processus de branchement de Galton et Watson avec distribution de

progéniture donnée par p = (1/2, 1/4, 1/4, 0, 0, ...). On suppose qu’on démarre avec 1 individu.
(a) Quelle est la probabilité qu’on aura exactement 7 individus à la troisième génération ?
Réponse : 1/4096.
(b) Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Quelle est l’espérance du nombre d’individus qui auront vécus durant les générations 0 à
10 ?
(d) Calculez la probabilité de disparition θ.
Numéro 3. Considérons le processus de branchement de Galton et Watson dont la distribution de

progéniture est la loi uniforme sur l’ensemble {0, 1, 2, 3}. On suppose qu’on démarre avec un seul
individu.
(a) Dessinez le graphe de la f.g.p. de la distribution de progéniture sur le domaine [0, 1].
(b) Calculez la probabilité de disparition θ.
(c) Calculez la probabilité que la population disparaı̂tra à la génération 3. Autrement dit, cal-
culez P[{X1 > 0} ∩ {X2 > 0} ∩ {X3 = 0} | X0 = 1].

progéniture est la loi binomiale(3, β). Autrement dit, on suppose que p = (p0 , p1 , p2 , p3 , ...) avec
j
3
jβ (1 − β)3−j si j ∈ {0, 1, 2, 3}
pj =
0 si j ≥ 4.
On suppose également qu’on démarre avec un seul individu.

(a) Supposons que β = 1/2. Quelle est la probabilité qu’on aura exactement 7 individus à
la troisième génération ? Autrement dit, calculez P[X3 = 7 | X0 = 1]. Un calcul exact est
possible mais ça prend une patience de moine du Moyen-Âge. Avec l’aide du logiciel R,
évaluez la probabilité P[X3 = 7 | X0 = 1] par la méthode Monte-Carlo.
(b) Supposons que β = 1/2. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que β = 1/2. Quelle est l’espérance du nombre total d’individus qui auront vécu
durant les générations 0 à 10 ?
(d) Supposons que β = 1/2. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre β.
112
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 5. Considérons le processus de branchement de Galton et Watson dont la distribution

de progéniture est la loi géométrique de paramètre β sur N = {0, 1, 2, 3, ...}. Autrement dit, on
suppose que p = (p0 , p1 , p2 , p3 , ...) avec pj = (1 − β)j β. On suppose également qu’on démarre avec
un seul individu.
(a) Supposons que β = 1/3. Quelle est la probabilité qu’on aura exactement 7 individus à
la troisième génération ? Un calcul exact est possible mais plutôt difficile. Évaluez cette
probabilité par simulation Monte-Carlo.
(b) Supposons que β = 1/3. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que β = 1/3. Quelle est l’espérance du nombre total d’individus qui auront vécu
(d) Supposons que β = 1/3. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre β.

progéniture est la loi de Poisson de paramètre ν sur N = {0, 1, 2, 3, ...}. Autrement dit, on suppose
j
que p = (p0 , p1 , p2 , p3 , ...) avec pj = e−ν νj! . On suppose également qu’on démarre avec 4 individus.
(a) Supposons que ν = 4/3. Quelle est la probabilité qu’on aura exactement 7 individus à la
troisième génération ? Un calcul exact serait long et difficile. Écrivez un programme R qui
vous permettra de calculer une approximation Monte-Carlo de cette probabilité.
(b) Supposons que ν = 4/3. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que ν = 4/3. Quelle est l’espérance du nombre total d’individus qui auront vécu
(d) Supposons que ν = 4/3. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre ν.
Numéro 7. On suppose que Y est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
1
ϕ(s) = 1 + 2s + 3s2 + 4s3 + 5s4 + 6s5 pour tout s ∈ R.
21
(a) Calculez E[Y ].
(b) Obtenez la distribution (c’est-à-dire la fonction de masse) de Y .
(c) On considère le processus de Galton et Watson dont la distribution de progéniture est la
distribution de la variable aléatoire Y ci-dessus. Calculez la probabilité de disparition θ avec
une précision de cinq décimales.
Numéro 8. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. En général il n’y a pas d’expression simple pour la distribution de Xn
sachant X0 = 1. Voici un cas particulier où il est relativement facile d’obtenir cette distribution
avec les outils du présent chapitre : On suppose que la distribution de progéniture est la distribution
p = (p0 , p1 , p2 , ...) donnée par pk = 1/2k+1 pour tout k ≥ 1.
(a) Obtenez l’espérance µ de la distribution de progéniture.
(b) Obtenez la probabilité de disparition θ de ce processus de Galton et Watson.
(c) Obtenez la f.g.p. ϕ(s) de la distribution de progéniture.
113
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(d) Obtenez la f.g.p. ϕn (s) de la distribution conditionnelle de Xn sachant X0 = 1. Indice : À

partir du résultat de la partie (c), obtenez ϕ2 (s), ϕ3 (s), ϕ4 (s) et devinez ensuite la forme
générale pour ϕn (s).
(e) Obtenez la distribution conditionnelle de Xn sachant X0 = 1. Indice : Développez en série de
1
puissance la fonction ϕn (s) obtenue à la partie (d). Utilisez le fait que 1−r = 1+r+r 2 +r 3 +· · ·
pour tout −1 < r < 1.
(f) Obtenez la distribution de la variable aléatoire
T = min{n ≥ 0 : Xn = 0}.
Numéro 9. Obtenez une expression (en termes de p0 et p2 ) pour la probabilité de disparition

θ d’un processus de Galton et Watson dans le cas où la distribution de progéniture satisfait les
conditions suivantes :
p0 + p1 + p2 = 1 et p2 > p0 > 0.
Numéro 10. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. Dans le cas sous-critique, obtenez une expression (en termes du paramètre
µ) pour l’espérance du nombre total d’individus qui auront vécu, de la génération 0 jusqu’à la
disparition de la population.
Numéro 11. La Figure 2 nous donne le graphe de la f.g.p. d’un processus de Galton et Watson
dans le cas où 0 < p0 < 1 et µ > 1. Dans chacun des cas suivants, dessinez le graphe de cette
fonction et déterminez si on a θ = 0 ou 0 < θ < 1 ou θ = 1.
(a) p0 = 1.
(b) 0 < p0 < 1 et p0 + p1 = 1.
(c) 0 < p0 < 1, 0 < p0 + p1 < 1 et µ < 1.
(d) 0 < p0 < 1 et µ = 1.
(e) p1 = 1.
(f) p0 = 0 et p1 < 1.
Numéro 12. On considère un processus de Galton et Watson. Comme d’habitude, on écrit ϕ(s)
pour dénoter la f.g.p. de la distribution de progéniture et on écrit µ et σ 2 pour dénoter la moyenne et
la variance de cette distribution. Pour simplifier le problème, on suppose que le rayon de convergence
de la série de puissances qui définit ϕ(s) est strictement plus grand que 1. Sous ces condition on a
µ = ϕ′ (1). Voir la partie (g) de la Proposition 5. Montrez que σ 2 = ϕ′ (1) + ϕ′′ (1) − (ϕ′ (1))2 .
Numéro 13. On suppose que X est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
 √
2
 1− s1−s si − 1 < s < 1
ϕ(s) = 1 si s = 1

−1 si s = −1.
(a) Dessinez le graphe de cette f.g.p.

(b) Calculez E[X].
114
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(c) La version générale du théorème du binôme de Newton permet d’obtenir le résultat suivant :
√ x x2 x3 5x4 7x5 21x6

1+x=1+ − + − + − + ··· (5.7)
2 8 16 128 256 1024
À partir de l’équation (5.7), obtenez le développement en série de Taylor de la fonction ϕ(s)

(autour du point s = 0).
(d) À partir du résultat de la partie (c), concluez que X est une variables aléatoire à valeurs
dans l’ensemble des entiers positifs impairs et obtenez les probabilités suivantes :
P[X = 1], P[X = 3], P[X = 5], P[X = 7], P[X = 9].
Numéro 14. Voici une autre façon de démontrer que la probabilité de disparition θ est solution
de l’équation s = ϕ(s). On écrit d’abord
∞
X
θ = P[D | X0 = 1] = P[D | X0 = 1, X1 = j] P[X1 = j | X0 = 1].
j=0
Complétez cette démonstration.
115
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
116
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 6
Processus de Poisson
Le présent chapitre est une introduction aux processus de Poisson. Nous ferons d’abord quelques
rappels au sujet de trois distributions de probabilité qui jouent un rôle essentiel dans l’étude des
processus de Poisson : la loi exponentielle, la loi gamma et la loi de Poisson.
6.1 La loi exponentielle

Fixons λ > 0. La loi exponentielle avec paramètre λ est la loi continue avec densité donnée par
−λt
λe si t ≥ 0
f (t) =
0 si t < 0
Il s’agit bel et bien d’une densité de probabilité puisqu’on a

Z ∞ Z ∞
f (t) ≥ 0 ∀t ∈ R et f (t) dt = λ e−λt dt = 1.
−∞ 0
On écrit T ∼ exponentielle(λ) pour signifier que T est une variable aléatoire avec loi exponentielle
avec paramètre λ. Dans les applications en science et génie, la loi exponentielle est souvent utilisée
pour modéliser des durées de vie, les temps entre les arrivées successives de clients dans des modèles
de files d’attente, etc.
Trois calculs élémentaires
Un calcul élémentaire nous donne

Z ∞ Z ∞ Z ∞
1
E[T n ] = tn fT (t)dt = tn λe−λt dt = un e−u du = n!/λn .
−∞ 0 λn 0
En particulier, on obtient
1 1
E[T ] = et Var[T ] = 2
λ λ
La fonction de répartition de la loi exponentielle seR calcule facilement. Pour t < 0 on a FT (t) =
t
P[T ≤ t] = 0 et pour t ≥ 0 on a FT (t) = P[T ≤ t] = 0 λe−λu du = 1 − e−λt . Donc

1 − e−λt si t ≥ 0
FT (t) =
0 si t < 0.
117
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Un autre calcul élémentaire permet d’obtenir la fonction génératrice des moments de la loi expo-
nentielle. Pour u ≥ λ, on obtient
Z ∞ Z ∞
uT ut −λt
MT (u) = E[e ] = e λe dt = λ e−(λ−u)t dt = ∞.
0 0
Pour u < λ on obtient
Z ∞ Z ∞
uT ut −λt λ
MT (u) = E[e ]= e λe dt = λ e−(λ−u)t dt = .
0 0 λ−u
On a donc 
λ
 si u < λ
MT (u) = λ−u

∞ si u ≥ λ.
Trois théorèmes importants
Si N ∼ géométrique(p), avec 0 < p < 1, alors un calcul élémentaire montre que pour tout choix
d’entiers non négatifs k et ℓ on a
P[N > k + ℓ|N > ℓ] = P[N > k].
Pour des raisons évidentes cette propriété est appelée propriété d’absence de mémoire. Notez que
l’équation précédente est équivalente à l’équation suivante :
P[N > k + ℓ] = P[N > ℓ] P[N > k].
En fait, on peut montrer que la loi géométrique est la seule distribution sur les entiers non négatifs
possédant cette propriété d’absence de mémoire. Le théorème suivant nous dit que la loi exponen-
tielle possède une propriété d’absence de mémoire analogue à celle de la loi géométrique :
Théorème 1. Soit T , une variable aléatoire à valeurs dans l’intervalle (0, ∞), l’ensemble des
nombres réels positifs. Alors T est une variable aléatoire exponentielle si et seulement si pour
tout nombre réel t > 0 et tout nombre réel s > 0 on a
P[T > t + s] = P[T > t] P[T > s].
Démonstration : Si T suit la loi exponentielle(λ), alors un calcul élémentaire nous donne

Z ∞ ∞
λe−λv dv = −e−λv = e−λu

P[T > u] =
u u
pour tout nombre réel u > 0. On a donc

P[T > t + s] = e−λ(t+s) = e−λt e−λs = P[T > t] P[T > s]
pour tout nombre réel t > 0 et tout nombre réel s > 0. Donc la loi exponentielle possède la
propriété d’absence de mémoire. Supposons maintenant que T soit une variable aléatoire à valeurs
dans (0, ∞) et satisfaisant la condition
P[T > t + s] = P[T > t] P[T > s]
pour tout choix de réels positifs t et s. Pour 0 ≤ t < ∞, posons
φ(t) = P[T > t] = 1 − FT (t).
Cette fonction φ satisfait alors les conditions suivantes :
118
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) φ(0) = 1.
(b) 0 < φ(t) < 1 pour tout t > 0 ;
(c) φ est décroissante (0 ≤ t1 < t2 < ∞ ⇒ φ(t1 ) ≥ φ(t2 )) ;
(d) φ est continue à droite (pour tout t ≥ 0, limu↓t φ(u) = φ(t)) ;
(e) φ(u + v) = φ(u) × φ(v) pout tout u ≥ 0 et tout v ≥ 0.
Si m et n sont des entiers positifs, alors la condition (e) nous donne
φ(m/n) = φ(1/n + 1/n + · · · + 1/n) = (φ(1/n))m .

| {z }
m fois
De même,
φ(1) = φ(1/n + 1/n + · · · + 1/n) = (φ(1/n))n
| {z }
n fois
de sorte que φ(1/n) = (φ(1))1/n . Si on insère ça dans l’équation antérieure, on obtient
m
φ(m/n) = (φ(1/n))m = (φ(1))1/n = (φ(1))m/n .
Autrement dit, on a φ(t) = (φ(1))t pour tout nombre rationnel t ≥ 0. La continuité à droite de la
fonction φ(t) nous donne donc
φ(t) = (φ(1))t pour tout t ≥ 0.
Si on pose λ = log(1/φ(1)), alors on a 0 < λ < ∞, on a φ(1) = e−λ et on obtient

t
φ(t) = (φ(1))t = e−λ = e−λt pour tout t ≥ 0.
La fonction de répartition de T est donc donnée par

1 − e−λt si t ≥ 0
FT (t) =
0 si t < 0.
Ceci montre que T ∼ exponentielle(λ).
L’analogie entre la loi géométrique et la loi exponentielle est également illustrée par le calcul suivant.
Ce calcul montre qu’on peut voir la loi exponentielle comme un cas limite de la loi géométrique.
Fixons λ > 0 et pour chaque entier positif n tel que λ/n < 1, considérons une variable aléatoire
Wn avec loi géométrique avec paramètre pn = λ/n. Posons Tn = Wn /n. Pour t ≥ 0 on obtient
FTn (t) = P[Tn ≤ t] = P[Wn /n ≤ t] = P[Wn ≤ tn]

[tn] [tn]
X X
= P[Wn = k] = (1 − λ/n)k−1 λ/n = 1 − (1 − λ/n)[tn]
k=1 k=1
La fonction de répartition de Tn est donc donnée par

1 − (1 − λ/n)[tn] si t ≥ 0
FTn (t) =
0 si t < 0.
119
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Lorsqu’on prend la limite n → ∞ on obtient la fonction de répartition de la loi exponentielle(λ)

puisque
lim 1 − (1 − λ/n)[tn] = 1 − lim (1 − λ/n)[tn] = 1 − e−λt .
n→∞ n→∞
En d’autre mots, Wn /n converge en loi vers la loi exponentielle avec paramètre λ. On a donc
démontré le résultat suivant :
Théorème 2. Si pour n = 1, 2, 3, ... on a Wn ∼ géométrique(pn ) avec, pour un certain λ > 0,

pn = λ/n pour tout n > λ, alors
Wn L
−→ T
n
où T ∼ exponentielle(λ).
On peut aussi démontrer le théorème 2 via la fonction génératrice des moments. Pour terminer
cette section, voici un résultat élémentaire, mais très important, concernant la loi exponentielle.
Théorème 3. Si V1 , V2 , ..., Vm sont des variables aléatoires indépendantes, si Vi ∼ exponentielle(λi )

pour chaque i ∈ {1, 2, ..., m} et si W = min{V1 , V2 , ..., Vm }, alors W ∼ exponentielle(λ), avec
λ = λ1 + λ2 + · · · + λm .
Démonstration : Pour w > 0 on a
P[W ≤ w] = P[min{V1 , V2 , ..., Vm } ≤ w] = 1 − P[min{V1 , V2 , ..., Vm } > w]

= 1 − P[(V1 > w) ∩ (V2 > w) ∩ · · · ∩ (Vm > w)]
Ym Ym
= 1− P[Vj > w] = 1 − e−λj w = 1 − e−(λ1 +λ2 +···λm )w
j=1 j=1
Ceci montre que W ∼ exponentielle(λ), avec λ = λ1 + λ2 + · · · + λm .
6.2 La loi gamma

La fonction gamma
La fonction gamma de Euler, dénotée Γ(α), est définie, pour les α > 0, par l’équation
Z ∞
Γ(α) = uα−1 e−u du.
0
Il est facile de montrer que l’intégrale ci-dessus est bien définie et que 0 < Γ(α) < ∞ pour tout
0 < α < ∞. Parmi les principales propriétés de cette fonction, notons les suivantes :
1. La fonction gamma est continue et différentiable.
2. Pour tout α > 0, on a Γ(α + 1) = αΓ(α).
3. Pour n = 1, 2, 3, . . . , on a Γ(n) = (n − 1)!.
√
4. Γ(1/2) = π
√
(2n)! π
5. Pour n = 1, 2, 3, . . . , on a Γ((2n + 1)/2) = .
22n n!
120
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La loi gamma
Fixons α > 0 et λ > 0. La loi gamma avec paramètre α > 0 et λ > 0 est la loi continue avec densité
donnée par  α
 λ tα−1 e−λt si t > 0
f (t) = Γ(α)

0 si t ≤ 0
Il s’agit bel et bien d’une densité de probabilité. En effet, d’une part on a f (t) ≥ 0 pour tout t ∈ R
et d’autre part on a
Z ∞ Z ∞ α Z ∞
λ α−1 −λt 1
f (t)dt = t e dt = (λt)α−1 e−λt λdt
−∞ 0 Γ(α) Γ(α) 0
Z ∞
1 Γ(α)
= uα−1 e−u du = =1
Γ(α) 0 Γ(α)
On écrit T ∼ gamma(α, λ) pour indiquer que T est une variable aléatoire dont la distribution
est la loi gamma avec paramètres α et λ. Si α = 1, alors cette loi est tout simplement la loi
exponentielle(λ) étudiée à la section précédente. En effet, pour tout λ > 0,
gamma(1, λ) = exponentielle(λ).
Si T est une variable aléatoire de loi gamma(α, λ), un calcul élémentaire donne
Z ∞ Z ∞
n n λα α−1 −λt
E[T ] = t fT (t)dt = tn t e dt
−∞ 0 Γ(α)
Z ∞
1 Γ(n + α)
= n
(λt)(n+α)−1 e−λt λdt = .
Γ(α) λ 0 Γ(α)λn
α α
E[T ] = et Var[T ] = 2
λ λ
On peut aussi calculer la fonction génératrice des moments de la loi gamma. Si T ∼ gamma(α, λ),
alors pour u ≥ λ on obtient MT (u) = ∞ et pour u < λ on obtient
Z ∞
λα α−1 −λt
MT (u) = E[euT ] = eut t e dt
0 Γ(α)
Z ∞
λα
= tα−1 e−(λ−u)t dt
Γ(α) 0
Z ∞
λα
= ((λ − u)t)α−1 e−(λ−u)t (λ − u) dt
(λ − u)α Γ(α) 0
Z ∞
λα
= v α−1 e−v dv
(λ − u)α Γ(α) 0
α
λα λ
= Γ(α) = .
(λ − u)α Γ(α) λ−u
On a donc  α
 λ
 si u < λ
MT (u) = λ−u

 ∞ si u ≥ λ
121
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La loi gamma possède une propriété d’additivité analogue à celle de la loi binomiale :
Théorème 4. Supposons que U et V sont des variables aléatoires indépendantes. Supposons que
la distribution de U est la loi gamma (α1 , λ) et que la distribution de V est la loi gamma (α2 , λ).
Posons S = U + V . Alors la distribution de la variable aléatoire S est la loi gamma (α1 + α2 , λ).
Plus généralement, si T1 , T2 , . . . , Tk sont des variables aléatoires mutuellement indépendantes et si,
pour j = 1, 2, . . . , k, la distribution de Tj est la loi gamma (αj , λ), alors la distribution de la variable
P P
aléatoire S = kj=1 Tj est la loi gamma (α, λ), avec α = kj=1 αj .
Puisque la loi gamma(1, λ) est simplement la loi exponentielle(λ), le corollaire suivant est une
conséquence immédiate du théorème précédent :
Corollaire. Si T1 , T2 , . . . , Tk sont des variables aléatoires i.i.d. avec loi exponentielle(λ) et si S =

T1 + T2 + · · · + Tk , alors S est une variable aléatoire avec loi gamma(k, λ).
Démonstration du théorème. Sous les hypothèses du théorème, on a
MS (u) = E[euS ] = E[eu(T1 +T2 +···+Tk ) ]
= E[euT1 euT2 · · · euTk ] = E[euT1 ] E[euT2 ] · · · E[euTk ]
= MT1 (u) MT2 (u) · · · MTk (u)

α1 α2 αk
λ λ λ
= ···
λ−u λ−u λ−u
α1 +α2 +···+αk
λ
=
λ−u
On reconnait ici la fonction génératrice des moments de la loi gamma(α, λ), avec α = α1 + α2 +
· · · + αk . On conclut que S ∼ gamma(α, λ) avec α = α1 + α2 + · · · + αk .
Le théorème suivant est un résultat qui concerne la loi exponentielle. Toutefois, sa démonstration
fait appel à la loi gamma. C’est pourquoi il est inclus dans la présente section.
Théorème 5. On suppose que

(a) Les variables aléatoires T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ).
(b) La variable aléatoire G suit la loi géométrique(p).
(c) La variable aléatoire G est indépendantes des variables aléatoires T1 , T2 , T3 , ...
P
Alors la variable aléatoire Gj=1 Tj suit la loi exponentielle(λp).
P
Démonstration. Posons V = G j=1 Tj . Pour démontrer le théorème, il suffit de calculer la fonction
de répartition de la variable aléatoire V et de constater qu’il s’agit de la fonction de répartition de
la loi exponentielle(λp). Pour v ≤ 0 on obtient FV (v) = P[V ≤ v] = 0. Fixons v > 0. On obtient
122
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
 
XG
FV (v) = P[V ≤ v] = P  Tj ≤ v 
j=1
 
∞
X G
X

= P Tj ≤ v G = n P[G = n]
n=1 j=1
 
X∞ X n
= P Tj ≤ v  P[G = n]
n=1 j=1
∞ Z v
X
= fn (s) ds (1 − p)n−1 p
n=1 0
∞ Z v
X λn
= sn−1 e−λs ds (1 − p)n−1 p
n=1 0
(n − 1)!
Z v ∞
!
−λs
X (λ(1 − p)s)n−1
= λpe ds
0 (n − 1)!
n=1
Z v Z v
−λs λ(1−p)s
= λpe e ds = λpe−λps ds = 1 − e−λpv .
0 0
Il s’agit bel et bien de la fonction de répartition de la loi exponentielle(λp).

Pn Notez que ci-dessus
on a écrit fn (s) pour dénoter la densité de probabilité de la variable j=1 Tj , puis on a utilisé le
corollaire du Théorème 4 pour conclure que cette densité fn (s) est la loi gamma(n, λ).
6.3 La loi de Poisson

Fixons ν, un nombre réel positif. La loi de Poisson avec paramètre ν est la loi discrète avec fonction
de masse donnée par 
k
 e−ν ν

si k ∈ {0, 1, 2, 3, . . .}
p(k) = k!


0 si k ∈
/ {0, 1, 2, 3, . . .}
Il s’agit bel et bien d’une distribution de probabilité sur l’ensemble desP
entiers non négatifs puisque
d’une part on a p(k) > 0 pour tout k ∈ {0, 1, 2, 3, . . .} et d’autre part ∞ −ν k
k=0 e ν /k! = 1.
Les moments factoriels de la loi de Poisson sont faciles à calculer. Si X est une variable aléatoire
avec loi de Poisson de paramètre ν et si m est un entier positif, alors le me moment factoriel de X
est donnée par
E[X(X − 1)(X − 2) · · · (X − (m − 1))]

∞
X e−ν ν k
= k(k − 1)(k − 2) · · · (k − (m − 1))
k!
k=0
123
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X e−ν ν k
= k(k − 1)(k − 2) · · · (k − (m − 1))
k!
k=m
∞ ∞
−ν m
X ν k−m X νℓ
= e ν = e−ν ν m = e−ν ν m eν = ν m .
(k − m)! ℓ!
k=m ℓ=0
E[X] = ν
et
Var[X] = E[X 2 ] − (E[X])2
= E[X(X − 1)] + E[X] − (E[X])2
= E[X(X − 1)] − E[X](E[X] − 1)
= ν 2 − ν(ν − 1) = ν
On a donc démontré le théorème suivant ainsi que son corollaire :
Théorème 6. Si X ∼ Poisson(ν), alors E[X(X − 1)(X − 2) · · · (X − (m − 1))] = ν m .
Corollaire. Si X ∼ Poisson(ν), alors E[X] = Var[X] = ν.
Lien entre la loi de Poisson et la loi binomiale

Fixons ν > 0, et pour chaque entier positif n tel que ν/n < 1, considérons Xn , une variable aléatoire
avec loi binomiale(n, pn ), avec pn = ν/n. Si k est un entier non négatif alors

n
lim P[Xn = k] = lim pkn (1 − pn )n−k
n→∞ n→∞ k
n! ν k ν n−k
= lim 1−
n→∞ (n − k)!k! n n
k
ν n ν n(n − 1) · · · (n − (k − 1)) 1 k
−ν ν
= lim 1 − = e
n→∞ n k! nk 1− ν
k k!
n
La dernière égalité vient a été obtenue en utilisant le fait que
ν n
• lim 1 − = e−ν ,
n→∞ n
n(n − 1)(n − 2) · · · (n − (k − 1))
• lim = 1,
n→∞ nk
ν k
• lim 1 − = 1.
n→∞ n
On a donc démontré le théorème suivant :
Théorème 7. Pour tout nombre réel ν > 0 et tout entier k ≥ 0,

n ν k ν n−k νk
lim 1− = e−ν .
n→∞ k n n k!
124
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En pratique, ce résultat nous dit que si n est grand et si p est petit, alors on peut approximer la
loi binomiale(n, p) par la loi de Poisson avec paramètre ν = np :
binomiale(n, p) ≈ Poisson(np).
L’approximation est très bonne lorsque n ≥ 50 et np < 10.
La loi de Poisson possède une propriété d’additivité semblable à la propriété d’additivité de la loi
binomiale :
Théorème 8. Si X et Y sont des variables aléatoires indépendantes et si X ∼ Poisson(ν1 ) et Y ∼

Poisson(ν2 ), alors X + Y ∼ Poisson(ν1 + ν2 ).
Démonstration. Sous les hypothèses du théorème, il est clair que l’ensemble des valeurs possibles
de la variable aléatoire X + Y est l’ensemble N0 = {0, 1, 2, ...}. Fixons n ∈ N0 . Alors
n
X
P[X + Y = n] = P[(X = k) ∩ (Y = n − k)]
k=0
Xn
= P[X = k] P[Y = n − k]
k=0
n
X ν1k −ν2 ν2n−k
= e−ν1 e
k! (n − k)!
k=0
n
−(ν1 +ν2 ) 1 n k n−k
X
= e ν ν
n! k 1 2
k=0
(ν1 + ν2 )n
= e−(ν1 +ν2 )
n!
On reconnaı̂t ici la fonction de masse de la loi de Poisson de paramètre ν1 + ν2 . On conclut que
X + Y ∼ Poisson(ν1 + ν2 ). Notez que pour la dernière égalité ci-dessus on a simplement utilisé le
théorème du binôme.
Lien entre la loi de Poisson et la loi exponentielle :

Il existe un lien très fondamental entre la loi de Poisson et la loi exponentielle. Ce lien sera présenté
à la section suivante.
6.4 Processus de Poisson

Considérons T1 , T2 , T3 , . . . , des
P variables aléatoires satisfaisant la condition P[Tj > 0] = 1. Posons
S0 = 0 et, pour n ≥ 1, Sn = nj=1 Tj . Finalement, pour t ≥ 0, posons
N (t) = max{n ≥ 0 : Sn ≤ t}.
125
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Autrement dit, 

 0 si 0 ≤ t < S1



 1 si S1 ≤ t < S2

 2
 si S2 ≤ t < S3
N (t) = ..

 .



 k si Sk ≤ t < Sk+1

 .
 .
.
Si S1 , S2 , S3 ,... représente les temps où surviennent certains événements, alors N (t) représente
le nombre total d’événements qui sont survenus durant l’intervalle de temps [0, t]. Ceci justifie la
définition suivante.
Définition d’un processus de dénombrement.

Pn aléatoires satisfaisant P[Tj > 0] = 1 pour tout j ≥ 1. Posons
Considérons T1 , T2 , T3 , ... des variables
S0 = 0 et, pour n ≥ 1, posons Sn = j=1 Tj . Enfin, pour t ≥ 0, posons N (t) = max{n ≥ 0 : Sn ≤ t}.
Le processus aléatoire (N (t); t ≥ 0) est appelé un processus de dénombrement.
Dans certaines applications, les variables aléatoires T1 , T2 , T3 , ... représentent les durées de vie de
composantes électroniques qu’on utilise les unes après les autres. Supposons par exemple qu’on dis-
pose d’une grande quantité de piles électriques, disons la pile 1, la pile 2, la pile 3, etc. et supposons
qu’on utilise ces piles de façon séquentielle dans un certain système électronique. Donc, au temps 0,
on installe la pile 1. Cette pile dure T1 unités de temps, après quoi elle doit être jetée et remplacée
par la pile 2. Celle-ci dure T2 unités de temps, après quoi elle doit être jetée et remplacée par la
pile 3. Et ainsi de suite. La variable aléatoire N (t) représente alors le nombre de changements de
pile qui ont été effectués durant l’intervalle de temps [0, t]. Dans d’autres applications, les variables
aléatoires T1 , T2 , T3 , ... représentent les temps d’attentes entre les arrivées successives de clients dans
une file d’attente. La variable aléatoire N (t) représente alors le nombre de clients qui sont arrivés
durant l’intervalle de temps [0, t]. Dans l’étude des processus de dénombrement, les variables T1 ,
T2 , T3 ,... sont donc souvent appelées les durées de vie du processus (N (t); t ≥ 0), ou encore les
temps d’attente du processus (N (t); t ≥ 0).
Le cas particulier où les durées de vie sont indépendantes et identiquement distribuées est par-
ticulièrement facile à analyser. Prenons l’exemple des piles électriques du paragraphe précédent
et supposons que les durées de vie T1 , T2 , T3 ,... sont des variables aléatoires indépendantes et
identiquement distribuées. Lorsqu’on installe une nouvelle pile dans le système, on dit qu’il y a
renouvellement du système parce que c’est comme si le système recommençait à neuf. La variable
aléatoire N (t) représente alors le nombre de renouvellements du système durant l’intervalle de
temps [0, t], d’où la définition suivante.
Définition d’un processus de renouvellement.

Un processus de renouvellement est un processus de dénombrement pour lequel les durées de vie
sont des variables aléatoires indépendantes et identiquement distribuées.
L’exemple le plus important d’un processus de renouvellement est le processus de Poisson. En voici
la définition la plus simple :
Définition 1. [Première définition d’un processus de Poisson].

Un processus de Poisson avec intensité λ est un processus de renouvellement pour lequel la distri-
bution des durées de vie est la loi exponentielle(λ).
126
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La terminologie processus de Poisson est justifiée par le résultat suivant.
Théorème 9. Si (N (t); t ≥ 0) est un processus renouvellement avec distribution de durée de vie

exponentielle(λ), alors on a N (t) ∼ Poisson(λt) pour tout t ≥ 0.
Démonstration. La démonstration repose sur les deux observations suivantes :

(1) Pour tout nombre réel t ≥ 0 et pour tout entier n ≥ 0, on a N (t) ≥ n si et seulement si
Sn ≤ t. On obtient donc
P[N (t) ≥ n] = P[Sn ≤ t].
(2) Si les durées de vie T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ), alors on a
Sn ∼ gamma(n, λ).
Voici maintenant les détails de la démonstration. Pour tout entier n ≥ 0,
P[N (t) = n] = P[N (t) ≥ n] − P[N (t) ≥ n + 1]
= P[Sn ≤ t] − P[Sn+1 ≤ t]
Z t Z t n+1
λn n−1 −λs λ
= s e ds − sn e−λs ds
0 (n − 1)! 0 n!
Z t
λn n−1 −λs λn+1 n −λs
= s e − s e ds
0 (n − 1)! n!
n
λ n −λs s=t
Z t
d λn n −λs −λt (λt)
n
= s e ds = s e = e .
0 ds n! n! n!

s=0
Ceci montre que N (t) ∼ Poisson(λt).
En utilisant la propriété d’absence de mémoire de la loi exponentielle, on peut généraliser le

théorème précédent et montrer que si (N (t); t ≥ 0) est un processus de Poisson avec intensité
λ, alors
(a) pour tout choix de nombres réels 0 ≤ s ≤ t < ∞, on a
N (t) − N (s) ∼ Poisson(λ(t − s))
(b) pour tout entier positif n et pour tout choix de nombres réels 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤
sn ≤ tn < ∞, les variables aléatoires
N (t1 ) − N (s1 ), N (t2 ) − N (s2 ), . . . , N (tn ) − N (sn )
sont mutuellement indépendantes.
Nous allons maintenant voir que l’inverse est aussi vrai. Soit (N (t); t ≥ 0), un processus de
dénombrement satisfaisant les conditions (a) et (b) données ci-dessus. Calculons la distribution
du temps du premier renouvellement, T1 = min{t > 0 : N (t) = 1}. Pour t > 0 on a
(λt)0
P[T1 > t] = P[N (t) = 0] = e−λt = e−λt
0!
127
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
1 − e−λt si t ≥ 0
FT1 (t) =
0 si t < 0.
Ceci montre que T1 ∼ exponentielle(λ). De façon similaire, on peut montrer que chacune des
variables
Tk = min{t > 0 : N (t) = k} − min{t > 0 : N (t) = k − 1}
suit la loi exponentielle(λ) et que ces variables T1 , T2 , T3 , ... sont indépendantes les unes des autres.
Donc, si (N (t); t ≥ 0) est un processus de dénombrement satisfaisant les conditions (a) et (b), alors
(N (t); t ≥ 0) est un processus de Poisson avec intensité λ.
Notons en passant que si (Xt ; t ≥ 0) est un processus aléatoire, alors la variable aléatoire Xv − Xu
s’appelle l’accroissement du processus (Xt ; t ≥ 0) sur l’intervalle (u, v]. On dit que (Xt ; t ≥ 0) est un
processus à accroissements stationnaires lorsque la distribution de l’accroissement sur un intervalle
dépend seulement de la longueur de l’intervalle, c’est-à-dire lorsque
L(Xt+s − Xt ) = L(Xs − X0 ) pour tout t ≥ 0.
On dit que (Xt ; t ≥ 0) est un processus à accroissements indépendants lorsque les accroissements
correspondants à des intervalles disjoints sont des variables aléatoires indépendantes, c’est-à-dire
lorsque pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞, les variables aléatoires
X(t1 ) − X(s1 ), X(t2 ) − X(s2 ), . . . , X(tn ) − X(sn )
sont des variables mutuellement indépendantes. La condition (b) ci-dessus nous dit donc que
(N (t); t ≥ 0) est un processus à accroissements indépendants. La condition (a), quant à elle, nous
dit, entre autres choses, que (N (t); t ≥ 0) est un processus à accroissements stationnaires. La
première définition de processus de Poisson, donnée ci-dessus, est donc équivalente à la définition
suivante.
Définition 2. [Deuxième définition de processus de Poisson].

Un processus de Poisson avec intensité λ est un processus de dénombrements, disons (N (t); t ≥ 0),
avec accroissements stationnaires et indépendants, et avec N (t) − N (s) ∼ Poisson(λ(t − s)) pour
tout 0 ≤ s ≤ t < ∞.
Pour résumer, nous avons démontré le résultat suivant :
Théorème 10. Le processus aléatoire (Nt ; t ≥ 0) est une processus de Poisson avec intensité λ au
sens de la définition 1 si et seulement si c’est un processus de Poisson avec intensité λ au sens de
la définition 2.
128
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
6.5 La loi de (S1, S2, ..., Sn) sachant N (t) = n

Soit (N (t); t ≥ 0), un processus de Poisson avec intensité λ. Fixons t > 0 et calculons la loi
conditionnelle de S1 sachant que N (t) = 1. Pour 0 ≤ s ≤ t, on obtient
P[S1 ≤ s|N (t) = 1] = P[N (s) ≥ 1|N (t) = 1] = P[N (s) = 1|N (t) = 1]
P[(N (s) = 1) ∩ (N (t) = 1)]
=
P[N (t) = 1]
P[(N (s) = 1) ∩ (N (t) − N (s) = 0)]
=
P[N (t) = 1]
P[N (s) = 1] P[N (t) − N (s) = 0]
=
P[N (t) = 1]
−λs
−λ(t−s)
e λs e s
= −λt
= .
e λt t
La fonction de répartition de S1 sachant N (t) = 1 est donc

 0 si s < 0
F (s) = s/t si 0 ≤ s ≤ t

1 si s > t
La densité de S1 sachant N (t) = 1 est donc

1/t si 0 ≤ s ≤ t
f (s) =
0 sinon
Autrement dit, la loi conditionnelle de S1 sachant N (t) = 1 est la loi uniforme sur l’intervalle [0, t].
Maintenant, calculons la loi conditionnelle du couple (S1 , S2 ) sachant que N (t) = 2. Notons d’abord
que lorsque N (t) = 2, l’ensemble des valeurs possibles du couple (S1 , S2 ) est l’ensemble {(s1 , s2 ) ∈
R2 : 0 ≤ s1 ≤ s2 ≤ t}. Calculons la fonction de répartition conjointe de (S1 , S2 ) sachant N (t) = 2
en un point (s1 , s2 ) satisfaisant 0 ≤ s1 ≤ s2 ≤ t. On obtient
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 )|N (t) = 2]
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 ) ∩ (N (t) = 2)]
=
P[N (t) = 2]
P[(N (s1 ) = 1) ∩ (N (s2 ) − N (s1 ) = 1) ∩ (N (t) − N (s2 ) = 0)]
=
P[N (t) = 2]
P[(N (s1 ) = 2) ∩ (N (s2 ) − N (s1 ) = 0) ∩ (N (t) − N (s2 ) = 0)]
+
P[N (t) = 2]
P[N (s1 ) = 1] P[N (s2 ) − N (s1 ) = 1] P[N (t) − N (s2 ) = 0]
=
P[N (t) = 2]
P[N (s1 ) = 2] P[N (s2 ) − N (s1 ) = 0] P[N (t) − N (s2 ) = 0]
+
P[N (t) = 2]
−λs
−λ(s −s ) −λ(t−s )
e 1 λs1 e 2 1 λ(s − s ) e 2
2 1
= −λt 2
e (λt) /2!

e 1 (λs1 ) /2! e−λ(s2 −s1 ) e−λ(t−s2 )
−λs 2
+
e−λt (λt)2 /2!
2s1 (s2 − s1 ) s21
= + 2.
t2 t
129
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La densité conjointe conditionnelle de (S1 , S2 ) sachant N (t) = 2 est donc donnée par

 ∂2 2s1 (s2 − s1 ) s21
 + 2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) = ∂s2 ∂s1 t2 t

 0 sinon
On obtient donc
2/t2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) =
0 sinon
Cette distribution de probabilité est aussi la loi conjointe des statistiques d’ordre d’un échantillon
de taille 2 issu de la loi uniforme sur l’intervalle [0, t]. Autrement dit, si U1 et U2 sont des variables
aléatoires indépendantes et identiquement distribuées, avec loi uniforme sur [0, t] et si U(1) et U(2)
dénote les statistiques d’ordre du couple (U1 , U2 ), c’est-à-dire
U(1) = min{U1 , U2 } et U(2) = max{U1 , U2 },
alors la densité conjointe du couple (U(1) , U(2) ) est donnée par

2/t2 si 0 ≤ u ≤ v ≤ t
f (u, v) =
0 sinon
Le calcul précédent nous donne donc
L((S1 , S2 )|N (t) = 2) = L(U(1) , U(2) )
Le théorème suivant est la version générale de ce résultat :
Théorème 11. Soit (Nt ; t ≥ 0), un processus de Poisson avec intensité λ. La densité conditionnelle
de (S1 , S2 , ..., Sn ) sachant Nt = n est donnée par

n!/tn si 0 ≤ s1 ≤ s2 ≤ · · · ≤ sn ≤ t
f (s1 , s2 , ..., sn ) =
0 sinon
Autrement dit,
L((S1 , S2 , ..., Sn )|Nt = n) = L(U(1) , U(2) , ..., U(n) )
où U(1) , U(2) , ..., U(n) dénotent les statistiques d’ordre d’un échantillon aléatoire de taille n issu de
la loi uniforme sur [0, t].
Simulation d’un processus de Poisson.

Pour simuler un processus de Poisson avec intensité λ, il suffit de simuler des variables aléatoires
T1 , T2 , T3 , ... i.i.d. avec loi exponentielle(λ). Le théorème précédent nous donne une méthode alterna-
tive. Supposons qu’on veuille simuler un processus de Poisson avec intensité λ sur l’intervalle [0, t].
On simule d’abord une variable N ∼ Poisson(λt). Puis, sachant N = n, on simule U1 , U2 , ..., Un i.i.d.
avec distribution uniforme sur [0, t]. Les statistique d’ordre U(1) , U(2) , ..., U(n) jouent maintenant le
rôle de nos temps de renouvellement S1 , S2 , ..., Sn .
130
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
6.6 Superposition et décomposition

Le résultat suivant nous dit que lorsqu’on superpose des processus de Poisson indépendants les uns
des autres, on obtient un processus de Poisson :
Théorème 12. Fixons λ1 , λ2 , ..., λm , des nombres réels strictement plus grands que 0, et posons
λ = λ1 + λ2 + · · · + λm . Supposons que, pour chaque j ∈ {1, 2, ..., m}, le processus (Nj (t); t ≥ 0)
est un processus de Poisson avec intensité λj et supposons que ces m processus de Poisson sont
indépendants les uns des autres. Pour chaque t ≥ 0, posons
N (t) = N1 (t) + N2 (t) + · · · + Nm (t).
Alors (N (t); t ≥ 0) est un processus de Poisson avec intensité λ.
Première démonstration du Théorème 12.

Pour démontrer ce théorème, il suffit de vérifier que les temps d’attente du processus de dénombre-
ment (N (t); t ≥ 0) sont des variables aléatoires indépendantes et identiquement distribuées, avec
distribution exponentielle(λ). Posons
T1 = le temps du premier événement du processus (N (t); t ≥ 0).

(j)
T1 = le temps du premier événement du processus (Nj (t); t ≥ 0).
(1) (2) (m) (j)
On a alors T1 = min{T1 , T1 , ..., T1 } et T1 ∼ exponentielle(λj ). De plus, puisque les proces-
(1) (2) (m)
sus (Nj (t); t ≥ 0) sont indépendants les uns des autres, les variables aléatoires T1 , T1 , ..., T1
sont indépendantes les unes des autres. Le Théorème 3 nous permet donc de conclure que T1 ∼
exponentielle(λ), avec λ = λ1 + λ2 + · · · + λm . Maintenant, pour k = 2, 3, ... posons Tk = le temps
entre le (k − 1)e événement et le k e événement du processus (N (t); t ≥ 0). En utilisant la propriété
d’absence de mémoire de la loi exponentielle et en procédant comme pour T1 , on peut montrer
que les variables T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec distribution
exponentielle(λ). Donc, d’après la Définition 1 de la section 4, (N (t); t ≥ 0) est bel et bien un
processus de Poisson avec intensité λ.
Remarques.
• Avec le scénario du Théorème 12, on dit que ce processus (N (t); t ≥ 0) est la superposition
des processus (Nj (t); t ≥ 0), j = 1, 2, ..., m.
• Pour la démonstration ci-dessus, nous sommes passés par notre première définition de pro-
cessus de Poisson. Nous aurions pu passer par la deuxième définition.
Deuxième démonstration du Théorème 12.

Fixons 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤P· · · ≤ sn ≤ tn < ∞ et considérons les accroissements N (ti ) − N (si ),
i = 1, 2, ..., n. Puisque N (t) = m
j=1 Nj (t), on a
131
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
m
X
N (t1 ) − N (s1 ) = (Nj (t1 ) − Nj (s1 )) ,
j=1
Xm
N (t2 ) − N (s2 ) = (Nj (t2 ) − Nj (s2 )) ,
j=1
m
X
N (t3 ) − N (s3 ) = (Nj (t3 ) − Nj (s3 )) ,
j=1
..
.
m
X
N (tn ) − N (sn ) = (Nj (tn ) − Nj (sn )) .
j=1
Puisque les n intervalles (s1 , t1 ], (s2 , t2 ], ..., (sn , tn ] sont disjoints deux à deux et puisque les m
processus (Nj (t); t ≥ 0), j = 1, 2, ..., m sont indépendants les uns des autres, les nm accroissements
qui apparaissent sur le côté droit des équations ci-dessus sont indépendants les uns des autres. On
conclut que les n accroissements
N (t1 ) − N (s1 ), N (t2 ) − N (s2 ), N (t3 ) − N (s3 ), ··· N (tn ) − N (sn )
sont indépendants les uns des autres. De plus, puisqu’on a Nj (t) − Nj (s) ∼ Poisson(λj (t − s)), la
propriété d’additivité de la loi de Poisson nous permet de conclure que N (t) − N (s) suit la loi de
Poisson avec paramètre λ(t − s), avec λ = λ1 + λ2 + · · · + λm . Le processus (N (t); t ≥ 0) est donc
bel et bien un processus de Poisson d’intensité λ = λ1 + λ2 + · · · + λm , au sens de la Définition 2.
On peut aussi décomposer un processus de Poisson d’intensité λ en plusieurs processus de Poisson

indépendants les uns des autres :
Théorème 13. Fixons m, un entier positif, et fixons (p1 , p2 , ..., pm ), un vecteur satisfaisant 0 <
pj < 1 pour tout j et p1 + p2 + · · · + pm = 1. Fixons λ > 0 et considérons un processus de Poisson
avec intensité λ, disons (N (t); t ≥ 0). Supposons que
(1) il y a m types d’événements dans le processus (N (t); t ≥ 0) ;
(2) à chaque fois que survient un événement, on a une probabilité p1 que ce soit un événement
de type 1, une probabilité p2 que ce soit un événement de type 2, une probabilité p3 que ce
soit un événement de type 3, etc. ;
(3) les attributions de types sont indépendantes les unes des autres et sont indépendantes des
durées de vie T1 , T2 , T3 , ...
Pour chaque j ∈ {1, 2, ..., m}, dénotons par (Nj (t); t ≥ 0) le processus de dénombrement des
événements de type j. Alors
(i) (Nj (t); t ≥ 0) est un processus de Poisson avec intensité(λpj ) ;
(ii) les processus (Nj (t); t ≥ 0) sont indépendants les uns des autres.
132
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (i). L’énoncé (i) est facile à démontrer. Fixons j ∈ {1, 2, ..., m} et
(j)
considérons le processus (Nj (t); t ≥ 0). Le temps du premier événement de ce processus, disons T1
peut s’écrire sous la forme
Gj
(j)
X
T1 = Tk
k=1
où T1 , T2 , T3 , ... sont les temps d’attente du processus (N (t); t ≥ 0) et où Gj dénote le nombre
d’événements qu’il faudra observer pour obtenir notre premier événement de type j. Les va-
riables T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λ), et
la variable Gj est géométrique(pj ) sur {1, 2, 3, ...} et est indépendante des variables T1 , T2 , T3 , ...
(j)
Le Théorème 5 de la section 2 nous permet de conclure que T1 ∼ exponentielle(λpj ). Grâce
à la propriété d’absence de mémoire de la loi exponentielle, on peut montrer que les variables
(j) (j) (j)
T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λpj ). Le
processus (Nj (t); t ≥ 0) est donc bel et bien un processus de Poisson avec intensité λpj .
Démonstration de la partie (ii). La démonstration de l’énoncé (ii) est un peu plus délicate.
Pour fixer les idées et simplifier la notation, considérons le cas où m = 3. On a donc trois types
d’événements et chaque fois qu’un événement survient on a une probabilité p1 que ce soit un
événement de type 1, une probabilité p2 que ce soit un événement de type 2 et une probabilité
p3 que ce soit un événement de type 3. On suppose que 0 < pj < 1 pour j = 1, 2, 3 et que
p1 + p2 + p3 = 1. D’après la partie (i), les processus aléatoires
(N1 (t); t ≥ 0), (N2 (t); t ≥ 0), (N3 (t); t ≥ 0)
sont des processus de Poisson avec intensités respectives λp1 , λp2 et λp3 . On souhaite démontrer que
ces trois processus aléatoires sont indépendants. Autrement dit, on souhaite démontrer que pour
tout choix d’entiers positifs ℓ, m et n et pour tout choix de nombres réels positifs u1 < u2 < · · · < uℓ ,
v1 < v2 < · · · < vm et w1 < w2 < · · · < wn , les trois vecteurs aléatoires
(N1 (u1 ), N1 (u2 ), ..., N1 (uℓ )), (N2 (v1 ), N2 (v2 ), ..., N2 (vm )), (N3 (w1 ), N3 (w3 ), ..., N3 (wn ))
sont indépendants. Nous allons démontrer le cas spécial suivant : pour tout t > 0 les variables
aléatoire N1 (t), N2 (t) et N3 (t) sont indépendantes. À première vue cet objectif semble être beaucoup
plus modeste que l’objectif souhaité ci-dessus. Mais en fait ce cas spécial capture l’essentiel de notre
problème et, bien que nous omettrons les détails, il n’est pas très difficile de passer du cas spécial
au cas général.
Fixons t > 0 et calculons la fonction de masse conjointe des variables aléatoires N1 (t), N2 (t) et
N3 (t). Pour tout choix d’entiers non négatifs i, j et k, on obtient
P[(N1 (t), N2 (t), N3 (t)) = (i, j, k)]

= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k)]
= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) ∩ (N (t) = i + j + k)]
= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) | N (t) = i + j + k] P[N (t) = i + j + k]
133
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(i + j + k)! i j k −λt (λt)i+j+k

= p1 p2 p3 e
i! j! k! (i + j + k)!
(λtp1 )i (λtp2 )j (λtp3 )k
= e−λt
i! j! k!
i
j
k

−λtp1 (λtp1 ) −λtp2 (λtp2 ) −λtp3 (λtp3 )
= e e e
i! j! k!
= P[N1 (t) = i] P[N2 (t) = j] P[N3 (t) = k].
Pour la dernière égalité, on a utilisé le résultat de la partie (i). On a donc montré que la fonction de
masse conjointe des variables aléatoires N1 (t), N2 (t) et N3 (t) est égale au produit de leurs fonctions
de masse marginales. Les variables aléatoires N1 (t), N2 (t) et N3 (t) sont donc indépendantes.
Remarques.
(a) Dans le scénario du Théorème 13, chacun des processus de Poisson (Nj (t); t ≥ 0) est appelé
un amincissement du processus N (t); t ≥ 0).
(b) Dans la démonstration ci-dessus on a utilisé le fait que
(i + j + k)! i j k
P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) | N (t) = i + j + k] = p1 p2 p3 .
i! j! k!
Il s’agit d’une probabilité multinomiale. En effet, la distribution conjointe des variables
aléatoires N1 (t), N2 (t) et N3 (t) sachant que N (t) = i + j + k est la loi multinomiale(i + j +
k, (p1 , p2 , p3 )).
6.7 Processus de Poisson non homogène

Le processus de Poisson est souvent un modèle adéquat lorsqu’on modélise des phénomènes ho-
mogènes dans le temps. Cependant, il y a beaucoup de phénomènes pour lesquels l’intensité varie
dans le temps. Si on essaie, par exemple, de modéliser les arrivées des appels dans un centre d’ur-
gence 9-1-1, il se peut très bien que l’intensité soit de 5 appels par heure durant le jour, 10 appels
par heure durant la soirée et 2 appels par heure durant le milieu de la nuit. On pourrait donc
utiliser un processus de Poisson avec intensité λjour = 5 appels par heure, avec intensité λsoirée = 10
appels par heure et avec intensité λnuit = 2 appels par heure. On peut même introduire le concept
de processus de Poisson avec une intensité λ qui dépend du temps t, qu’on note λ(t) et qu’on ap-
pelle la fonction intensité. Si la fonction λ(t) est une constante alors on a un processus de Poisson
ordinaire. Sinon, on dit que le processus de Poisson est non homogène.
Définition d’un processus de Poisson non homogène

Un processus de Poisson avec fonction intensité λ(t) est un processus de dénombrements, disons
(N (t); 0 ≤ t < ∞), avec accroissements indépendants et avec N (t) − N (s) ∼ Poisson(m(t) − m(s))
pour tout 0 ≤ s ≤ t < ∞ où m(t) est la fonction de moyenne définie par
Z t
m(t) = λ(u) du.
0
134
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On suppose bien
R t sûr que la fonction intensité λ(t) est une fonction non négative. On suppose
également que 0 λ(u) du < ∞ pour tout t > 0.
Exemple. On suppose que (N (t); t ≥ 0) est un processus de Poisson avec fonction intensité donnée
par λ(t) = 2 + t e−t . Calculez la probabilité qu’il y aura au moins 4 événements durant l’intervalle
de temps (1, 3].
Solution. La probabilité demandée est la probabilité P[N (3) − N (1) ≥ 4]. D’abord on note que la
distribution de l’accroissement N (3) − N (1) est la loi de Poisson avec moyenne
Z 3 Z 3
E[N (3) − N (1)] = m(3) − m(1) = λ(t) dt = (2 + t e−t )dt ≈ 4.53661.
1 1
On obtient ensuite
P[N (3) − N (1) ≥ 4] = 1 − P[N (3) − N (1) ≤ 3]

= 1 − (0.01071 + 0.04859 + 0.11021 + 0.16666) ≈ 0.6638.
Simulation d’un processus de Poisson non homogène.

Voici comment on peut simuler un processus de Poisson non homogène sur, disons, l’intervalle
R[0,toto ]. D’abord on simule une variable aléatoire, disons N , avec loi de Poisson de moyenne m(to ) =
0 λ(s) ds. Disons qu’on obtient N = n. Ensuite on choisit n points i.i.d. avec distribution uniforme
sur la surface sous le graphe de la fonction intensité entre le point t = 0 et le point t = to . Enfin,
on projette ces n points sur l’axe du temps. On peut montrer que les n projections ainsi obtenues
constituent un processus de Poisson non homogène avec fonction intensité λ(t).
6.8 Processus de Poisson composé

Le scénario suivant motive la définition de processus de Poisson composé. On suppose que les
arrivées de clients à un poste d’essence peu achalandé surviennent comme un processus de Poisson,
disons (N (t); t ≥ 0), avec une intensité de λ clients par heure. Si Yj dénote la quantité d’essence,
en litres, acheté par le j e client, alors Y1 + Y2 + · · · + YN (t) dénote le nombre total de litres d’essence
vendus durant l’intervalle de temps [0, t]. Le cas spécial où les variables aléatoires Y1 , Y2 , Y3 , ... sont
indépendantes et identiquement distribuées et sont indépendantes du processus (N (t); t ≥ 0) est
particulièrement important.
Définition de processus de Poisson composé
Supposons que les conditions suivantes sont satisfaites :
• (N (t); t ≥ 0) est un processus de Poisson avec intensité λ.
• Y1 , Y2 , Y3 , ... sont des variables aléatoires indépendantes et identiquement distribuées, avec
distribution F .
• La suite aléatoire (Y1 , Y2 , Y3 , ...) et le processus (N (t); t ≥ 0) sont indépendants.
Alors, le processus aléatoire (X(t); t ≥ 0), avec X(t) défini par
N (t)
X
X(t) = Yj ,
j=1
est appelé un processus de Poisson composé, avec intensité λ et avec distribution de gain F .
135
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Voici quelques propriétés élémentaires faciles à vérifier.

1. Les accroissements du processus (X(t); t ≥ 0) sont stationnaires.
2. Les accroissements du processus (X(t); t ≥ 0) sont indépendants.
3. Si F est la loi de probabilité concentrée au point 1, alors le processus (X(t); t ≥ 0) est
simplement le processus de Poisson (N (t); t ≥ 0).
4. Si F est une loi de Bernoulli, alors le processus (X(t); t ≥ 0) est simplement un amincissement
du processus de Poisson (N (t); t ≥ 0).
5. Si µ et σ 2 dénote la moyenne et la variance de la loi F , alors
E[X(t)] = λtµ
Var[X(t)] = λt(σ 2 + µ2 )
Le dernier point s’obtient par conditionnement sur N (t). Pour l’espérance, on obtient
E[X(t)] = E[E[X(t)|N (t)]] = E[µN (t)] = µE[N (t)] = µλt.
Pour la variance, on obtient
Var[X(t)] = E[Var[X(t)|N (t)]] + Var[E[X(t)|N (t)]]

= E[σ 2 N (t)] + Var[µN (t)]
= σ 2 λt + µ2 λt = λt(µ2 + σ 2 ).
Pour les calculs précédents, on a utilisé le fait que

 
n
X
E[X(t)|N (t) = n] = E  Yj  = nµ
j=1
 
n
X
Var[X(t)|N (t) = n] = Var  Yj  = nσ 2 .
j=1
On peut également montrer que

X(t) − µλt L
p −→ N (0, 1) quand t → ∞.
2 2
λt(µ + σ )
6.9 Troisième définition de processus de Poisson

Nous allons maintenant présenter une troisième définition pour le processus de Poisson et nous
allons montrer que cette troisième définition est équivalente aux deux définitions données à la
section 4. Mais d’abord, nous devons introduire le concept de petit ordre et la notation o(t).
La notation o(t) : Supposons que g(u) soit une fonction définie sur (0, ∞) et à valeurs dans R.
On dit que la fonction g(u) est un petit ordre de u lorsque u tend vers 0, et on écrit
g(u) = o(u) quand u → 0,
si on a
g(u)
lim = 0.
u↓0 u
136
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Intuitivement, cette condition signifir que lorsque u tend vers 0, g(u) tend vers 0 plus rapidement
que u. Par exemple, la fonction g(u) = u2 est un petit ordre de u quand u → 0 puisque
u2
lim = lim u = 0.
u↓0 u u↓0
Par ailleurs, bien que limu→0 sin(u) = 0, la fonction g(u) = sin(u) n’est pas un petit ordre de u
quand u → 0 puisque
sin(u)
lim = 1.
u↓0 u
On utilise la notation o(u) pour représenter n’importe quelle fonction g(u) qui satisfait la condition
limu→0 g(u)/u = 0. Lorsque la notation o(u) est utilisé à plusieurs reprises dans une même équation
ou dans une série d’équations, les différents o(u) ne représentent pas nécessairement la même
quantité.
Considérons maintenant un processus de Poisson (N (t); t ≥ 0) avec intensité λ. Fixons t, un nombre

réel positif, et fixons k, un entier non négatif. Alors quelques calculs élémentaires nous donnent les
résultats suivants :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λh + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λh + o(h) quand h → 0.
(c) P[N (t + h) − N (t) ≥ 2|N (t) = k] = o(h) quand h → 0.
Par exemple, le point (a) s’obtient de la façon suivante :
P[N (t + h) − N (t) = 0|N (t) = k] = P[N (t + h) − N (t) = 0]

= e−λh = 1 − λh + e−λh − 1 + λh = 1 − λh + g(h)
avec g(h) = e−λh − 1 + λh. La première égalité vient du fait que les accroissements du processus de
Poisson sont indépendants. La deuxième égalité vient du fait que N (t + h)− N (t) ∼ Poisson(λh). Il
ne reste plus qu’à vérifier que cette fonction g(h) est un petit ordre de h lorsque h → 0, c’est-à-dire
e−λh − 1 + λh
lim = 0.
h→0 h
On y arrive facilement en appliquant la règle de l’Hospital. Les point (b) et (c) s’obtiennent de
façon semblable.
Nous allons maintenant démontrer le résultat suivant : si (N (t); t ≥ 0) est un processus de

dénombrement satisfaisant les conditions (a), (b) et (c), alors (N (t); t ≥ 0) est un processus de
Poisson avec intensité λ. Notons d’abord qu’il est intuitivement clair que si (N (t); t ≥ 0) satisfait
les conditions (a), (b) et (c), alors (N (t); t ≥ 0) est un processus à accroissements stationnaires
indépendants. D’après la Définition 2 de la section 4, pour montrer que (N (t); t ≥ 0) est un proces-
sus de Poisson, il ne reste plus qu’à montrer que N (t) ∼ Poisson(λt) pour tout t ≥ 0. Pour t ≥ 0
et pour n = 0, 1, 2, ..., posons
fn (t) = P[N (t) = n].
Il faut montrer que
(λt)n
fn (t) = e−λt .
n!
137
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Considérons d’abord la fonction f0 (t). À l’aide de (a), on obtient
f0 (t + h) = P[N (t + h) = 0]
= P[N (t) = 0] P[N (t + h) − N (t) = 0|N (t) = 0]
= f0 (t) (1 − λh + o(h))
On a donc
f0 (t + h) − f0 (t) o(h)
= f0 (t) −λ +
h h
et lorsqu’on prend la limite quand h → 0 on obtient
f0′ (t) = −λf0 (t).
Avec la condition initiale f0 (0) = P[N (0) = 0] = 1, la solution de cette équation différentielle est
f0 (t) = e−λt . On a donc
P[N (t) = 0] = e−λt .
Maintenant, considérons la fonction f1 (t). À l’aide de (a) et (b), on obtient
f1 (t + h) = P[N (t + h) = 1]
= P[N (t) = 0] P[N (t + h) − N (t) = 1|N (t) = 0]
+ P[N (t) = 1] P[N (t + h) − N (t) = 0|N (t) = 1]
= f0 (t) (λh + o(h)) + f1 (t) (1 − λh + o(h)) .
On a donc
f1 (t + h) − f1 (t) o(h) o(h)
= e−λt λ+ + f1 (t) −λ +
h h h
et lorsqu’on prend la limite quand h → 0 on obtient
f1′ (t) = −λf1 (t) + λe−λt .
Avec la condition initiale f1 (0) = P[N (0) = 1] = 0, la solution de cette équation différentielle est
f1 (t) = λte−λt . On a donc
P[N (t) = 1] = λte−λt .
On peut continuer de la même façon avec les fonctions f2 (t), f3 (t), f4 (t), ... et on obtient alors
(λt)k
P[N (t) = k] = e−λt
k!
Ceci montre que
N (t) ∼ Poisson(λt) pour tout t ≥ 0.
Nous avons donc démontré que la définition suivante de processus de Poisson est équivalente aux
deux définitions données à la section 4.
138
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Définition 3. [Troisième définition de processus de Poisson].

Un processus de Poisson avec intensité λ est un processus de dénombrements, disons (N (t); t ≥ 0),
qui satisfait les conditions suivantes :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λh + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λh + o(h) quand h → 0.
L’approche utilisé dans la présente section présente certains avantages. Par exemple, on peut mon-
trer qu’un processus de dénombrement (N (t); t ≥ 0) est un processus de Poisson avec fonction
intensité λ(t) si et seulement si les trois conditions suivantes sont satisfaites :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λ(t)h + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λ(t)h + o(h) quand h → 0.
6.10 Processus de renouvellement

6.10.1 Introduction
Rappelons les trois définitions données au début de la section 4 du présent chapitre :
Définition d’un processus de dénombrement :

Considérons des variables aléatoires T1 , T2 , T3 , ..., appelées durées de vie
Pet satisfaisant P[0 < Tj <
∞] = 1 pour tout j ≥ 1. Posons S0 = 0 et, pour n ≥ 1, posons Sn = nj=1 Tj . Enfin, pour t ≥ 0,
posons Nt = max{n ≥ 0 : Sn ≤ t}. Le processus aléatoire (Nt ; t ≥ 0) s’appelle alors un processus
dénombrement.
Définition d’un processus de renouvellement :

Un processus de renouvellement est un processus de dénombrement pour lequel les durées de vie
T1 , T2 P
, T3 , ... sont des variables aléatoires indépendantes et identiquement distribuées. Les temps
Sn = nj=1 Tj s’appellent alors les temps de renouvellement.
Définition d’un processus de Poisson :

Un processus de Poisson avec intensité λ est un processus de renouvellement dont la distribution
des durées de vie est la loi exponentielle(λ).
Dans les sections précédentes, nous avons étudié en détails le cas particulier des processus de
Poisson. Dans la présente section nous étudions le cas général des processus de renouvellement. Il
s’avère que plusieurs résultats obtenus pour les processus de Poisson sont également valides, sous
une forme appropriée, pour les processus de renouvellement. Voici la notation et les hypothèses qui
seront utilisées dans la présente section :
• Les durées de vie T1 , T2 , T3 , ... sont des variables aléatoires i.i.d. avec P[0 < Tk < ∞] = 1.
• µ et σ 2 dénotent la moyenne et la variance de la distribution des durées de vie.
• F (t) dénote la fonction de répartition de la distribution des durées de vie.
P
• S0 = 0 et, pour n ≥ 1, Sn = nj=1 Tj .
• Pour t ≥ 0, Nt = max{n ≥ 0 : Sn ≤ t}.
139
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Les notations N (t) et Nt signifient la même chose et seront toutes les deux utilisées. Le nombre
total de renouvellements durant la vie entière du processus est parfois dénoté N∞ ou N (∞). On a
donc
N∞ = lim Nt .
t→∞
Voici d’abord un résultat élémentaire. Ce résultat nous dit qu’avec un processus de renouvellement
on ne peut jamais avoir une infinité de renouvellements à l’intérieur d’un intervalle de temps fini et
on a toujours un nombre infini de renouvellements durant la vie entière du processus, c’est-à-dire
durant l’intervalle de temps [0, ∞).
Théorème 14 : Si (Nt ; t ≥ 0) est un processus de renouvellement, alors
(a) P[Nt = ∞] = 0 pour tout 0 ≤ t < ∞ ;
(b) P[N∞ = ∞] = 1.
Démonstration. Considérons d’abord le point (a). D’après la loi forte des grands nombres, on a
P[ lim Sn /n = µ] = 1.
n→∞
On a donc P[limn→∞ Sn = ∞] = 1. Donc, si on fixe un réel t ≥ 0, alors on a
P[∩∞
n=1 (Sn ≤ t)] = 0,
c’est-à-dire P[Nt = ∞] = 0. Considérons maintenant le point (b). Pour que le nombre total de
renouvellements soit fini, il faut qu’au moins une des durées de vie soit infini. On obtient donc
P[N∞ < ∞] = P[Tn = ∞ pour au moins un n ≥ 1]

= P[∪∞
n=1 (Tn = ∞)]
X∞
≤ P[Tn = ∞] = 0.
n=1
On a donc P[N∞ = ∞] = 1. Ceci complète la démonstration du théorème 14.
6.10.2 La fonction de moyenne

La fonction de moyenne du processus de renouvellement (Nt ; t ≥ 0) est la fonction m(t) définie par
m(t) = E[Nt ].
Nous verrons ci-dessous que la fonction de moyenne peut être exprimée en termes des fonctions
de répartition des temps de renouvellement. La fonction de répartition de Sn , le temps du ne
renouvellement, sera dénotée Fn (t). Donc, pour t ≥ 0,
Fn (t) = P[Sn ≤ t] = P[T1 + T2 + · · · + Tn ≤ t].
Ces fonctions de répartitions peuvent être calculées à partir de la fonction de répartition des durées
de vie. Par exemple, si la fonction de répartition des durées de vie possède une densité, disons f (t),
alors la densité de probabilité de la variable aléatoire Sn peut être calculée avec l’aide de la formule
de convolution.
140
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple. Supposons que la distribution des durée de vie est la loi gamma(α, λ). Alors la distri-
bution de la variable aléatoire Sn est la loi gamma(nα, λ).
Théorème 15 :
∞
X
m(t) = Fn (t).
n=1
Démonstration. Rappelons queP si M est une variable aléatoire à valeurs dans l’ensemble des
entiers non négatifs, alors E[M ] = ∞ m=1 P[M ≥ m]. Rappelons aussi qu’on a Nt ≥ n si et seulement
si Sn ≤ t. On obtient donc
∞
X ∞
X ∞
X
m(t) = E[N (t)] = P[Nt ≥ n] = P[Sn ≤ t] = Fn (t).
n=1 n=1 n=1
Ceci complète la démonstration du théorème 15.
La partie (a) du théorème 14 nous dit que P[Nt < ∞] = 1. Il est donc raisonnable de penser que
E[Nt ] < ∞, c’est-à-dire m(t) < ∞. Toutefois, il faut être prudent ! Une variable aléatoire N peut
avoir une espérance infini même si elle satisfait la condition P[0 < N < ∞] = 1. Le théorème
suivant n’est donc pas complètement trivial.
Théorème 16. Pour tout 0 ≤ t < ∞,

m(t) < ∞.
Démonstration. Fixons t ≥ 0. Considérons le cas où t est tel que F (t) < 1. On a alors
Fn (t) = P[Sn ≤ t]
≤ P[∩nj=1 (Tj ≤ t)]
Yn
= P[Tj ≤ t] = (F (t))n .
j=1
L’inégalité ci-dessus vient du fait que si Sn ≤ t, alors les variables T1 , T2 , ..., Tn sont toutes plus
petites où égales à t. Le théorème 15 nous permet de conclure :
∞
X ∞
X
m(t) = Fn (t) ≤ (F (t))n < ∞.
n=1 n=1
Ceci complète la démonstration dans le cas où t est tel que F (t) < 1. Dans le cas où t est tel que
F (t) = 1, la démonstration est un peu plus délicate et elle sera omise.
Voici deux exemples où la fonction de moyenne m(t) est facile à calculer.
Exemple 1. Si (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors m(t) = λt. Ici, la
durée de vie moyenne est µ = 1/λ. On a donc m(t) = t/µ.
Exemple 2. Considérons un processus de renouvellement (Nt ; t ≥ 0) avec densité de durée de vie

donnée par
t e−t si t ≥ 0
f (t) =
0 si t < 0.
141
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Il s’agit de la loi gamma(2, 1). On a donc Sn ∼ gamma(2n, 1), c’est-à-dire


2n−1
 t

e−t si t ≥ 0
fn (t) = (2n − 1)!

 0 si t < 0.
La fonction de moyenne est donc

∞ ∞ Z t
X X s2n−1
m(t) = Fn (t) = e−s ds
(2n − 1)!
n=1 n=1 0
Z ∞
! Z t s
t X s2n−1
−s e − e−s
= e ds = e−s ds
0 n=1
(2n − 1)! 0 2
t e−2t − 1
= + .
2 4
Il est clair que si deux processus de renouvellement ont la même distribution de durée de vie, alors
ils ont la même fonction de moyenne. L’inverse est vrai. Avec l’aide de la transformée de Laplace,
on peut montrer que si deux processus de renouvellement ont la même fonction de moyenne, alors
ils ont la même distribution de durée de vie. Un processus de renouvellement est donc caractérisé
par sa fonction de moyenne. On a donc le théorème suivant.
Théorème 17. Soit (N1 (t); t ≥ 0), un processus de renouvellement avec distribution de durée de
vie F1 (t) et avec fonction de moyenne m1 (t). Soit (N2 (t); t ≥ 0), un processus de renouvellement
avec distribution de durée de vie F2 (t) et avec fonction de moyenne m2 (t). Alors
F1 (t) = F2 (t) ∀t ≥ 0 si et seulement si m1 (t) = m2 (t) ∀t ≥ 0.
Exemple 3. La fonction de moyenne d’un processus de renouvellement est m(t) = 7t. Obtenez la
probabilité d’avoir exactement 10 renouvellements durant l’intervalle de temps (3, 5].
Solution. On sait que la fonction de moyenne d’un processus de Poisson avec intensité λ = 7
est précisément la fonction m(t) = 7t. Le théorème 17 nous permet donc de conclure que notre
processus de renouvellement est en fait un processus de Poisson avec intensité λ = 7. Le nombre
d’évènements durant l’intervalle de temps (3, 5] suit donc la loi de Poisson avec moyenne 2λ = 14.
La probabilité demandée est donc e−14 1410 /10!.
Nous terminons la présente section avec un autre résultat au sujet de la fonction de moyenne m(t).
La démonstration sera omise.
Théorème 18.
Si (N (t); t ≥ 0) est un processus de renouvellement avec durée de vie moyenne µ, alors
m(t) 1
lim = .
t→∞ t µ
142
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le cas d’un processus de Poisson, le Théorème 18 est trivial. En effet, si (N (t); t ≥ 0) est un
processus de Poisson avec intensité λ, alors m(t) = λt, donc m(t)/t = λ, donc limt→∞ m(t)/t = λ.
Or dans le cas d’un processus de Poisson avec intensité λ, les durées de vie sont exponentielle(λ)
de sorte que µ = 1/λ, c’est-à-dire λ = 1/µ. Donc pour un processus de Poisson avec intensité λ on
a bel et bien limt→∞ m(t)/t = 1/µ.
Exercice. Vérifiez que pour le processus de renouvellement de l’exemple 2 de la présente section

on a bel et bien limt→∞ m(t)/t = 1/µ.
6.10.3 Loi des grands nombres

Voici d’abord quelques rappels.
La loi faible des grands nombres :

Si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes et identiquement distribuées avec moyenne
µ, alors
n
1X P
Vj −→ µ.
n
j=1
Autrement dit, pour tout ǫ > 0 on a

 
n
1 X
lim P  Vj − µ > ǫ = 0.
n→∞ n j=1
P
La notation −→ se lit “converge en probabilité”. Dans le cas où la variance des Vj est finie, la loi
faible des grands nombres se démontre facilement à l’aide de l’inégalité de Chebyshev.
La loi forte des grands nombres :

Si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes et identiquement distribuées avec moyenne
µ, alors
n
1X p.s.
Vj −→ µ.
n
j=1
Autrement dit, on a  
n
1 X
P  lim Vj = µ = 1.
n→∞ n
j=1
p.s.
La notation −→ se lit “converge presque sûrement”, ou encore “converge avec probabilité 1”. Dans
le cas où E[V14 ] < ∞, on peut démontrer la loi forte des grands nombres avec l’aide de l’inégalité de
Chebyshev et du lemme de Borel et Cantelli. Dans le cas général, la démonstration de la loi forte
des grands nombres est beaucoup plus difficile.
Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires
N (1), N (2) − N (1), N (3) − N (2), N (4) − N (3), ...
143
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
sont indépendantes et identiquement distribuées avec moyenne λ et la loi forte des grands nombres
nous donne donc
n
N (n) 1X p.s.
= (N (j) − N (j − 1)) −→ λ.
n n
j=1
Si [t] dénote la partie entière de t, alors on peut écrire
[t] N ([t]) N ([t]) N (t) N ([t] + 1) N ([t] + 1) [t] + 1

= ≤ ≤ =
t [t] t t t [t] + 1 t
En vertu de la limite précédente, le rapport N ([t])/[t] et le rapport N ([t] + 1)/([t] + 1) convergent

tous les deux vers λ avec probabilité 1. D’autre part, il est facile de voir que le rapport [t]/t et
([t] + 1)/t convergent tous les deux vers 1. On a donc le résultat suivant :
Théorème 19 : La loi des grands nombres pour les processus de Poisson.

Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors
N (t) p.s.
−→ λ. (6.1)
t
Avec le processus de Poisson, la moyenne de la distribution des durées de vie est simplement
µ = 1/λ. Le résultat (6.1) peut donc s’écrire sous la forme suivante :
N (t) p.s. 1
−→ . (6.2)
t µ
Le résultat suivant nous dit que l’équation (6.2) est valide pour tous les processus de renouvellement.
Théorème 20 : La loi des grands nombres pour les processus de renouvellement.

Si (N (t); t ≥ 0) est un processus de renouvellement avec durée de vie moyenne µ, alors
N (t) p.s. 1
−→ . (6.3)
t µ
Démonstration. Pour tout t ≥ 0 on a
SN (t) ≤ t ≤ SN (t)+1 .
On obtient donc
SN (t) t SN (t)+1 SN (t)+1 N (t) + 1
≤ ≤ = (6.4)
N (t) N (t) N (t) N (t) + 1 N (t)
La loi forte des grands nombres appliquée aux durées de vie T1 , T2 , T3 , ... nous donne
Sn p.s.
−→ µ lorsque n → ∞
n
et la partie (b) du théorème de la section 10.1 nous dit que
p.s.
N (t) −→ ∞ lorsque t → ∞.
144
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
N (t) + 1 p.s.
−→ 1,
N (t)
SN (t) p.s.
−→ µ
N (t)
SN (t)+1 p.s.
−→ µ
N (t) + 1
L’équation (6.4) nous donne donc

t p.s.
−→ µ
N (t)
ou, de façon équivalente,
N (t) p.s. 1
−→ .
t µ
Ceci complète la démonstration de la loi des grands nombres pour les processus de renouvellement.
Remarque. Puisque la convergence presque sûre entraine la convergence en probabilité, le résultat

précédent entraı̂ne le r esultat suivant :
N (t) P 1
−→ .
t µ
6.10.4 Théorème limite central

Le théorème limite central nous dit que si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes
et identiquement distribuées avec moyenne µ et variance σ 2 , alors
Pn
j=1 Vj − nµ L
√ −→ N (0, 1).
σ n
Autrement dit, pour tout z ∈ R on a

" Pn #
j=1 Vj − nµ
lim P √ ≤ z = Φ(z)
n→∞ σ n
où Φ(z) dénote la fonction de répartition de la loi N (0, 1), c’est-à-dire

Z z
1 2
Φ(z) = √ e−u /2 du.
−∞ 2π
Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires
N (1), N (2) − N (1), N (3) − N (2), N (4) − N (3), ...
sont indépendantes et identiquement distribuées avec moyenne λ et avec variance λ. Le théorème

limite central nous donne donc
Pn
N (n) − nλ j=1 (N (j) − N (j − 1)) − nλ L
√ = √ −→ N (0, 1).
nλ nλ
145
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Comme à la section 10.3, on peut montrer que la limite précédente est également valide avec n
remplacé par t. On a donc le résultat suivant :
Théorème 21 : Le théorème limite central pour les processus de Poisson.

Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors
N (t) − tλ L
√ −→ N (0, 1). (6.5)
tλ
Tout comme la loi des grands nombres, le théorème limite central pour les processus de Poisson se
généralise aux processus de renouvellement.
Théorème 22 : Le théorème limite central pour les processus de renouvellement.

Si (N (t); t ≥ 0) est un processus de renouvellement dont la moyenne et l’écart-type de la distribution
des durées de vie sont µ et σ, respectivement, alors
N (t) − t/µ L
p −→ N (0, 1). (6.6)
tσ 2 /µ3
Remarque. Avec le processus de Poisson, la moyenne et la variance de la distribution des durées

de vie sont, respectivement, µ = 1/λ et σ 2 = 1/λ2 . Le résultat (6.5) est donc bel et bien un cas
particulier du résultat (6.6).
Aperçu de la démonstration :
On fixe x ∈ R. On doit montrer que
" #
N (t) − t/µ
lim P p ≤ x = Φ(x)
t→∞ tσ 2 /µ3
p
Or si t est très grand et si m dénote la partie entière de t/µ + x tσ 2 /µ3 , alors on a
" #
N (t) − t/µ t p
2 3
P p ≤x = P N (t) ≤ + x tσ /µ
tσ 2 /µ3 µ
≈ P [N (t) < m]
= P[Sm > t]

Sm − mµ t − mµ
= P √ > √
σ m σ m

Sm − mµ t − mµ
= 1−P √ ≤ √
σ m σ m

t − mµ
≈ 1−Φ √
σ m
≈ 1 − Φ(−x) = Φ(x).
Pour l’avant-dernière approximation, on a utilisé le théorème limite central classique (qui nous dit
√
que (Sm − mµ)/σ m suit, à peu près, la loi N (0, 1)). Pour la dernière approximation, on a utilisé
146
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
p
le fait que m ≈ t/µ + x tσ 2 /µ3 et on a obtenu
p
t − t/µ + x tσ 2 /µ3 µ
t − mµ −x
√ ≈ q =p √ ≈ −x
σ m p
1 + xσ/ tµ
σ t/µ + x tσ 2 /µ3
Pour obtenir une démonstration rigoureuse, il suffirait de justifier les approximations précédentes
pour obtenir " #
N (t) − t/µ
lim P p ≤ x = Φ(x).
t→∞ tσ 2 /µ3
Ceci complète l’aperçu de la démonstration.
L
En général, lorsqu’on a Wn −→ W , on ne peut pas prendre la variance de chaque côté et conclure
que Var[Wn ] → Var[W ]. Mais dans le cas du théorème limite central pour les processus de renou-
vellement, on peut justifier ce calcul. On obtient alors
" #
N (t) − t/µ
Var p →1
tσ 2 /µ3
Après quelques simplifications, on obtient le résultat suivant.
Théorème 23. Si (N (t); t ≥ 0) est un processus de renouvellement dont la moyenne et l’écart-type

de la distribution des durées de vie sont respectivement µ et σ, alors
Var[N (t)] σ2
lim = 3.
t→∞ t µ
6.10.5 La durée de vie en cours au temps t

Considérons un processus de renouvellement, disons (N (t); t ≥ 0), avec distribution de durée de vie
F . Comme d’habitude, µ et σ dénotent la moyenne et l’écart-type de cette distribution F . Comme
d’habitude, T1 , T2 , T3 ,... dénotent les durées de vie. On a donc E[Tn+1 ] = µ pour tout n ≥ 0. Le
théorème suivant peut donc sembler surprenant.
Théorème 24.
lim E[TN (t)+1 ] = µ + (σ 2 /µ). (6.7)
t→∞
Ce résultat est parfois appelé le paradoxe de l’échantillonnage. Imaginez par exemple un pro-
cessus de renouvellement où les variables T1 , T2 , T3 , ... représentent les durées de vie d’ampoules
électriques qui sont utilisées séquen-tiellement dans une lampe. La variable TN (t)+1 représente alors
la durée de vie de l’ampoule en service au temps t. Les variables T1 , T2 , T3 , ... sont indépendantes
et identiquement distribuées avec moyenne µ mais pourtant le théorème précédent nous dit que
E[TN (t)+1 ] ≈ µ + (σ 2 /µ).
On peut même obtenir la distribution limite de la variable TN (t)+1 . Par exemple, dans le cas où la
distribution des durées de vie est une loi continue avec densité fT (t), on a le résultat suivant :
147
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 25. Pour tout v > 0,

Z v
1
lim P[TN (t)+1 ≤ v] = ufT (u)du.
t→∞ µ 0
Autrement dit, on a
L
TN (t)+1 −→ V (6.8)
où V est une variable aléatoire avec densité
vfT (v)
fV (v) = . (6.9)
µ
L’équation (6.8) suggère

L
E[TN (t)+1 ] −→ E[V ].
Si on calcule E[V ], on obtient
Z ∞
E[V ] = vfV (v)dv
Z0 ∞
vfT (v)
= v dv
0 µ
Z
1 ∞ 2
= v fT (v)dv
µ 0
E[T 2 ] µ2 + σ 2
= = = µ + (σ 2 /µ).
µ µ
L’équation (6.7) est donc cohérente avec l’équation (6.8).
Pour comprendre ce qui se passe, examinons un cas simple. Supposons que la distribution des durées
de vie d’un certain type de piles électriques est la loi discrète suivante :
P[Tj = 2] = 2/3 et P[Tj = 5] = 1/3.
Autrement dit, la fonction de masse des durées de vie est


 2/3 si t = 2
pT (t) = 1/3 si t = 5

0 si t ∈
/ {2, 5}
La moyenne et la variance de cette distribution de durée de vie sont
µ=3 et σ 2 = 2.
Donc on utilise nos piles de façon séquentielle et à chaque renouvellement on a une probabilité 2/3
de choisir une pile qui durera 2 heures et une probabilité 1/3 de choisir une pile qui durera 5 heures.
Parmi les 300 premières piles, il y en aura environ 200 qui dureront 2 heures et environ 100 qui
dureront 5 heures. La durée de vie totale des 300 premières piles sera donc d’environ 900 heures,
dont 400 heures couvertes par des piles qui durent 2 heures et 500 heures par des piles qui durent
5 heures. À la longue, la proportion du temps couvert par des piles qui durent 2 heures est donc
148
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
de 4/9 alors que la proportion du temps couvert par des piles qui durent 5 heures est de 5/9. On
conclut donc que pour t très grand, la durée de vie de la pile en service au temps t est une variable
aléatoire dont la fonction de masse est environ

 4/9 si v = 2
pV (v) = 5/9 si v = 5

0 si v ∈
/ {2, 5}
La moyenne de cette fonction de masse est µV = 11/3. On note que
σ2
µV = 11/3 = 3 + 2/3 = µ + .
µ
Ceci est cohérent avec l’équation (6.7). On note également que
4 2 (2/3) 2 pT (2)
pV (2) = = =
9 3 µ
5 5 (1/3) 5 pT (5)
pV (5) = = = ,
9 3 µ
c’est-à-dire
v pT (v)
pV (v) = .
µ
Ceci est la version discrète de l’équation (6.9).
Remarque. Si F est une distribution de probabilité sur les réels positifs, avec densité f (t) et avec
moyenne 0 < µ < ∞, alors la distribution de probabilité avec densité f˜(t) = tfµ(t) est dénotée F̃ et
est appelée la transformation de F par biais de longueur.
149
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 1. On suppose que X suit la loi exponentielle avec moyenne 4. Calculez
P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], P[2 ≤ X ≤ 4|X ≤ 5].
Numéro 2. On suppose que X suit la loi gamma avec moyenne 4 et avec écart-type 3. Calculez
P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], et P[2 ≤ X ≤ 4|X ≤ 5].
Numéro 3. On suppose que X suit la loi de Poisson avec moyenne 4. Calculez

P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], P[2 ≤ X ≤ 4|X ≤ 5].
Numéro 4. Le Théorème 1 du présent chapitre nous dit que si T est une variable aléatoire à
valeurs dans l’intervalle (0, ∞), c’est-à-dire si P[0 < T < ∞] = 1, alors T suit une loi exponentielle
si et seulement si T possède la propriété d’absence de mémoire (P[T > u + v] = P[T > u]P[T > v]
pour tout 0 ≤ u < ∞ et pour tout 0 ≤ v < ∞). Voici le résultat analogue pour les distributions
sur {1, 2, 3, ...}. Démontrez-le.
Théorème. Soit K, une variable aléatoire à valeurs dans l’ensemble {1, 2, 3, ...}. Alors K suit une
loi géométrique (sur {1, 2, 3, ...}) si et seulement si on a
P[K > n + m] = P[K > n] P[K > m] (1)
pour tout n ∈ {0, 1, 2, 3, ...} et tout m ∈ {0, 1, 2, 3, ...}.
Numéro 5. Le Théorème 3 du présent chapitre nous dit que si T1 , T2 , ..., Tn sont des variables
aléatoires indépendantes, si Tj ∼ exponentielle(λj ), et si
W = min{T1 , T2 , ..., Tn }
alors W ∼ exponentielle(λ), avec λ = λ1 +λ2 +· · ·+λn . Énoncez et démontrez un résultat semblable

pour la loi géométrique sur les entiers {1, 2, 3, ...}.
Numéro 6. [Résultat important qui sera utilisé plus tard].

(a) Supposons que U et V sont des variables aléatoires indépendantes avec U ∼ expo(α) et
V ∼ expo(β). Calculez P[U > V ], P[U = V ] et P[U < V ].
(b) Fixons n, un entier positif. Fixons λ1 , λ2 , ...λn , des nombres réels strictement positifs. Suppo-
sons que Y1 , Y2 , ...Yn sont des variables aléatoires indépendantes avec Yj ∼ exponentielle(λj ).
Obtenez la distribution de la variable aléatoire K = l’entier i tel que Yi = min{Y1 , Y2 , ...Yn }.
Numéro 7. On suppose que T1 , T2 , ..., Tn sont i.i.d. exponentielle(λ).

On pose Mn = max{T1 , T2 , ..., Tn }.
(a) Obtenez la densité de la variable Mn .
(b) À partir de la densité obtenue en (a), obtenez une expression pour E[Mn ].
(c) Sans utiliser la densité obtenue en (a), obtenez
une expression
pour E[Mn ] en écrivant Mn
sous la forme Mn = T(n,1) + T(n,2) − T(n,1) + T(n,3) − T(n,2) + · · · + T(n,n) − T(n,n−1) et
en exploitant la propriété d’absence de mémoire de la loi exponentielle. Ici T(n,k) dénote la
k e statistique d’ordre de l’échantillon T1 , T2 , ..., Tn . Oui, Mn est simplement T(n,n) .
E[Mn ]
(d) À partir du résultat obtenu en (c), obtenez lim .
n→∞ log(n)
150
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 8. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec une intensité de 4
événements par heure.
(a) Calculez la probabilité qu’il y aura au moins 6 événements durant les 2 prochaines heures.
(b) Sachant qu’il y a eu 7 événements durant les 2 dernières heures, quelle est la probabilité
qu’il n’y ait eu aucun événement durant les 30 dernières minutes ?
Numéro 9. Chaque matin Marie prend l’autobus 801 pour se rendre au travail. On suppose que
les autobus passent comme un processus de Poisson avec une intensité de 10 autobus par heure.
Chaque fois qu’un autobus passe, on a une probabilité 1/5 que le chauffeur soit une femme et une
probabilité 4/5 que ce soit un homme. Marie prend toujours le premier autobus conduit par une
femme. Obtenez l’espérance et l’écart-type du temps d’attente de Marie.
Numéro 10. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. Comme
d’habitude, on écrit T1 , T2 , T3 , ... pour dénoter les durées de vie de ce processus et S1 , S2 , S3 , ... pour
dénoter les temps de renouvellement. Maintenant on pose Vt = t − SNt . La variable Vt représente
l’âge de la composante en service au temps t.
(a) Obtenez la distribution de la variable Vt .
(b) Obtenez la limite, quand t → ∞, de la distribution obtenue en (a).
Numéro 11. On imagine des points aléatoires dans le plan R2 et, pour B ⊂ R2 , on pose NB = le
nombre de points dans l’ensemble B. On écrit m(B) pour dénoter la surface de B. On fixe λ > 0
et on suppose que les conditions suivantes sont satisfaites :
(i) Si B est un sous-ensemble de R2 avec m(B) < ∞, alors NB ∼ Poisson(λ m(B)).
(ii) Si B1 , B2 ,..., Bℓ sont des sous-ensembles disjoints de R2 , tous avec surface finie, alors les
variables aléatoires NB1 , NB2 , ..., NBℓ sont indépendantes.
Le processus (NB ; B ⊂ R2 ) s’appelle alors un processus de Poisson dans le plan, avec une intensité
de λ points par unité de surface.
(a) Vérifiez que la procédure suivante donne bel et bien un processus de Poisson dans le plan,
avec une intensité de λ points par unité de surface :
On se donne une famille de variables aléatoires i.i.d. Poisson(λ), disons (X(k,ℓ) , (k, ℓ) ∈
Z2 ). On divise le plan en petits carrés de surface 1, disons R2 = ∪(k,ℓ)∈Z2 Ck,ℓ , où
Ck,ℓ = [k, k + 1) × [ℓ, ℓ + 1). Pour chaque (k, ℓ) ∈ Z2 , on observe X(k,ℓ) puis on choisit
X(k,ℓ) points i.i.d. avec distribution uniforme dans le carré Ck,ℓ .
On peut se concentrer sur un seul petit carré, disons le carré C0,0 = [0, 1)×[0, 1). Il faut alors
vérifier le point (i) avec B ⊂ C0,0 et le point (ii) avec B1 , B2 ,..., Bℓ tous des sous-ensembles
de C0,0 .
(b) On pose R = la distance entre l’origine du plan et le point (de notre processus de Poisson)
situé le plus près de l’origine. Obtenez la distribution de la variable R. Suggestion : calculez
P[R > r].
Numéro 12. On suppose que le processus de Poisson avec intensité λ = 6 par heure est un bon
modèle pour décrire les passages d’automobiles du Canada vers les États-Unis au poste frontalier
américain situé sur la route qui relie Whitehorse (Yukon) et Fairbanks (Alaska). Autrement dit, on
suppose que les temps entre les passages successifs d’automobiles allant du Canada vers les États-
Unis à ce poste frontalier sont des variables aléatoires exponentielle(6) indépendantes les unes des
autres.
151
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) Quelle est la probabilité que durant la prochaine heure exactement 4 automobiles franchiront
ce poste frontalier en direction des États-Unis ?
(b) Les douaniers américains inspectent une automobile sur dix. Ils viennent tout juste d’inpecter
une automobile. Ils vont donc laisser passer les 9 prochaines automobiles sans les inspecter,
puis ils vont inspecter la suivante. Et ainsi de suite. Calculez l’espérance et l’écart-type du
temps qui s’écoule entre 2 inspections successives.
(c) Quel est l’espérance et l’écart-type du nombre d’automobiles qui franchiront ce poste fron-
talier (en direction des États-Unis) durant les prochaines 24 heures ?
(d) Calculez une approximation pour la probabilité qu’il y ait au moins 150 automobiles qui
franchissent ce poste frontalier (en direction des États-Unis) durant les prochaines 24 heures.
Numéro 13. Dans un centre d’urgence 9-1-1, les appels arrivent comme un processus de Poisson
avec une intensité de 5 appels par heure. À chaque fois qu’un appel arrive, on a une chance sur 5
que ce soit un appel pour un incendie. Obtenez
(a) La probabilité qu’il y aura exactement 3 appels durant les 30 prochaines minutes.
(b) L’espérance et la variance du nombre d’appels durant les 30 prochaines minutes.
(c) La probabilité conditionnelle qu’il y aura, durant les 4 prochaines heures, exactement 3
appels pour des incendies sachant que durant cette période il y a en tout 12 appels.
(d) L’espérance conditionnelle du nombre d’appels pour incendie durant les 4 prochaines heures
sachant qu’il y a en tout 12 appels durant cette période.
(e) La probabilité qu’il y aura, durant les 4 prochaines heures, exactement 3 appels pour des
incendies.
(f) L’espérance du nombre d’appels pour incendie durant les 4 prochaines heures.
Numéro 14. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On pose
Ws = inf{t ≥ 0 : Nt+s − Nt = 0}.
Obtenez P[Ws = 0] et E[Ws ]. Suggestion : pour obtenir E[Ws ], conditionnez sur le temps du premier
événement.
Numéro 15. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et que T
est une variable aléatoire non négative avec moyenne µ et variance σ 2 , indépendante du processus
(Nt ; t ≥ 0). Obtenez le coefficient de corrélation entre T et NT .
Numéro 16. Dans un grand magasin, les clients arrivent comme un processus de Poisson avec
intensité λ = 10 clients par heure.
(a) Si chaque client a une probabilité p = 0.3 de faire un achat, quelle est la probabilité qu’il y
aura au moins un achat durant les 30 prochaines minutes ?
(b) On suppose que les achats effectués par les clients sont des variables aléatoires i.i.d. avec
moyenne 30$ et avec écart-type 10$. Calculez l’espérance et l’écart-type du total des ventes
sur une période de 8 heures.
Numéro 17. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On suppose
que les événements de ce processus de Poisson sont ou bien des événements rouges, ou bien des
événement noirs. Indépendamment de tout le reste, chaque événement a une probabilité p d’être
noir et 1 − p d’être rouge. On pose T = le temps du premier événement noir et M = le nombre
d’événements rouges qui surviennent avant le premier événement noir.
152
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) Obtenez la distribution de T .

(b) Obtenez la distribution de M .
(c) Obtenez la distribution conditionnelle de T sachant M = m.
(d) Obtenez la distribution conditionnelle de M sachant T = t.
Numéro 18. Une population contient N individus. Ici N est une variable aléatoire qui suit la loi
de Poisson avec paramètre ν. Les durées de vie de ces individus sont des variables aléatoires i.i.d.
avec une certaine distribution avec fonction de répartition G(t). On pose
Xt = le nombre d’individus qui décèdent durant l’intervalle de temps [0, t]

Yt = le nombre d’individus encore vivant au temps t.
(a) Obtenez la distribution de Xt .

(b) Obtenez la distribution de Yt .
(c) Obtenez la distribution conjointe de Xt et Yt .
Numéro 19. On suppose que (Nt ; t ≥ 0) est un processus de Poisson non homogène avec intensité
λ(t) = 1 + sin(t). Calculez P[Nπ = 4] et P[N2π − Nπ = 4].
Numéro 20. [Optionnel.] On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ
et que h(t) est une fonction non négative bornée par λ. On amincit notre processus (Nt ; t ≥ 0) de
la façon suivante : si un événement survient au temps t, on l’accepte avec probabilité h(t)/λ. On
écrit (Nt∗ ; t ≥ 0) pour dénoter le processus de dénombrement des événements acceptés. Vérifiez que
(Nt∗ ; t ≥ 0) est un processus de Poisson non homogène et déterminez sa fonction intensité.
Numéro 21. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus
de Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ, et avec moyenne des gains µ et écart-type des
gains σ. Calculez le coefficient de corrélation entre Nt et Xt .
Numéro 22. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus de
Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ = 2, et avec distribution des gains donnée par la
loi N (0, 1). Calculez P[X1 = 0] et P[ 12 < X1 < 32 ] à 3 décimales près.
P Nt
Numéro 23. Soit (Xt ; t ≥ 0), un processus de Poisson composé. On a donc Xt = j=1 Yj où
(Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et où Y1 , Y2 , Y3 , ... sont indépendantes du
processus (Nt ; t ≥ 0) et sont i.i.d. avec loi F . Montrez que
MXt (v) = exp (λt(MY (v) − 1)) .
Ici MY (v) et MXt (v) dénote la f.g.m. des Yk et la f.g.m. de Xt respectivement.
Numéro 24. [Exercice de révision du cours STT-1500]. Si X ∼ gamma(α1 , λ) et Y ∼ gamma(α2 , λ)

et si X et Y sont indépendantes, alors X + Y ∼ gamma(α1 + α2 , λ). À la section 6.2 nous avons
démontré ce résultat avec l’aide des fonctions génératices des moments. Démontrez ce résultat avec
l’aide de la formule de convolution.
Numéro 25. [Exercice de révision du cours STT-1500]. Sous les conditions suivantes
(a) les variables aléatoires T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ),
153
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) la variable aléatoire G suit la loi géométrique(p),

(c) la variable aléatoire G est indépendantes des variables aléatoires T1 , T2 , T3 , ...
P
la distribution de la variable aléatoire V = G j=1 Tj est la loi exponentielle(λp). À la section 6.2
nous avons démontré ce résultat en calculant la fonction de répartition de la variable V via condi-
tionnement par rapport à la variable G. Démontrez ce résultat en calculant la fonction génératrice
des moments de la variable V via conditionnement par rapport à la variable G.
Numéro 26. [Exercice de révision du cours STT-1500]. Si X ∼ Poisson(ν1 ) et Y ∼ Poisson(ν2 ) et

si X et Y sont indépendantes, alors X + Y ∼ Poisson(ν1 + ν2 ). À la section 6.2 nous avons démontré
ce résultat avec l’aide de la formule de convolution (version discrète). Démontrez ce résultat avec
l’aide des fonctions génératices des moments.
Numéro 27. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec durée de vie
moyenne égale à 2 et avec écart-type des durées de vie égal à 1. Calculez
• une approximation pour l’espérance de N (800) ;
• une approximation pour l’écart-type de N (800) ;
• une approximation pour P[N (800) ≥ 420] ;
• une approximation pour l’espérance de la durée de vie en cours au temps 800.
Numéro 28. On considère un processus de renouvellement, disons (Nt ; t ≥ 0), dont la densité des
durées de vie est donnée par
4t e−2t si t ≥ 0
f (t) =
0 si t < 0.
(a) Calculez la probabilité qu’il y aura au moins un renouvellement durant l’intervalle de temps
(0, 2].
(b) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle de
temps (0, 2].
(c) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle (2, 5].
(d) Calculez une approximation pour P[48 ≤ N50 ≤ 55].
(e) Donnez l’espérance et la variance de la septième durée de vie.
(f) Donnez des approximations pour l’espérance et la variance de la durée de vie en cours au
temps 200.
Suggestion : pour les parties (b) et (c), calculez d’abord la fonction de moyenne m(t) en procédant
comme à l’exemple 2 de la section 10.
Numéro 29. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec distribution
limite (quand t → ∞) de la durée de vie en cours au temps t donnée par

(4/3) v 4 e−2v si v ≥ 0
f (v) =
0 si v < 0
Calculez
(a) une approximation pour l’espérance de N (800) ;
(b) une approximation pour l’écart-type de N (800) ;
(c) une approximation pour P[N (800) ≥ 420] ;
154
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 30. Si (N (t); t ≥ 0) est un processus de renouvellement avec fonction de moyenne m(t) =
4t, alors que vaut P[N (2) ≤ 5] ?
Numéro 31. À plusieurs reprises nous avons utilisé le fait que

N (t) ≥ n si et seulement si Sn ≤ t.
Complétez les énoncés suivants :
(i) N (t) > n si et seulement si ...
(ii) N (t) < n si et seulement si ...
(iii) N (t) ≤ n si et seulement si ...
Numéro 32. On considère des composantes électroniques qu’on utilise séquentiellement, une après
l’autre. On suppose que les durées de vie de nos composantes sont des variables aléatoires i.i.d.
avec densité f (t) et fonction de répartition F (t). Dès qu’une composante tombe en panne, on la
remplace immédiatement par une nouvelle composante. Dès qu’une composante a servi pendant
to unités de temps, on la remplace par une nouvelle composante. À la longue, quel est le nombre
moyen de remplacement par unité de temps ?
Numéro 33. Soit (Nt ; t ≥ 0), un processus de renouvellement pour lequel la distribution des durées
de vie est la loi gamma(3, λ). Expliquez pourquoi on a, pour tout entier k ≥ 0,

e−λt (λt)3k λt (λt)2
P[Nt = k] = 1+ + .
(3k)! 3k + 1 (3k + 1)(3k + 2)
Indice : La gamma(3,λ) est la distribution de U + V + W , alec U, V, W i.i.d. exponentielle(λ).

Le processus de renouvellement (Nt ; t ≥ 0) peut donc être vu comme étant obtenu à partir d’un
processus de Poisson d’intensité λ, disons (Mt ; t ≥ 0), aminci de façon systématique en ne gardant
que les événements numéros 3, 6, 9, 12,... Dans le shéma ci-dessus, la première ligne représente le
processus (Mt ; t ≥ 0) et la deuxième ligne représente notre processus de renouvellement (Nt ; t ≥ 0).
Numéro 34. Processus de renouvellement composé. La section 6.8 porte sur les processus de
Poisson composés. On peut également parler de processus de renouvellement composés. Il suffit
de reprendre la section 6.8 et de remplacer l’hypothèse “(Nt ; t ≥ 0) est un processus de Poisson
avec intensité λ” par l’hypothèse “(N Pt ; tt ≥ 0) est un processus de renouvellement avec densité des
durées de vie f (t)”. On a donc Xt = N j=1 Yj où (Nt ; t ≥ 0) est un processus de renouvellement avec
densité des durées de vie f (t) avec moyenne µT et variance σT2 et où Y1 , Y2 , Y3 , ... sont des variables
aléatoires i.i.d. avec moyenne µY et variance σY2 . En procédant comme à la section 6.8, exprimez
E[Xt ] et Var[Xt ] en termes de µY , σY2 , E[Nt ] et Var[Nt ]. Puis, avec l’aide des approximations de
E[Nt ] et Var[Nt ] qu’on trouve à la section 10, obtenez des approximations pour E[Xt ] et Var[Xt ]
en termes des paramètres µT , σT2 , µY , σY2 .
Numéro 35. On suppose que (Nt ; t ≥ 0) est un processus de renouvellement avec distribution des
durées de vie des composantes donnée par la densité de probabilité suivante :
( 1 2 −t/2
16 t e si t ≥ 0
f (t) =
0 si t < 0.
155
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) Calculez une approximation pour P[104 ≤ N648 ≤ 115].

(b) Calculez une approximation pour P[T∗ > 10]. Ici T∗ dénote la durée de vie totale de la
composante en service au temps t = 2341.
(c) Calculez P[N20 = 3]. [Procédez comme au numéro 33].
156
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 7
Chaı̂nes de Markov à temps continu
7.1 Introduction
On se donne un ensemble non-vide, disons l’ensemble S, fini ou infini dénombrable. On se donne
une matrice stochastique P = (Pij ; i ∈ S, j ∈ S) sur S. On suppose que les éléments de la diagonale
de P sont tous nuls : Pii = 0 pour tout i ∈ S. On se donne un ensemble de paramètres positifs
q = (qi ; i ∈ S). Enfin, on se donne une distribution de probabilité sur S, disons ν = (νi ; i ∈ S).
Définition 1. Une chaı̂ne de Markov à temps continu, avec espace d’états S, avec loi initiale ν,
avec taux de départ (qi ; i ∈ S) et avec matrice des probabilités de transitions véritables P est un
processus aléatoire (Xt ; t ≥ 0), à valeurs dans S, satisfaisant les propriétés suivantes :
(i) L’état initial du processus, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque le processus arrive à un état i, il y demeure pendant un temps exponentiel avec
paramètre qi , indépendant de toute l’histoire antérieure du processus.
(iii) Lorsque le processus quitte un état i, il fait une transition vers un état j choisi selon la
distribution (Pij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
(iv) Les trajectoires du processus sont continues à droite.
Étant donné la propriété d’absence de mémoire de la loi exponentielle, il est facile de voir qu’un
tel processus satisfait la propriété de Markov et la propriété d’homogénéité des probabilités de
transition :
P[Xs+t = j | Xs1 = i1 , ..., Xsk = ik , Xs = i]

= P[Xs+t = j | Xs = i] = P[Xt = j | X0 = i] (7.1)
pour tout choix de temps 0 ≤ s1 < s2 < · · · < sk < s < s + t < ∞ et pour tout choix d’états
i1 , i2 , ..., ik , i et j dans S. Dans l’équation ci-dessus, la première égalité est la propriété de Markov
et la deuxième égalité est la propriété d’homogénéité dans le temps.
Définition 2. La probabilité conditionnelle P[Xt = j | X0 = i] est notée Pij (t) et est appelée
probabilité de transition d’ordre t. On a donc
Pij (t) = P[Xt = j | X0 = i]. (7.2)
La matrice P(t) = (Pij (t); i, j ∈ S) est appelée la matrice des probabilités de transition d’ordre t.
157
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Analogie avec les chaı̂nes de Markov à temps discret :

Notre définition de chaı̂ne de Markov à temps continu peut sembler très différente de celle d’une
chaı̂ne de Markov à temps discret. Voici une façon alternative de décrire les chaı̂nes de Markov à
temps discret. Avec cette nouvelle description, les chaı̂nes à temps discret et les chaı̂nes à temps
continu nous apparaissent très semblables.
Pour simplifier la discussion, considérons une chaı̂ne de Markov à temps discret sur un espace
d’états fini, disons S = {1, 2, 3, ..., m}, avec loi initiale ν = (νi ; i ∈ S) et avec matrice stochastique
P = (Pij ; i ∈ S, j ∈ S). De plus, supposons qu’on a 0 < Pii < 1 pour tout i ∈ S. Il est facile
de voir que lorsqu’on arrive à l’état i, on y reste pendant un temps aléatoire avec distribution
géométrique(pi ), où pi = 1 − Pii . Et lorsqu’on quitte l’état i, on fait une transition vers un état
j ∈ S − {i} choisi avec distribution
( Pij
1−Pii si j 6= i
P̃ij =
0 si j = i.
Bref, on peut décrire notre chaı̂ne de Markov à temps discret avec les trois ingrédients suivants :
la loi initiale ν, les probabilités de départs (pi ; i ∈ S) et la matrice des probabilités de transitions
véritables P̃ = (Pij ; i ∈ S, j ∈ S). En termes de ces ingrédients, la chaı̂ne de Markov à temps discret
évolue de la façon suivante :
(i) L’état initial de la chaı̂ne, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque la chaı̂ne arrive à un état i, elle y demeure pendant un temps géométrique avec
paramètre pi , indépendant de toute l’histoire antérieure de la chaı̂ne.
(iii) Lorsque la chaı̂ne quitte un état i, elle fait une transition vers un état j choisi selon la
distribution (P̃ij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
Avec cette nouvelle façon de voir nos chaı̂nes de Markov à temps discret, le passage de temps discret
à temps continu est trivial. Il suffit de remplacer les temps d’attente géométriques par des temps
d’attente exponentiels.
Pour terminer, mentionnons que l’équation (7.1) de la page précédente est l’analogue de l’équation
suivante (voir chapitre 2) :
P[Xm+n = j | Xm1 = i1 , ..., Xmk = ik , Xm = i]

= P[Xm+n = j | Xm = i] = P[Xn = j | X0 = i]
pour tout choix de temps 0 ≤ m1 < m2 < · · · < mk < m < m + n < ∞ et pour tout choix
d’états i1 , i2 , ..., ik , i et j dans S. De même, l’équation (7.2) est l’analogue de l’équation suivante
(voir chapitre 2) :
Pijn = P[Xn = j | X0 = i].
La chaı̂ne des sauts.

Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu sur l’espace d’états S, avec taux de départ
(qi ; i ∈ S) et avec matrice des probabilités de transitions véritables P = (Pij ; i ∈ S, j ∈ S). Posons
158
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
τ0 = 0
τ1 = min{t ≥ τ0 : X(t) 6= X(τ0 )}
τ2 = min{t ≥ τ1 : X(t) 6= X(τ1 )}
τ3 = min{t ≥ τ2 : X(t) 6= X(τ2 )}
etc.
Les temps aléatoires τ1 , τ2 , τ3 ... sont simplement les instants où la chaı̂ne (Xt ; t ≥ 0) effectue ses
transitions. Pour n ≥ 0, posons Yn = X(τn ). La suite (Yn ; n ≥ 0) est alors une chaı̂ne de Markov à
temps discret. Sa matrice stochastique est la matrice P. Cette chaı̂ne de Markov à temps discret
(Yn ; n ≥ 0) est appelée la chaı̂ne des sauts (en anglais jump chain) associée à la chaı̂ne de Markov
(Xt ; t ≥ 0).
7.2 Processus de naissance et de mort

Un processus de naissance et de mort est une chaı̂ne de Markov à temps continu avec les ingrédients
suivants :
S = {0, 1, 2, 3, ...} (7.3)

 
0 1 0 0 0 ···
 µ1 0 λ1
0 0 ··· 
 λ1 +µ1 λ1 +µ1 
 0 µ2 λ2 
 λ2 +µ2 0 λ2 +µ2 0 ··· 
P = 
 0 0 µ3
0 λ3
···

 (7.4)
 λ3 +µ3 λ3 +µ3 
µ4
 0
 0 0 λ4 +µ4 0 ··· 

.. .. .. .. .. ..
. . . . . .
q = (q0 , q1 , q2 , q3 , ...) = (λ0 , λ1 + µ1 , λ2 + µ2 , λ3 + µ3 , ...) (7.5)
Interprétation : On suppose que Xt représente la taille d’une certaine population au temps t. Le

paramètre λi représente le taux de naissance lorsque la population comprend i individus. On admet
le cas λ0 > 0. Le paramètre µi représente le taux de mortalité lorsque la population comprend i
individus. La terminologie naissance et mort est utilisée au sens large. Toute chaı̂ne de Markov
à temps continu dont la matrice P des probabilités de transitions véritables satisfait la condition
Pij = 0 pour tout (i, j) tel que |i − j| 6= 1 est un processus de naissance et de mort.
Fonctionnement : Supposons qu’à un certain moment la population comprend i individus, disons

i > 0. Le taux de naissance est λi et le taux de mortalité est µi . La prochaine naissance devrait
donc survenir après un temps exponentiel, disons U , avec paramètre λi et le prochain décès devrait
survenir après un temps exponentiel, disons V , avec paramètre µi . On suppose que les variables U
et V sont indépendantes. Le prochain événement, naissance ou décès, surviendra donc au temps
T = min{U, V }. On a donc T ∼ exponentielle(λi + µi ). Le taux de départ de l’état i est donc
qi = λi + µi . Dans le cas i = 0, on obtient plutôt q0 = λ0 . Ceci explique l’équation (7.5) ci-dessus.
Par ailleurs, selon un résultat obtenu antérieurement, on a
159
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
λi
P[ prochain événement est une naissance ] = P[U < V ] =
λi + µ i
µi
P[ prochain événement est un décès ] = P[V < U ] =
λi + µ i
Bref, pour i ≥ 1, on a 
λi

 λi +µi si j = i + 1
µi
Pij = λi +µi si j = i − 1

 0 si j ∈
/ {i − 1, i + 1}.
Dans le cas i = 0, il ne peut pas y avoir de décès ; le prochain événement est donc nécessairement
une naissance. Bref on a
1 si j = 1
P0j =
0 si j 6= 1.
Ceci explique l’équation (7.4) ci-dessus.
Remarque. En général, l’espace des états d’un processus de naissance et de mort est l’ensemble
S = {0, 1, 2, 3, ...}, tel qu’indiqué à l’équation (7.3). Dans certains cas on préfère travailler avec
l’espace d’états S = {1, 2, 3, ...}. C’est le cas du processus de Yule présenté ci-dessous.
Exemple 1 : Le processus de Poisson.

Fixons λ > 0. Supposons que µi = 0 pour tout i ≥ 1 et que λi = λ pour tout i ≥ 0. Ce processus
de naissance et de mort est tout simplement un processus de Poisson avec intensité λ.
Exemple 2 : Le processus de Yule.

Fixons λ > 0. Supposons que µi = 0 pour tout i ≥ 1 et que λi = i λ pour tout i ≥ 0. Ce
processus de naissance et de mort s’appelle le processus de Yule avec paramètre λ. Attention !
Dans le cas du processus de Yule, on travaille habituellement avec S = {1, 2, 3, ...} plutôt qu’avec
S = {0, 1, 2, 3, ...}. Si on insiste pour travailler avec S = {0, 1, 2, 3, ...}, alors l’état 0 est un état
absorbant et la première ligne de la matrice P est (1, 0, 0, 0, ...) plutôt que (0, 1, 0, 0, ...). On peut
interpréter l’évolution du processus de Yule de la façon suivante. La variable Xt représente le nombre
d’individus dans la population au temps t. Indépendamment les uns des autres, chaque individu
vit un temps exponentiel avec paramètre λ, puis se divise en deux individus. Ces deux nouveaux
individus se comportent de la même façon. Chacun vit un temps exponentiel avec paramètre λ,
puis se divise en deux nouveaux individus. Et ainsi de suite. Si à un certain moment la population
comprend i individus, alors le taux de naissance est iλ car la prochaine naissance surviendra dans
un temps exponentiel avec paramètre iλ (puisque le minimum de i variables i.i.d. exponentielles
avec paramètre λ est une variable exponentielle avec paramètre iλ).
Exemple 3 : La file d’attente M/M/1.

Fixons λ > 0 et µ > 0. Supposons que µi = µ pour tout i ≥ 1 et que λi = λ pour tout i ≥ 0. Ce
processus de naissance et de mort s’appelle le modèle de file d’attente markovien à un serveur, ou
tout simplement la file d’attente M/M/1. Voici quelques explications. On suppose que Xt représente
le nombre de clients dans une file d’attente à un serveur, incluant le client en train de se faire
servir. On suppose que les nouveaux clients arrivent comme un processus de Poisson avec intensité
λ. Lorsqu’un client arrive, il prend sa place à l’arrière de la file d’attente. On suppose que les
temps de service sont des variables aléatoires indépendantes et identiquement distribuées, avec loi
exponentielle de paramètre µ, indépendantes du processus de Poisson qui décrit les arrivées.
160
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 4. La file d’attente M/M/k.

Fixons λ > 0 et µ > 0. Fixons k, un entier positif. Supposons que λi = λ pour tout i ≥ 0. Supposons
aussi que (
iµ si i ≤ k
µi =
kµ si i > k.
Ce processus de naissance et de mort s’appelle le modèle de file d’attente M/M/k, ou tout simple-
ment la file d’attente M/M/k. Ici k est un entier positif. Voici quelques explications. On suppose
que Xt représente le nombre de clients dans un centre de service. On suppose que les nouveaux
clients arrivent comme un processus de Poisson avec intensité λ. On suppose qu’il y a k serveurs.
Lorsqu’un client arrive, deux choses peuvent se produire. Ou bien il y a un (ou des) serveur(s)
disponible(s) ; le nouveau client s’amène alors directement à un serveur disponible. Ou bien tous
les serveurs sont occupés ; le nouveau client prend alors sa place à l’arrière de la file d’attente. Il y
a une seule file d’attente (comme à la Banque Nationale et non pas comme au McDonald ou dans
les magasins Canadian Tire où il y a toujours autant de files d’attente qu’il y a de serveurs). La
variable aléatoire Xt représente le nombre total de clients dans le système au temps t ; ceci inclut
les clients en train de se faire servir ainsi que les clients dans la file d’attente. On suppose que les
temps de service sont des variables aléatoires indépendantes et identiquement distribuées, avec loi
exponentielle de paramètre µ, indépendantes du processus de Poisson de paramètre λ qui décrit les
arrivées.
7.3 Temps de passage d’un processus de naissance et de mort

Nous allons examiner les temps de passage dans les processus de naissance et de mort. Plus
précisément, nous allons calculer, pour tout 0 ≤ k < n < ∞, l’espérance
h(k, n) = E[Tn |X0 = k]
où
Tn = min{t ≥ 0 : Xt = n}.
La propriété de Markov nous permet d’écrire
n−1
X
h(k, n) = h(ℓ, ℓ + 1). (7.6)
ℓ=k
Il nous suffit donc de calculer, pour tout ℓ ≥ 0, la quantité h(ℓ, ℓ + 1). Le cas ℓ = 0 est trivial. En
effet, si X0 = 0 alors on a T1 ∼ exponentielle(λ0 ). On obtient donc
h(0, 1) = E[T1 |X0 = 0] = 1/λ0 . (7.7)
Pour le cas ℓ ≥ 1, on calcule h(ℓ, ℓ + 1) en conditionnant sur le résultat de la prochaine transition.

Si on pose
A = la prochaine transition est une transition vers le haut,

B = la prochaine transition est une transition vers le bas,
161
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
alors la loi des probabilités totales nous donne

h(ℓ, ℓ + 1) = E[Tℓ+1 |X0 = ℓ]
= E[Tℓ+1 |(X0 = ℓ) ∩ A] P[A|X0 = ℓ] + E[Tℓ+1 |(X0 = ℓ) ∩ B] P[B|X0 = ℓ]

1 λℓ 1 µℓ
= + + E[Tℓ+1 |X0 = ℓ − 1]
λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ

1 λℓ 1 µℓ
= + + h(ℓ − 1, ℓ) + h(ℓ, ℓ + 1)
λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ
1 µℓ
= + (h(ℓ − 1, ℓ) + h(ℓ, ℓ + 1))
λℓ + µ ℓ λℓ + µ ℓ
Si on résout pour h(ℓ, ℓ + 1), on obtient
1 µℓ
h(ℓ, ℓ + 1) = + h(ℓ − 1, ℓ). (7.8)
λℓ λℓ
À l’aide des équations (7.7) et (7.8) on peut calculer h(ℓ, ℓ + 1) pour tout ℓ ≥ 0. L’équation (7.6)
nous permet ensuite de calculer h(k, n) pour tout 0 ≤ k < n < ∞.
Exemple : la file d’attente M/M/1.

Dans le cas de la file d’attente M/M/1, on a λi = λ pour tout i ≥ 0 et µi = µ pour tout i ≥ 1.
Après quelques simplifications, les équations (7.7) et (7.8) nous donnent
1
h(0, 1) =
λ
1 µ
h(1, 2) = 1+
λ λ

1 µ µ 2
h(2, 3) = 1+ +
λ λ λ

1 µ µ 2 µ 3
h(3, 4) = 1+ + +
λ λ λ λ
et ainsi de suite. On a donc, pour tout ℓ ≥ 0,
µ ℓ
1 µ µ 2
h(ℓ, ℓ + 1) = 1+ + + ··· + . (7.9)
λ λ λ λ
Si λ = µ, l’équation (7.9) devient
ℓ+1
h(ℓ, ℓ + 1) =
λ
et l’équation (7.6) nous donne
n−1 n−1
X X ℓ+1
h(k, n) = h(ℓ, ℓ + 1) =
λ
ℓ=k ℓ=k
 
n k
1 X X 1 n(n + 1) k(k + 1)
= j− j  = − .
λ λ 2 2
j=1 j=1
162
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le cas où λ 6= µ, l’équation (7.9) peut être simplifiée de la façon suivante :
µ ℓ
1 µ µ 2
h(ℓ, ℓ + 1) = 1+ + + ··· +
λ λ λ λ
!
1 1 − (µ/λ)ℓ+1
=
λ 1 − (µ/λ)
1 − (µ/λ)ℓ+1
= .
λ−µ
L’équation (7.6) nous donne alors
n−1 n−1
X X 1 − (µ/λ)ℓ+1
h(k, n) = h(ℓ, ℓ + 1) = .
λ−µ
ℓ=k ℓ=k
L’étudiant qui le souhaite pourra simplifier cette dernière expression.
7.4 Les Pij (t) d’un processus de naissances pur

Voici une question fondamentale : étant donné une chaı̂ne de Markov à temps continu, disons
(Xt ; t ≥ 0), avec taux de départ q = (qi ; i ∈ S) et avec matrice des probabilités de transition
véritable P = (Pij ; i ∈ S, j ∈ S), comment peut-on calculer les probabilités de transition Pij (t) =
P[Xt = j|X0 = i] ?
Dans la présente section, nous considérons un cas simple : les processus de naissance et de mort
avec µi = 0 pour tout i ≥ 1 et λi > 0 pour tout i ≥ 0. Un tel processus est parfois appelé un
processus de naissances pur. Le processus de Poisson et le processus de Yule sont des exemples de
processus de naissances pur. Le comportement d’un tel processus est très simple : si on est à l’état
i, alors on reste à l’état i un temps exponentiel avec moyenne 1/λi après quoi on passe à l’état i + 1.
Donc, si j < i on a
Pij (t) = P[Xt = j|X0 = i] = 0
et pour j ≥ i on obtient
Pij (t) = P[Xt = j|X0 = i]
= P[Xt < j + 1|X0 = i] − P[Xt < j|X0 = i]
= P[Tj+1 > t|X0 = i] − P[Tj > t|X0 = i]
avec, comme à la section précédente, Tn = min{t ≥ 0 : Xt = n}. Or, pour un processus de naissance
pur, on a, pour tout choix de n > i,
L(Tn |X0 = i) = L(Vi + Vi+1 + · · · + Vn−1 )
où Vi , Vi+1 , Vi+2 , ..., Vn−1 sont des variables aléatoires indépendantes, avec Vi ∼ exponentielle(λi ).
On obtient donc
Pij (t) = P[Vi + Vi+1 + · · · + Vj > t] − P[Vi + Vi+1 + · · · + Vj−1 > t].
163
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Donc, pour être capable de calculer les probabilités de transition Pij (t) d’un processus de naissance
pur, il suffit d’être capable de calculer la distribution de la somme d’un nombre fini de variables
aléatoires indépendantes les unes des autres ayant toutes des distributions exponentielles, mais pas
nécessairement avec le même paramètre λ. Le résultat suivant est donc très utile.
Théorème. Supposons que R = W1 +W2 +· · ·+Wm , où W1 , W2 , ..., Wm sont des variables aléatoires
indépendantes et telles que, pour j = 1, 2, ..., m, Wj ∼ exponentielle(λj ).
(a) Si les λj sont tous égaux, disons λj = λ pour tout j, alors R ∼ gamma(m, λ).
(b) Si les λj sont tous distincts, i.e. si on a λi 6= λj pour tout i 6= j, alors la densité de R est
donnée par   

 m m
 λk 
 X


Y
 λℓ e−λℓ r si r ≥ 0
fR (r) =  λk − λℓ 

 ℓ=1 k=1

 k6=ℓ

0 si r < 0.
Démonstration. La partie (a) est bien connue et a été démontrée lorsqu’on a étudié en détails la
loi exponentielle et la loi gamma. Voici une démonstration de la partie (b) dans le cas m = 2. Dans
ce cas, on obtient, pour tout r ≥ 0,
Z r Z r
fR (r) = fW1 (u)fW2 (r − u)du = λ1 e−λ1 u λ2 e−λ2 (r−u) du
0 0
Z r
1 − e−(λ1 −λ2 )r
= λ1 λ2 e−λ2 r e−(λ1 −λ2 )u du = λ1 λ2 e−λ2 r
0 λ1 − λ2
λ1 λ2 −λ2 r λ2 λ1
= e − e−λ1 r = λ1 e−λ1 r + λ2 e−λ2 r .
λ1 − λ2 λ2 − λ1 λ1 − λ2
Ceci complète la démonstration de la partie (b) dans le cas où m = 2. Le cas général peut se
démontrer par induction sur m.
Exemple 1 : le processus de Poisson.
Le cas le plus simple d’un processus de naissance pur est le processus de Poisson avec intensité λ.
Dans ce cas, on sait que pour tout i ≤ j on a
(λt)j−i
Pij (t) = P[Xt = j|X0 = i] = P[Nt = j − i] = e−λt .
(j − i)!
En fait, dans le chapitre sur les processus de Poisson, nous avons obtenu ce résultat en suivant la
démarche décrite juste avant le théorème ci-dessus et en appliquant la partie (a) du théorème. Ici
Nt représente le nombre d’événements dans notre processus de Poisson durant l’intervalle de temps
[0, t], c’est-à-dire le nombre de transitions véritables de notre chaı̂ne de Markov durant l’intervalle
de temps [0, t]. [Notez que conditionnellement à X(0) = i, on a X(t) = i + Nt ]. L’exemple suivant
est moins trivial.
164
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 2 : le processus de Yule.
Considérons le processus de Yule avec paramètre λ. Il s’agit d’un processus de naissance pur, avec
λi = iλ. Pour j ≥ 1, on obtient
P1j (t) = P[Xt = j|X0 = 1]
= P[V1 + V2 + · · · + Vj > t] − P[V1 + V2 + · · · + Vj−1 > t]

   
Z ∞X j j Z j−1
∞ X Y j−1
 Y kλ  kλ 
=   ℓλ e−ℓλr dr −   ℓλ e−ℓλr dr
t
 kλ − ℓλ 
t
 kλ − ℓλ 
ℓ=1
k=1 k=1 ℓ=1
k6=ℓ k6=ℓ
   
j j j−1 j−1
X  Y k  e−ℓλt −
X  Y k  e−ℓλt
=  
 k − ℓ  k − ℓ
ℓ=1 k=1 ℓ=1 k=1
k6=ℓ k6=ℓ
   
j−1
!  j
j−1  j−1

Y k X Y k   Y k 
 
= e−jλt +  −  e−ℓλt .
k−j  k − ℓ  k − ℓ 
k=1 ℓ=1 
 k=1 k=1 

k6=ℓ k6=ℓ
On a donc
 
j−1
! j−1 j−1
Y k X j Y k 
P1j (t) = e−jλt + −1   e−ℓλt
k−j j−ℓ  k − ℓ
k=1 ℓ=1 k=1
k6=ℓ
j−1
j−1 −jλt
X
ℓ−1 j − 1 −ℓλt
= (−1) e + (−1) e
ℓ−1
ℓ=1
j
X
ℓ−1 j − 1 −ℓλt
= (−1) e
ℓ−1
ℓ=1
j−1
−λt
X j − 1 −mλt
m
j−1
= e (−1) e = e−λt 1 − e−λt .
m
m=0
Pour faire ce calcul, nous avons utilisé les deux identités suivantes :
j−1
Y k
= (−1)j−1
k−j
k=1
 
j−1
j k  = (−1)ℓ−1 j − 1 .
Y
−1 
j−ℓ 
k=1
k − ℓ ℓ−1
k6=ℓ
165
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
L’étudiant peut vérifier ces deux identités en écrivant au long les produits apparaissant sur les côtés
gauches. Nous avons donc, pour tout j ≥ 1,
j−1
P1j (t) = e−λt 1 − e−λt . (7.10)
Pour calculer les Pij (t) pour i ≥ 2, on pourrait procéder de la même façon. Mais il y a une façon
simple d’obtenir les Pij (t), pour i ≥ 2, à partir des P1j (t). D’abord on note que l’équation (7.10)
nous dit que la distribution de Xt sachant que X0 = 1 est la loi géométrique avec paramètre
p = e−λt . Autrement dit, on a

L(Xt |X0 = 1) = géométrique e−λt .
Maintenant fixons i > 1 et examinons la distribution de Xt sachant que X0 = i. Supposons que les
i individus présents dans la population au temps 0 s’appellent I1 , I2 , ...Ii . On peut alors écrire
Xt = X1 (t) + X2 (t) + · · · + Xi (t)
où Xℓ (t) dénote le nombre d’individus au temps t qui sont des descendants de l’individu Iℓ . Les va-
riables X1 (t), X2 (t), ..., Xi (t) sont i.i.d. et, en vertu du calcul précédent, sont des géométrique e−λt .
On obtient donc
L(Xt |X0 = i) = binomiale négative i, e−λt .
Les probabilités de transition du processus de Yule sont donc données par l’équation suivante.

j − 1 −iλt j−i
Pij (t) = e 1 − e−λt j ≥ i.
i−1
7.5 La matrice infinitésimale

On suppose que (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur l’espace d’états S, avec
taux de départ q = (qi ; i ∈ S) et avec matrice de probabilités de transition véritable P = (Pij ; i ∈
S, j ∈ S).
Définition. La matrice infinitésimale associée à la chaı̂ne de Markov (Xt ; t ≥ 0) est la matrice

Q = (qij ; i ∈ S, j ∈ S), avec qij défini par l’équation suivante :
(
−qi si i = j,
qij = (7.11)
qi Pij si i 6= j.
Interprétation : Dans le cas où i 6= j, le paramètre qij représente le taux de transition de l’état
i vers l’état j. Pour comprendre cette interprétation, il suffit d’imaginer que pour chaque état
i ∈ S, on a un processus de Poisson avec intensité qi décrivant les instants où la chaı̂ne quitte
l’état i (si elle s’y trouve). On imagine que tous ces processus de Poisson évoluent simultanément
et indépendamment les uns des autres. On peut alors décrire notre chaı̂ne de Markov de la façon
suivante. Si on est à l’état i, on observe le processus de Poisson associé à l’état i et on quitte l’état
i lors du prochain événement de ce processus (donc dans un temps exponentiel avec paramètre qi ).
Lorsqu’on quitte l’état i, on fait une transition véritable vers un état j choisi selon la distribution
donnée par la ligne i de la matrice P. On peut décomposer le processus de Poisson associé à l’état
i selon la destination des transitions. Par exemple, si S = {1, 2, 3, 4} alors le processus de Poisson
166
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
d’intensité q2 associé à l’état 2 peut être décomposé en 3 processus de Poisson indépendants les
uns des autres : le processus des transitions de l’état 2 vers l’état 1, le processus des transitions de
l’état 2 vers l’état 3 et le processus des transitions de l’état 2 vers l’état 4. Les intensités de ces
processus amincis sont, respectivement, q2 P2,1 , q2 P2,3 et q2 P2,4 , c’est-à-dire q2,1 , q2,3 et q2,4 . Voir la
section 6 du chapitre 6.
Remarque : L’équation (7.11) nous permet de calculer les qij à partir des qi et des Pij . On peut
aussi calculer les qi et les Pij à partir des qij . D’une part on a
qi = −qii .
D’autre part on a, pour tout i 6= j,

qij qij
Pij = =P .
qi ℓ∈S qiℓ
ℓ6=i
Exemple 1. Si S = {1, 2, 3, 4}, si (q1 , q2 , q3 , q4 ) = (2, 5, 3, 2) et si

 
0 1/2 1/4 1/4
 1/3 0 1/3 1/3 
P=  1/5 2/5 0 2/5 

1/7 0 6/7 0
alors  
−2 1 1/2 1/2
 5/3 −5 5/3 5/3 
Q=
 3/5 6/5 −3 6/5 

2/7 0 12/7 −2
Exemple 2. Si S = {1, 2, 3, 4} et si
 
−5 1 2 2
 5 −8 1 2 
Q= 
 1 0 −3 2 
0 3/4 1/4 −1
alors (q1 , q2 , q3 , q4 ) = (5, 8, 3, 1) et

 
0 1/5 2/5 2/5
 5/8 0 1/8 1/4 
P=
 1/3 0

0 2/3 
0 3/4 1/4 0
Proposition. Si Q est la matrice infinitésimale d’une chaı̂ne de Markov à temps continu, alors elle
satisfait les trois propriétés suivantes.
(a) Les éléments de la diagonale de Q sont tous négatifs : qii < 0 pour tout i ∈ S.
(b) Les éléments hors diagonale sont tous non-négatifs : qij ≥ 0 pour tout i 6= j ∈ S.
P
(c) Les sommes-lignes sont toutes nulles : j∈S qij = 0 pour tout i ∈ S.
167
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. Les points (a) et (b) sont des conséquences immédiates de la définition. Voir
l’équation (7.11). Par ailleurs, pour tout i ∈ S on a
X X X X
qij = qii + qij = −qi + qi Pij = −qi + qi Pij = −qi + qi = 0.
j∈S j∈S j∈S j∈S
j6=i j6=i j6=i
Pour l’avant-dernière égalité, on a utilisé le fait que la matrice P est une matrice stochastique avec
des éléments diagonaux tous nuls.
Nous avons vu que si (Xt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors quand h → 0

 1 − λh + o(h) si j = i
P[Xt+h = j|Xt = i] = λh + o(h) si j = i + 1

o(h) si j ∈
/ {i, i + 1}.
Voici le résultat analogue pour les chaı̂nes de Markov à temps continu :
Proposition. Si (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu avec taux de départ
(qi ; i ∈ S) et matrice des probabilités de transitions véritables P, alors, quand h → 0,

1 − qi h + o(h) si j = i
Pij (h) = P[Xt+h = j|Xt = i] =
qi Pij h + o(h) si j 6= i;
Le théorème suivant est en quelque sorte la raison d’être de la matrice infinitésimale Q.
Théorème : On a P ′ (0) = Q. En d’autres mots, on a Pij′ (0) = qij pour tout i et j dans S,
c’est-à-dire (
d −qi si i = j
Pij (t) = qij =
dt t=0 qi Pij si i 6= j.
Démonstration. Considérons d’abord le cas i 6= j. Avec l’aide de la proposition précédente, on

obtient alors

d Pij (h) − Pij (0)
Pij′ (0) = Pij (t) = lim
dt t=0 h→0 h
Pij (h) − 0 qi Pij h + o(h)

= lim = lim = qi Pij = qij .
h→0 h h→0 h
Considérons maintenant le cas i = j. Cette fois-ci on obtient

d Pii (h) − Pii (0)
Pii′ (0) = Pii (t) = lim
dt t=0 h→0 h
Pii (h) − 1 (1 − qi h + o(h)) − 1

= lim = lim = −qi = qii .
h→0 h h→0 h
Ceci complète la démonstration du théorème.
168
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. La démonstration précédente est valide dans le cas où l’espace des états S est un
ensemble fini. Si S est un ensemble infini dénombrable, le théorème demeure valide sous certaines
conditions (et la démonstration présentée ci-dessus nécessite une plus grande attention).
7.6 L’équation de Chapman et Kolmogorov

Nous avons vu que si (Xn ; n ≥ 0) est une chaı̂ne de Markov à temps discret avec matrice stochastique
P, alors pour tout n ≥ 0 et tout m ≥ 0 on a
P m+n = P m P n (7.12)
c’est-à-dire X
Pijm+n = Piℓm Pℓjn
ℓ∈S
pour tout i et j dans S. Ce résultat élémentaire, qu’on démontre facilement avec la loi des proba-
bilités totales, est appelé l’équation de Chapman et Kolmogorov. Notons en passant que l’équation
(7.12) permet de calculer tous les P n à partir de la matrice P.
Voici le résultat analogue pour les chaı̂nes à temps continu.
Théorème. [L’équation de Chapman et Kolmogorov] Si (Xt ; t ≥ 0) est une chaı̂ne de Markov

à temps continu sur l’espace d’états S, alors les probabilités de transition P(t) = (Pij (t); i, j ∈ S)
vérifient l’équation suivante pour tout s ≥ 0 et tout t ≥ 0 :
P(s + t) = P(s) P(t). (7.13)
Autrement dit, pour tout s ≥ 0 et t ≥ 0 on a

X
Pij (s + t) = Piℓ (s) Pℓj (t) pour tout i ∈ S et j ∈ S.
ℓ∈S
Démonstration. Pour tout s ≥ 0 et t ≥ 0 et pour tout i ∈ S et j ∈ S on obtient
Pij (s + t) = P[Xs+t = j | X0 = i]
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k, X0 = i]
k∈S
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k]
k∈S
X X
= P[Xs = k | X0 = i] P[Xt = j | X0 = k] = Pik (s)Pkj (t).
k∈S k∈S
La première égalité est simplement la définition de la probabilité de transition Pij (t). Pour obtenir
la deuxième égalité on a simplement utilisé la loi des probabilités totales. Pour la troisième égalité
on a utilisé la propriété de Markov. Pour la quatrième égalité on a utilisé la propriété d’homogénéité
dans le temps.
169
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le prochain résultat est une conséquence du l’équation de Chapman et Kolmogorov. Ce résultat

nous dit que si on connaı̂t les matrices P(t) pour tous les t proches de 0, alors on connaı̂t les matrices
P(t) pour tous les t ≥ 0.
Proposition. Si pour un certain ǫ > 0 on connaı̂t P(t) pour tout t ∈ [0, ǫ), alors on connaı̂t P(t)
pour tout t ≥ 0.
Démonstration. Fixons t > ǫ. Choisissons un entier positif n suffisamment grand pour qu’on ait
t/n ∈ [0, ǫ]. L’équation (7.13) nous donne
P(t) = P(t/n) P(t/n) P(t/n) · · · P(t/n) = (P(t/n))n .
7.7 Les équations différentielles de Kolmogorov

d
Fixons i et j dans S et calculons Pij′ (t) = dt Pij (t). On obtient
d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P
k∈S Pik (h)Pkj (t) − Pij (t)
= lim
h→0 h

P
k∈S Pik (h)P kj (t) + Pii (h)Pij (t) − Pij (t)
k6=i
= lim
h→0 h
  

 

X P (h) − 0  P (h) − 1 
ik ii
= lim  P kj (t) + P ij (t)
h→0 

 h  h 

 k∈S 
k6=i
X Pik (h) − 0

Pii (h) − 1

= lim Pkj (t) + lim Pij (t)
k∈S
h→0 h h→0 h
k6=i
X X
= qik Pkj (t) − qi Pij (t) = qik Pkj (t).
k∈S k∈S
k6=i
On reconnaı̂t en cette dernière somme le produit de la ie ligne de la matrice Q avec la j e colonne

de la matrice P(t). On a donc
d
P(t) = QP(t). (7.14)
dt
Cette équation différentielle matricielle est appelée l’équation différentielle retardée de Kolmogorov.
170
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
De façon analogue, on obtient
d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P
k∈S Pik (t)Pkj (h) − Pij (t)
= lim
h→0 h

P
k∈S Pik (t)Pkj (h) + Pij (t)Pjj (h) − Pij (t)
k6=j
= lim
h→0 h
  

 

X P (h) − 0  P (h) − 1 
kj jj
= lim   Pik (t)  + Pij (t)
h→0 
 h  h 

 k∈S 
k6=j

X Pkj (h) − 0 Pjj (h) − 1
= Pik (t) lim + Pij (t) lim
h→0 h h→0 h
k∈S
k6=j
X X
= Pik (t)qkj − Pij (t)qj = Pik (t)qkj .
k∈S k∈S
k6=j
On reconnaı̂t en cette dernière somme le produit de la ie ligne de la matrice P(t) avec la j e colonne
de la matrice Q. On a donc
d
P(t) = P(t)Q. (7.15)
dt
Cette équation différentielle matricielle s’appelle l’équation différentielle avancée de Kolmogorov.
On a donc démontré le résultat suivant :
Théorème. [Les équations différentielles de Kolmogorov] Si (Xt ; t ≥ 0) est une chaı̂ne de

Markov à temps continu avec matrice infinitésimale Q, alors, sous certaines conditions de régularité,
la probabilités de transition (P(t); t ≥ 0) vérifient les équations différentielles suivantes :
d
(a) L’équation différentielle avancée de Kolmogorov : dt P(t) = P(t)Q.
d
(b) L’équation différentielle retardée de Kolmogorov : dt P(t) = QP(t).
Remarque. Les démonstrations des équations (7.14) et (7.15) présentées ci-dessus sont valides
dans le cas où l’espace des états S est un ensemble fini. Si S est un ensemble infini dénombrable, les
équations (7.14) et (7.15) demeurent valide sous certaines conditions de régularité habituellement
satisfaites dans les exemples qu’on rencontre en pratique, mais les démonstrations présentées ci-
dessus nécessitent une plus grande attention, notamment pour le passage de la limite sous la somme.
171
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Application. Dans certain cas, il est possible d’obtenir les probabilités de transition Pij (t) en
solutionnant l’équation (7.14) ou l’équation (7.15). Nous allons considérer deux exemples.
Exemple 1 : La chaı̂ne à deux états.

On considère ici le cas où S = {0, 1}. Les taux de départ seront notés λ et µ. On a donc q =
(q0 , q1 ) = (λ, µ). La matrice des probabilités de transition véritable est simplement la matrice
! !
0 P0 1 0 1
P= = .
P1 0 0 1 0
La matrice infinitésimale est donc

! !
q0 0 q0 1 −λ λ
Q= = .
q1 0 q1 1 µ −µ
d
L’équation matricielle dt P(t) = QP(t) prend la forme
! ! !
P0′ 0 (t) P0′ 1 (t) −λ λ P0 0 (t) P0 1 (t)
=
P1′ 0 (t) P1′ 1 (t) µ −µ P1 0 (t) P1 1 (t)
c’est-à-dire
P0′ 0 (t) = −λP0 0 (t) + λP1 0 (t) (7.16)
P1′ 0 (t) = µP0 0 (t) − µP1 0 (t) (7.17)
P0′ 1 (t) = −λP0 1 (t) + λP1 1 (t) (7.18)
P1′ 1 (t) = µP0 1 (t) − µP1 1 (t). (7.19)
Puisque P0 0 (t)+P0 1 (t) = 1 et P1 0 (t)+P1 1 (t) = 1, il suffit de trouver P0 0 (t) et P1 0 (t). Pour trouver
ces deux fonctions, il suffit de résoudre les équations (7.16) et (7.17). Si on multiplie l’équation (7.16)
par µ et l’équation (7.17) par λ, on obtient
µP0′ 0 (t) = −µλP0 0 (t) + µλP1 0 (t) (7.20)
λP1′ 0 (t) = µλP0 0 (t) − µλP1 0 (t). (7.21)
On additionne les équations (7.20) et (7.21) et on obtient
µP0′ 0 (t) + λP1′ 0 (t) = 0,
c’est-à-dire
d
(µP0 0 (t) + λP1 0 (t)) = 0.
dt
La fonction µP0 0 (t) + λP1 0 (t) est donc constante, disons
µP0 0 (t) + λP1 0 (t) = C. (7.22)
Si on insère t = 0 dans (7.22) et si on utilise le fait que P0 0 (0) = 1 et P1 0 (0) = 0, on obtient C = µ.

L’équation (7.22) devient donc
µP0 0 (t) + λP1 0 (t) = µ.
172
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
λP1 0 (t) = µ (1 − P0 0 (t)) . (7.23)
On insère (7.23) dans (7.16) et on obtient
P0′ 0 (t) = −λP0 0 (t) + µ (1 − P0 0 (t))
c’est-à-dire
P0′ 0 (t) = µ − (λ + µ)P0 0 (t). (7.24)
L’équation (7.24) est valide pour tout t ≥ 0 et elle est sujette à la condition initiale P0 0 (0) = 1.
L’étudiant peut vérifier que la solution est alors
µ λ
P0 0 (t) = + e−(λ+µ)t . (7.25)
λ+µ λ+µ
Puisque P0 1 (t) = 1 − P0 0 (t), on obtient

λ λ
P0 1 (t) = − e−(λ+µ)t . (7.26)
λ+µ λ+µ
Si on insère (7.25) dans (7.23), on obtient, après simplification,

µ µ
P1 0 (t) = − e−(λ+µ)t . (7.27)
λ+µ λ+µ
Enfin, puisque P1 1 (t) = 1 − P1 0 (t), on obtient

λ µ
P1 1 (t) = + e−(λ+µ)t . (7.28)
λ+µ λ+µ
Enfin, voici les équations (7.26) à (7.28) sous forme matricielle :

 
µ λ −(λ+µ)t λ λ −(λ+µ)t
λ+µ + λ+µ e λ+µ − λ+µ e
P(t) =  µ µ µ
. (7.29)
−(λ+µ)t λ −(λ+µ)t
λ+µ − λ+µ e λ+µ + λ+µ e
L’étudiant devrait comparer l’équation (7.29) avec le résultat obtenu à la section 4 du chapitre 4
pour les probabilités de transition d’ordre n de la chaı̂ne de Markov à temps discret sur un espace
à deux états.
Exemple 2 : Le processus de Yule.

Ici on travaille avec S = {1, 2, 3, ...} et la matrice infinitésimale est donnée par
 
−λ λ 0 0 0 ···
 
 0 −2λ 2λ 0 0 ··· 
 
 
 
 0 0 −3λ 3λ 0 ··· 
 
Q= 
 0 0 0 −4λ 4λ · · · 
 
 
 0
 0 0 0 −5λ · · ·  
 
.. .. .. .. .. ..
. . . . . .
173
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
d
La première ligne de l’équation matricielle dt P(t) = P(t)Q nous donne les équations suivantes, avec
les conditions initialles indiquées à droite :
P1′ 1 (t) = −λP1 1 (t) P1 1 (0) = 1 (7.30a)

P1′ 2 (t) = λP1 1 (t) − 2λP1 2 (t) P1 2 (0) = 0 (7.30b)
P1′ 3 (t) = λP1 2 (t) − 3λP1 3 (t) P1 3 (0) = 0 (7.30c)
P1′ 4 (t) = λP1 3 (t) − 4λP1 4 (t) P1 4 (0) = 0 (7.30d)
P1′ 5 (t) = λP1 4 (t) − 5λP1 5 (t) P1 5 (0) = 0 (7.30e)
.. .. ..
. . .
On résout ces équations de façon séquentielle : on résout (7.30a), on insère la solution dans (7.30b),
on résout (7.30b), on insère la solution dans (7.30c), on résout (7.30c), on insère la solution dans
(7.30d), etc. On obtient ainsi les solutions suivantes :
P1 1 (t) = e−λt

P1 2 (t) = 1 − e−λt e−λt
2
P1 3 (t) = 1 − e−λt e−λt
3
P1 4 (t) = 1 − e−λt e−λt
..
.
Ce résultat est, bien sûr, le même que le résultat obtenu à la section 4.
7.8 Solution matricielle de l’équation différentielle de Kolmogorov

Soit g(t), une fonction à valeurs dans R, définie sur l’intervalle [0, ∞) et satisfaisant l’équation
différentielle
g ′ (t) = ag(t) avec condition initiale g(0) = 1. (7.31)
Ici a est une constante connue. La solution de cette équation différentielle est la fonction
g(t) = eat pour tout t ≥ 0.
Il s’agit d’un des premiers exemples qu’on rencontre dans un cours d’équations différentielles. Voici
à nouveau notre équation différentielle (avancée) de Kolmogorov :
P ′ (t) = QP(t) avec condition initiale P(0) = I, (7.32)
où I dénote la matrice identité. L’analogie entre les équations (7.32) et (7.31) suggère que la
“solution” de l’équation (7.32) devrait être donnée par
P(t) = eQt . (7.33)
174
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour que la “solution” (7.33) ait un sens, il faut donner un sens à l’expression eA , où A est une
P xk
matrice carrée. Inspirée par la série de Taylor ex = ∞ A
k=0 k! , l’approche usuelle pour définir e est
la suivante :
Définition. Soit A, une matrice carrée. La matrice carrée eA est définie par l’équation suivante :
∞
A
X Ak A2 A3 A4
e = =I +A+ + + + ···
k! 2 3! 4!
k=0
À la lumière de cette définition, la “solution” (7.33) peut être réécrite sous la forme suivante :
∞
X (Qt)k Q2 t2 Q3 t3 Q4 t4
P(t) = = I + Qt + + + + ··· (7.34)
k! 2 3! 4!
k=0
Pour voir que l’expression donnée dans l’équation précédente est bel et bien solution de l’équation
différentielle (7.32), il suffit de dériver terme à terme :

′ d d Q2 t2 Q3 t3 Q4 t4
P (t) = P(t) = I + Qt + + + + ···
dt dt 2 3! 4!
Q3 t2 Q4 t3
= 0 + Q + Q2 t + + + ···
2 3!
Q2 t2 Q3 t3 Q4 t4
= Q I + Qt + + + + ···
2 3! 4!
= QP(t).
Dans certains cas simples, il est possible d’obtenir la matrice P(t) en évaluant le côté droit de
l’équation (7.34). On peut aussi utiliser l’équation (7.34) pour calculer une approximation de la
matrice P(t). En effet, si m est un entier suffisamment grand, on aura
Q2 t2 Q3 t3 Qm tm
P(t) ≈ I + Qt + + + ··· + .
2 3! m!
7.9 Distribution stationnaire et convergence

Reprenons l’exemple 1 de la section 7. On a obtenu
 
µ λ −(λ+µ)t λ λ
λ+µ + λ+µ e λ+µ − λ+µ e−(λ+µ)t
P(t) = 
µ µ µ
.
−(λ+µ)t λ
λ+µ − λ+µ e λ+µ + λ+µ e−(λ+µ)t
On a donc
!
P0 0 (t) P0 1 (t)
lim P(t) = lim
t→∞ t→∞ P1 0 (t) P1 1 (t)
!
limt→∞ P0 0 (t) limt→∞ P0 1 (t)
=
limt→∞ P1 0 (t) limt→∞ P1 1 (t)
µ λ !
λ+µ λ+µ
= µ
.
λ
λ+µ λ+µ
175
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Donc, si on pose
µ λ
π = (π0 , π1 ) = , ,
λ+µ λ+µ
alors on a
lim Pij (t) = πj , pour tout i ∈ S et j ∈ S. (7.36)
t→∞
On a également
πP(t) = π, pour tout t ≥ 0. (7.37)
Le résultat (7.37) nous dit que la loi π est stationnaire pour notre chaı̂ne de Markov. Ce résultat
est analogue au résultat
πP n = π, pour tout n ≥ 0,
qu’on avait pour les chaı̂nes de Markov à temps discret. Le résultat (7.36) nous dit que peu importe
l’état initial, la distribution de X(t) converge vers la loi stationnaire. Ce résultat est analogue au
résultat
lim Pijn = πj , pour tout i ∈ S et j ∈ S
n→∞
qu’on avait pour les chaı̂nes de Markov à temps discret.
L’exemple ci-dessus est typique. Étant donné une chaı̂ne de Markov à temps continu, il arrive
souvent que
(a) il existe une et une seule loi stationnaire,
(b) peu importe la loi initiale, la distribution de X(t) converge vers la loi stationnaire.
Voici deux méthodes simples pour trouver la loi stationnaire d’une chaı̂ne de Markov à temps
continu.
Méthode 1 : Via la chaı̂ne des sauts.

Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu avec taux de départ q = (qi ; i ∈ S) et avec
matrice des probabilités de transitions véritables P = (Pij ; i ∈ S, j ∈ S). Supposons que P soit
irréductible, apériodique et récurrente positive. Alors P possède une loi stationnaire unique, disons
π̃ = (π̃i ; i ∈ S), et cette loi stationnaire est aussi la loi limite de la chaı̂ne des sauts, peu importe la
loi initiale. Il s’en suit que si on pose
π̃i /qi
πi = P , (7.38)
ℓ∈S π̃ℓ /qℓ
alors la loi π = (πi ; i ∈ S) est la loi stationnaire (et la loi limite) pour la chaı̂ne de Markov
(Xt ; t ≥ 0).
Méthode 2 : Via les équations différentielles de Kolmogorov.

Reprenons l’équation différentielle avancée de Kolmogorov donnée au théorème de la section 7 :
d
P(t) = P(t)Q.
dt
Si on prend la limite quand t → ∞, on obtient
d
lim P(t) = lim P(t) Q. (7.39)
t→∞ dt t→∞
176
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En supposant que les points (a) et (b) ci-dessus sont satisfaits, on devrait avoir
lim Pij (t) = πj pour tout i ∈ S et j ∈ S
t→∞
lim Pij′ (t) = 0 pour tout i ∈ S et j ∈ S.

t→∞
d
Donc dans l’équation (7.39), la matrice limt→∞ dt P(t) qui apparaı̂t à gauche du signe d’égalité est
la matrice nulle alors que la matrice limt→∞ P(t) qui apparaı̂t juste à droite du signe d’égalité est
la matrice dont chaque ligne est la loi stationnaire π. En prenant la première ligne des matrices
apparaissant de part et d’autre de l’équation (7.39), on obtient
0 = πQ. (7.40)
Le 0 qui apparaı̂t du côté gauche de l’équation (7.40) est le vecteur ligne (0, 0, 0, ..., 0). Dans certains
problèmes, on peut trouver la loi stationnaire π = (πi ; i ∈ S) en solutionnant l’équation (7.40).
Exemple 1. Supposons que S = {1, 2, 3, 4}, que q = (q1 , q2 , q3 , q4 ) = (4, 8, 5, 7) et que

 
0 1/2 1/4 1/4
 1/3 0 1/3 1/3 
P=  1/5 2/5
.
0 2/5 
1/7 0 6/7 0
Déterminons la loi stationnaire de cette chaı̂ne de Markov à temps continu, d’abord par la méthode
1, puis par la méthode 2.
Méthode 1. La matrice P des probabilités de transition véritables est irréductible et apériodique.

Elle possède donc une loi stationnaire unique, disons π̃ = (π̃1 , π̃2 , π̃3 , π̃4 ). Pour déterminer cette loi
π̃, il suffit de résoudre l’équation
π̃P = π̃
avec la contrainte π1 + π2 + π3 + π4 = 1. À l’aide de Maple, j’obtiens

172 216 325 245
π̃ = (π̃1 , π̃2 , π̃3 , π̃4 ) = , , , .
958 958 958 958
À l’aide de l’équation (7.38), j’obtiens finalement

43 27 65 35
(π1 , π2 , π3 , π4 ) = , , , .
170 170 170 170
Méthode 2. On obtient d’abord la matrice infinitésimale à partir du vecteur q et de la matrice

P :  
−4 2 1 1
 8/3 −8 8/3 8/3 
Q= 
 1 2 −5 2 
1 0 6 −7
L’équation (7.40) prend donc la forme
 
−4 2 1 1
 8/3 −8 8/3 8/3 
(π1 , π2 , π3 , π4 )   = (0, 0, 0, 0).
 1 2 −5 2 
1 0 6 −7
177
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On résout cette équation matricielle avec la contrainte π1 + π2 + π3 + π4 = 1 et on obtient

43 27 65 35
(π1 , π2 , π3 , π4 ) = , , , .
170 170 170 170
Exemple 2. Considérons la file d’attente M/M/1. Intuitivement, dans le cas où le taux d’arrivée λ
est plus grand que le taux de service µ, le système s’engorge et il n’y a donc pas de loi stationnaire.
Dans le cas où le taux d’arrivée λ est inférieur au taux de service µ, on s’attend à ce que le système
se stabilise et donc à ce qu’il y ait une loi stationnaire. Nous allons donc supposer que λ < µ et
nous allons essayer de trouver la loi stationnaire d’abord par la méthode 1, puis par la méthode 2.
Méthode 1. La matrice des probabilités de transition véritable est donnée par

   
0 1 0 0 0 ··· 0 1 0 0 0 ···
 µ 0 λ
0 0 · · ·  
 λ+µ λ+µ   1−p 0 p 0 0 ··· 

 0 µ λ  
 λ+µ 0 λ+µ 0 · · ·  0 1 − p 0 p 0 ··· 
P= µ λ = 
 0 0 λ+µ 0 λ+µ · · ·   0 0 1−p 0 p ··· 
 µ   
 0 0 0 0 ··· 
 0 0 0 1−p 0 ··· 
 λ+µ   . . . .. ..

.. .. .. .. .. .. .. .. .. ..
. . . . . . . . .
avec p = λ/(λ + µ). Puisque 0 < λ < µ, on a 0 < p < 1/2. La matrice P est donc la matrice des
probabilités de transition de la marche aléatoire sur {0, 1, 2, ...} avec réflexion instantanée à l’origine.
Cette matrice stochastique est périodique, avec période 2. Comme nous n’avons pas étudié en détails
le cas périodique, passons à la méthode 2.
Méthode 2. La matrice infinitésimale est donnée par

 
−λ λ 0 0 0 ···
 µ −(λ + µ) λ 0 0 ··· 
 
 0
 µ −(λ + µ) λ 0 ··· 

Q= 0 0 µ −(λ + µ) λ ··· .
 
 0
 0 0 µ −(λ + µ) ··· 

.. .. .. .. .. ..
. . . . . .
L’équation (7.40) prend donc la forme

 
−λ λ 0 0 ···
 µ −(λ + µ) λ 0 ··· 
 
 0
(π0 , π1 , π2 , ...)  µ −(λ + µ) λ ··· 
 = (0, 0, 0, ...)
 0
 0 µ −(λ + µ) ··· 

.. .. .. .. ..
. . . . .
178
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
ou, de façon équivalente,

−λπ0 + µπ1 = 0 (7.41)
λπ0 − (λ + µ)π1 + µπ2 = 0 (7.42)
λπ1 − (λ + µ)π2 + µπ3 = 0 (7.43)
λπ2 − (λ + µ)π3 + µπ4 = 0 (7.44)
λπ3 − (λ + µ)π4 + µπ5 = 0 (7.45)
etc.
L’équation (7.41) nous donne
λ
π1 =π0 . (7.46)
µ
Si on insère (7.46) dans (7.42), on obtient, après simplification,
2
λ
π2 = π0 . (7.47)
µ
Si on insère (7.46) et (7.47) dans (7.42), on obtient, après simplification,
3
λ
π3 = π0 .
µ
Il est donc clair qu’on obtient, pour tout k ≥ 0,
k
λ
πk = π0 . (7.48)
µ
P
La condition ∞ k=0 πk = 1 peut donc s’écrire sous la forme
∞ k
X λ
π0 = 1,
µ
k=0
c’est-à-dire
1
π0 = 1,
1 − (λ/µ)
c’est-à-dire
µ−λ λ
π0 = =1− .
µ µ
On a donc, pour k ≥ 0,
k
λ λ
πk = 1−
µ µ
On reconnaı̂t ici la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de succès 1 − (λ/µ).
Nous avons vu que l’espérance de la loi géométrique sur {1, 2, 3, ...} avec probabilité de succès p est
égale à 1/p. Il s’en suit que l’espérance de la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de
succès p est égale à (1/p) − 1. Donc, pour la file d’attente M/M/1, il y a, à la longue, en moyenne
1 1 λ 1
−1 = −1 = =
p 1 − (λ/µ) µ−λ (µ/λ) − 1
clients dans le système.
179
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 1. On considère une chaı̂ne de Markov à temps continu (Xt ; t ≥ 0) avec les paramètres
suivants :
— L’espace des états est S = {1, 2, 3}.
— Les taux de départ sont (q1 , q2 , q3 ) = (2, 7, 10)
— La matrice stochastique de la chaı̂ne des sauts, c’est-à-dire la matrice des probabilités des
transitions véritables, est  
0 1/2 1/2
P =  1/3 0 2/3 
1/4 3/4 0
(a) Calculez P[X1 = 1 pour tout 0 ≤ t ≤ 1|X0 = 1].
(b) Obtenez la matrice infinitésimale de cette chaı̂ne de Markov.
(c) Obtenez la loi stationnaire de cette chaı̂ne de Markov.
(d) Obtenez Z
1 t
lim h(Xs ) ds
t→∞ t 0
où h(1) = 3, h(2) = 9 et h(3) = 13. Interprétation : si h(j) représente le loyer Rqu’on paie
t
(exprimé en dollars par unité de temps) lorsqu’on est à l’état j, alors limt→∞ 1t 0 h(Xs ) ds
représente le loyer moyen par unité de temps à la longue.
Numéro 2. Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu sur l’ensemble S = {1, 2, 3}.
Voici la matrice infinitésimale de cette chaı̂ne de Markov :
 
−6 2 4
Q =  1 −2 1 
4 2 −6
(a) Calculez la loi stationnaire.

(b) Posons U = inf{t ≥ 0 : Xt 6= 2} et posons V = inf{t > U : Xt = 2}.
1. Quelle est la loi conditionnelle de U sachant X0 = 2 ?
2. Calculez E[V |X0 = 2].
Numéro 3. Considérons une chaı̂ne de Markov (Xt ; t ≥ 0) sur S = {0, 1, 2, 3, 4}, avec les conditions
infinitésimales suivantes.


 h + o(h) si j =4


 o(h) si j =3
P[Xt+h = j|Xt = 0] = o(h) si j =2



 h + o(h) si j =1

1 − 2h + o(h) si j =0


 1 − 8h + o(h) si j =4


 4h + o(h) si j =3
P[Xt+h = j|Xt = 4] = o(h) si j =2



 o(h) si j =1

4h + o(h) si j =0
180
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
et pour i ∈ {1, 2, 3},



 2h + o(h) si j =i+1

1 − 4h + o(h) si j =i
P[Xt+h = j|Xt = i] =

 2h + o(h) si j =i−1

o(h) si j ∈
/ {i − 1, i, i + 1}
(a) Obtenez la matrice infinitésimale Q.

(b) Calculez P[Xt = 2 pour tout t ≤ 1|X0 = 2].
(c) À la longue, dans quel état cette chaı̂ne passe-t-elle le plus de temps ?
(d) À la longue, quelle est la proportion de temps passée à l’état 2 ?
Numéro 4. [Pour les étudiants en mathématiques].

(a) On considère un processus de naissance et de mort sur l’espace d’états S = {0, 1, 2, 3, ...}.
On suppose que les µi , i ≥ 1, et les λi , i ≥ 0, sont tous strictement positifs. Dans ce cas, les
états communiquent tous entre eux. Montrez qu’il existe une loi stationnaire si et seulement
si
∞
X λ0 λ1 λ2 · · · λk−1
<∞
µ1 µ2 µ3 · · · µk
k=1
et exprimez cette loi stationnaire en termes des µi et des λi .
(b) On considère un processus de naissance et de mort avec
λi = λ eai et µi = µ ebi .
Ici, λ et µ sont des constantes positives et a et b sont des réels quelconques. Quelles conditions
les paramètres λ, µ, a et b doivent-ils satisfaire pour que ce processus soit stable, c’est-à-dire
pour qu’il possède une loi stationnaire ?
Numéro 5. On considère une population de cellules. Chaque cellule est ou bien à l’état A, ou
bien à l’état B. Lorsqu’une cellule est à l’état A, elle y demeure pendant un temps exponentiel de
paramètre λA , puis elle passe à l’état B. Lorsqu’une cellule est à l’état B, elle y demeure pendant
un temps exponentiel de paramètre λB , puis elle se divise en deux cellules qui sont toutes les deux
à l’état A. Définissez une chaı̂ne de Markov appropriée pour décrire l’évolution de cette population
et spécifiez les paramètres de cette chaı̂ne de Markov. Suggestion : Posez X(t) = (XA (t), XB (t)), où
XA (t) et XB (t) dénotent respectivement le nombre de cellules de type A au temps t et le nombre
de cellules de type B au temps t.
Numéro 6. Voici une variation du modèle de file d’attente à un serveur. On fait les mêmes
hypothèses que pour le modèle M/M/1, mais avec la tournure suivante. Les clients sont impatients.
1
Lorsqu’un nouveau client arrive, il se joint à la file d’attente avec probabilité n+1 , où n est le
nombre total de clients présents dans le système au moment où le nouveau client arrive. Spécifiez
les paramètres de cette chaı̂ne de Markov.
Numéro 7. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne. À la longue, quel est le
nombre moyen de clients dans le système ?
Numéro 8. Voici une variation du modèle de file d’attente à k serveurs. On fait les mêmes hy-
pothèses que pour le modèle M/M/k, mais avec la tournure suivante. Le système peut recevoir
au plus m clients à la fois. On suppose m > k. Lorsqu’un nouveau client arrive, il entre dans le
181
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
système seulement s’il y a de la place, c’est-à-dire seulement s’il y a moins que m clients présents
dans le système. S’il y a déjà m clients dans le système, le nouveau client est refusé. Spécifiez les
paramètres de cette chaı̂ne de Markov.
Numéro 9. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne dans le cas spécial où
λ = 2, µ = 1, k = 2 et m = 4. À la longue, quelle est la proportion de clients qui sont refusés ?
Numéro 10. En classe nous avons obtenu les P1j (t) du processus de Yule. Voici une autre approche
pour obtenir ces P1j (t).
(a) En exploitant la propriété d’absence de mémoire, montrez que si V1 , V2 , ..., Vm sont indépendantes
avec Vi ∼ exponentielle(iλ) et si W1 , W2 , ..., Wm sont i.i.d. exponentielle(λ), alors
L
V1 + V2 + · · · + Vm = max{W1 , W2 , ..., Wm };
concluez que
P[V1 + V2 + · · · + Vm ≤ t] = P[max{W1 , W2 , ..., Wm } ≤ t].
(b) À partir du résultat de la partie (a), obtenez les P1j (t) du processus de Yule.
Numéro 11. Une population comprend n individus dont certains sont des zombies. Si A et B
sont des individus encore en vie (ou bien en santé, ou bien zombie), alors les rencontres entre
A et B se produisent comme un processus de Poisson avec intensité λ. Ces processus de Poisson
sont indépendants les uns des autres. Si on a en tout k individus en vie (en santé ou zombie),
le processus
superposé de toutes les rencontres est donc un processus de Poisson avec intensité
λ k2 = 21 k(k − 1)λ. Lorsqu’une rencontre survient, il s’agit toujours d’exactement deux individus

et chacune de N2t paires possibles a la même probabilité de survenir. Ici Nt dénote le nombre total
d’individus au temps t. Lorsque deux zombies se rencontrent, ils se saluent et poursuivent leur
chemin. Lorsque deux individus en santé se rencontrent, ils se saluent et poursuivent leur chemin.
Lorsqu’un zombie rencontre un individu en santé, il y a confrontation. On a alors une probabilité p
que l’individu en santé devienne un zombie et une probabilité 1 − p qu’il tue le zombie. Au temps 0,
il y a un seul zombie dans la population. Définissez une chaı̂ne de Markov appropriée pour décrire
ce scénario. Précisez les paramètres de cette chaı̂ne. Que va-t-il se produire ? Les zombies vont-ils
disparaı̂tre ? Les individus en santé vont-ils tous devenir des zombies ? Suggestion : Considérez le
couple (Xt , Yt ) où Xt et Yt dénotent respectivement le nombre de zombies et le nombre d’individus
en santé au temps t.
Numéro 12. Denis travaille au CDA. Il est le seul dépanneur en statistique. Ses clients arrivent
comme un processus de Poisson avec intensité λ. Lorsqu’un nouveau client arrive il se fait servir
par Denis, à moins que Denis soit déjà en train de servir quelqu’un, dans lequel cas le nouveau
client s’en va. Il a deux types de clients : les gars et les filles. Lorsqu’un nouveau client arrive, on
a une probabilité p que ce soit un gars et une probabilité 1 − p que ce soit une fille. Le temps de
service est exponentielle(θ1 ) si c’est un gars et exponentielle(θ2 ) si c’est une fille. Lorsqu’il n’est pas
en train de servir quelqu’un, Denis regarde des vidéos sur youtube. On pose

 G si Denis est en train d’aider un gars au temps t
Xt = F si Denis est en train d’aider une fille au temps t

Y si Denis est en train de regarder des vidéos sur youtube au temps t.
182
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Obtenez la matrice infinitésimale de la chaı̂ne de Markov (Xt ; t ≥ 0). Obtenez la loi stationnaire
de cette chaı̂ne. À la longue, Denis passe quelle proportion de son temps de CDA sur youtube ?
Numéro 13. On suppose que (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur l’ensemble
S = {0, 1, 2, 3, 4, 5, 6}, avec matrice infinitésimale donnée par
 
−6 1 1 1 1 1 1
 
 1 −6 1 1 1 1 1 
 
 
 1 1 −6 1 1 1 1 
 
 
 
Q= 1 1 1 −6 1 1 1 
 
 
 1 1 1 1 −6 1 1 
 
 
 1
 1 1 1 1 −6 1  
1 1 1 1 1 1 −6
(a) Calculez la probabilité que cette chaı̂ne de Markov effectuera exactement 4 transitions
durant l’intervalle de temps (1/4, 3/4].
(b) On pose T = inf{t ≥ 0 : Xt = 4}. Calculez P[T > 2|X0 = 3].
Numéro 14. Un système comprend 3 composantes branchées en série. Le système fonctionne si et

seulement si toutes les composantes fonctionnent.
✉ 1 2 3 ✉
On suppose que les règles suivantes sont valides :

• Les durées de vie des composantes sont des variables aléatoires indépendantes. La durée de
vie de la composante numéro j est exponentielle avec paramètre λj . À la fin de sa vie, la
composante tombe en panne.
• Pendant que la composante j est en panne, le système cesse de fonctionner et les 2 autres
composantes sont alors au repos. Elles ne peuvent pas tomber en panne pendant qu’elles
sont au repos. Elles ne se détériorent pas pendant qu’elles sont au repos.
• Lorsque la composante numéro j tombe en panne, le réparateur prend un temps exponentiel
de paramètre θj pour la remettre en service.
• Lorsque le réparateur termine la réparation de la composante j, le système est remis en
marche. Après sa réparation, la composante j est comme neuve.
On s’intéresse à la chaı̂ne de Markov (X(t); t ≥ 0) définie par


 0 si le système fonctionne au temps t

1 si la composante 1 est en panne au temps t
X(t) =

 2 si la composante 2 est en panne au temps t

3 si la composante 3 est en panne au temps t
(a) Obtenez la matrice infinitésimale Q de cette chaı̂ne de Markov à temps continu.
183
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) Obtenez la loi stationnaire de cette chaı̂ne de Markov à temps continu.

(c) Lorsqu’il fonctionne, le système génère un gain net de a$ par unité de temps. Lorsqu’il est
en panne, le système occasionne une perte nette de b$ par unité de temps. Ici a et b sont
des nombres réels positifs. À la longue, quel est le gain net par unité de temps ?
Numéro 15. Un magasin est ouvert 24 heures sur 24. Les clients entrent dans le magasin comme un
processus de Poisson homogène avec une intensité de λ clients par heure. Lorsqu’un client entre dans
le magasin, il y reste pendant un temps (en heures) exponentiel avec paramètre θ, indépendamment
de tous les autres clients. On s’intéresse à la variable aléatoire
Xt = le nombre de clients qui sont dans le magasin au temps t
Le processus (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur S = {0, 1, 2, 3, ...}.
(a) À 8h17 et 33 secondes, le client Jean-Paul Larivière entre dans le magasin. Quelle est
l’espérance du temps qui s’écoulera avant que 4 nouveaux clients arrivent ?
(b) À 13h54 et 22 secondes, le gérant Réal Labonté constate qu’il y a exactement 4 clients dans
son magasin. Quelle est l’espérance du temps qui s’écoulera avant que ces 4 clients aient tous
quitté le magasin ?
(c) Obtenez la distribution limite de X(t) lorsque t → ∞.
Numéro 16. Des clients arrivent à un centre de service comme un processus de Poisson avec une
intensité de 2 clients par heure. Une fois arrivés au centre de service, les clients passent d’abord au
point de service A, puis au point de service B. Au point de service A, il y a un seul serveur et les
temps de service sont exponentiels avec une intensité de 4 par heure. Au point de service B, il y a
un seul serveur et les temps de service sont exponentiels avec une intensité de 6 par heure. Après
être passés aux deux points de service, les clients quittent le centre. On pose
XA (t) = le nombre de clients en attente devant le comptoir A au temps t,

XB (t) = le nombre de clients en attente devant le comptoir B au temps t,
X(t) = (XA (t), XB (t)).
Le processus aléatoire (X(t); t ≥ 0) est une chaı̂ne de Markov à temps continu avec espace d’état
S = N2 = {(k, ℓ); k ∈ {0, 1, 2, ...} et ℓ ∈ {0, 1, 2, ...}}.
(a) Le shéma ci-dessous illustre l’état du système à un certain temps to . On a donc XA (to ) = 6,
XB (to ) = 3 et donc X(to ) = (6, 3). Quelle est la distribution de la variable T = min{t > to :
(XA (t), XB (t)) 6= (6, 3)} ?
XA (to ) XB (to )
z }| { z }| {
Entrée Sortie
✲ ❡❡❡❡❡ ❡ ✉ ❡❡ ❡ ✉ ✲
✻ ✻
Serveur A Serveur B
184
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) Obtenez la distribution du couple (XA (T ), XB (T )), où T est le temps aléatoire défini à la
partie (a).
(c) On suppose que (XA (0), XB (0)) = (0, 0) et on pose
W = le moment où le premier client quittera le système.
Obtenez l’espérance et l’écart-type de W . Exprimez vos réponses en minutes.
Numéro 17. Un système comprend deux composantes, disons la composante A et la composante

B. On fait les hypothèses suivantes :
• Les pannes de la composante A surviennent au taux ηA , peu importe l’état de la composante
B.
• Les pannes de la composante B surviennent au taux ηB , peu importe l’état de la composante
A.
• Lorsque la composante A tombe en panne, ça prend un temps exponentiel de paramètre θA
avant qu’elle soit remise en service, peu importe l’état de la composante B.
• Lorsque la composante B tombe en panne, ça prend un temps exponentiel de paramètre θB
avant qu’elle soit remise en service, peu importe l’état de la composante A.
L’état du système est décrit par la chaı̂ne de Markov (Xt ; t ≥ 0) sur l’espace d’états S = {[0, 0], [0, 1], [1, 0], [1, 1]},
avec
[0, 0] = “les deux composantes sont en panne”

[0, 1] = “la composante A est en panne et la composante B est en service”
[1, 0] = “la composante A est en service et la composante B est en panne”
[1, 1] = “les deux composantes sont en service”
(a) Obtenez la matrice infinitésimale de cette chaı̂ne de Markov.

(b) Dans le cas où (ηA , ηB , θA , θB ) = (2, 1, 1, 2), quelle est, à la longue, la proportion de temps
durant laquelle les deux composantes sont en service ?
Numéro 18. À l’exemple 1 de la section 7 nous avons obtenu les probabilités de transition P(t) de
la chaı̂ne de Markov à 2 états en solutionnant l’équation différentielle de Kolmogorov P ′ (t) = QP(t).
La solution est donnée à l’équation (7.29). Dans le cas particulier où µ = λ, cette solution prend la
forme suivante :
!
1 1 −2λt 1 1 −2λt
P00 (t) P01 (t) 2 + 2e 2 − 2e
P(t) = = 1 1 −2λt 1 1 −2λt
(7.49)
P10 (t) P11 (t)
2 − 2e 2 + 2e
Montrez comment on peut obtenir le résultat (7.49) directement, en exploitant le fait que dans le
cas où µ = λ, les transitions de cette chaı̂ne de Markov surviennent comme un processus de Poisson
avec intensité λ. Indice : Partant de l’état 0, la chaı̂ne sera à l’état 0 au temps t si et seulement si
le nombre total de transitions durant l’intervalle de temps [0, t] est un nombre pair.
185
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 19. On considère à nouveau la chaı̂ne de Markov à temps continu sur un espace à deux
états. En suivant les étapes indiquées ci-dessous, obtenez l’équation (7.29) à partir de l’équation
(7.34).
(a) Vérifiez que la matrice Q de cette chaı̂ne de Markov peut être exprimée sous la forme
suivante :
−λ λ −(µ + λ) 0
Q= =A A−1
µ −µ 0 0

λ 1
avec A = .
−µ 1
(b) Avec l’aide du résultat de la partie (a), calculez Qn .
(c) Avec l’aide du résultat de la partie (b) et de l’équation (7.34), obtenez l’équation (7.29).
Numéro 20. On considère le processus de Yule avec paramètre λ, disons (Xt ; t ≥ 0). On pose
Tn = min{t ≥ 0 : Xt = n}.
(a) Obtenez une expression simple pour E[Tn ].
E[Tn ]
(b) Obtenez limn→∞ log(n) .
(c) Obtenez la densité conditionnelle de T4 sachant X0 = 1 et tracez le graphe de cette densité.
Suggestion : On a T4 = V1 + V2 + V3 , avec Vi ∼ exponentielle(iλ), indépendantes les unes
des autres. Utilisez le théorème de la section 7.4.
186
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 8
Le mouvement brownien
8.1 Introduction
On dit que le processus aléatoire (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine
si les conditions suivantes sont satisfaites :
(a) P[X0 = 0] = 1.
(b) Pour tout entier n > 1 et pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞,
les accroissements Xt1 − Xs1 , Xt2 − Xs2 , ..., Xtn − Xsn sont indépendants
(c) Pour tout choix de 0 ≤ s < t < ∞, on a Xt − Xs ∼ N (0, t − s).
(d) P[ la trajectoire t 7→ Xt est continue partout ] = 1.
Si la condition (a) est remplacée par
(a′ ) P[X0 = x∗ ] = 1
alors on dit que (Xt ; t ≥ 0) est un mouvement brownien standard issu du point x∗ . Comme pour
les chaı̂nes de Markov à temps continu, on écrira parfois X(t) plutôt que Xt .
Remarque 1. On peut démontrer qu’un tel processus existe. Plus précisément, on peut construire
un espace probabilisé (Ω, F, P) sur lequel on peut définir des variables aléatoires (Xt ; t ≥ 0) de
façon à ce que les conditions (a), (b), (c) et (d) soient satisfaites. Une démonstration rigoureuse de
ce résultat dépasserait le niveau du présent cours.
Remarque 2. On peut voir le mouvement brownien standard issu de l’origine comme étant une
version à temps continu de la marche aléatoire symétrique sur Z, issu de l’origine. En effet, si
(Wn ; n ≥ 0) est une telle marche aléatoire, alors la condition (a) est automatiquement satisfaite :
P[W0 = 0] = P 1. Pour voir que la condition (b) est satisfaite, notons qu’on peut écrire Wn sous la
forme Wn = nj=1 ηj où η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. avec P[ηj = −1] = 1/2 et
P[ηj = 1] = 1/2. Donc si on considère des entiers 0 ≤ k1 < ℓ1 ≤ k2 < ℓ2 ≤ · · · ≤ kn < ℓn < ∞, alors
les accroissements Wℓ1 − Wk1 , Wℓ2 − Wk2 , ..., Wℓn − Wkn sont des variables aléatoires indépendantes
puisque ce sont des fonctions de n groupes disjoints de variables aléatoires indépendantes :
ℓ1
X ℓ2
X ℓn
X
Wℓ1 − Wk 1 = ηj , Wℓ2 − Wk 2 = ηj , ··· , Wℓn − Wk n = ηj .
j=k1 +1 j=k2 +1 j=kn +1
L’analogue de la condition (b) est donc satisfaite. Quant à la condition

P (c), le théorème limite
central nous donne, pour tout choix de 0 ≤ k < ℓ < ∞, Wℓ − Wk = ℓj=k+1 ηj ≈ N (0, ℓ − k) dès
que ℓ − k est suffisamment grand puisque les ηj sont i.i.d. avec moyenne 0 et variance 1.
187
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le mouvement brownien est un processus gaussien

Un processus gaussien (à temps continu) est un processus aléatoire (Yt ; t ≥ 0) qui est tel que pour
tout entier positif m et pour tout choix de réels positifs t1 , t2 , ..., tm , la distribution conjointe des
variables Yt1 , Yt2 , ..., Ytm est une loi normale à m dimensions. Rappelons que pour spécifier une
telle distribution, il suffit de spécifier les espérances et les variances et covariances des m variables.
À partir des conditions (b) et (c), on vérifie facilement que si (Xt ; t ≥ 0) est un mouvement
brownien standard issu de l’origine, alors pour tout entier positif m et pour tout choix de réels
positifs t1 , t2 , ..., tm , la distribution conjointe des variables Xt1 , Xt2 , ..., Xtm est la loi normale à m
dimensions avec
E[Xti ] = 0 et Var[Xti ] = ti pour tout i
et avec
Cov[Xti , Xtj ] = min{ti , tj } pour tout i 6= j. (8.1)
L’équation (8.1) peut être obtenue de la façon suivante. Fixons 0 ≤ s ≤ t < ∞. On obtient
E[Xs Xt ] = E[Xs (Xs + (Xt − Xs ))] = E[Xs2 + Xs (Xt − Xs )]

= E[Xs2 ] + E[Xs (Xt − Xs )] = E[Xs2 ] + E[Xs ] · E[Xt − Xs ]
= s + 0 = s.
Pour la quatrième égalité, on a utilisé la condition (b) (c’est-à-dire l’indépendance des accroisse-
ments du mouvement brownien) et pour la cinquième égalité on a utilisé la condition (c) (c’est-à-dire
le fait que les accroissements du mouvement brownien suivent des lois normales de moyenne 0 et
de variance égal à la longueur de l’intervalle). Donc dans le cas 0 ≤ s ≤ t < ∞ on obtient
Cov[Xs , Xt ] = E[Xs Xt ] − E[Xs ] E[Xt ] = s − 0 = s.
De même, dans le cas 0 ≤ t ≤ s < ∞ on obtient Cov[Xs , Xt ] = t. On a donc
Cov[Xs , Xt ] = min{s, t} pour tout s ≥ 0 et t ≥ 0.
Le mouvement brownien est un processus de Markov

Un processus de Markov (à temps continu) est un processus aléatoire (Yt ; t ≥ 0) qui satisfait la
propriété de Markov : pour tout choix de 0 ≤ s1 < s2 < · · · < sn−1 < s < ∞ et 0 < t < ∞, pour
tout réels y1 , y2 , ..., yn−1 , y et a < b,
P[a < Ys+t < b|Ys1 = y1 , Ys2 = y2 ..., Ysn−1 = yn−1 , Ys = y] = P[a < Ys+t < b|Ys = y].
Les probabilités de transition P[a < Ys+t < b|Ys = y] sont dites homogènes dans le temps si elles
ne dépendent pas de s. À partir des conditions (b) et (c), on vérifie facilement que le mouvement
brownien est un processus de Markov avec probabilités de transition homogènes dans le temps.
Plus précisément, si (Xt ; t ≥ 0) est un mouvement brownien standard, alors pour tout choix de
0 ≤ s1 < s2 < · · · < sn−1 < s < ∞ et 0 < t < ∞, pour tout réels x1 , x2 , ..., xn−1 , x et a < b, on a
P[a < Xs+t < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x] = P[a < Xs+t < b|Xs = x] (8.2)
et Z b
1 2
P[a < Xs+t < b|Xs = x] = √ e−(y−x) /2t dy. (8.3)
a 2πt
188
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour démontrer les propriétés (8.2) et (8.3), on procède comme suit :

P[a < Xs+t < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < Xs + (Xs+t − Xs ) < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < x + (Xs+t − Xs ) < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < x + (Xs+t − Xs ) < b|(Xs1 − X0 ) = x1 , (Xs2 − Xs1 ) = x2 − x1 ..., (Xs − Xsn−1 ) = x − xn−1 ]
= P[a < x + (Xs+t − Xs ) < b]
Z b
1 2
= √ e−(y−x) /2t dy.
a 2πt
Dans le calcul ci-dessus, la quatrième égalité est une conséquence de la condition (b) (l’indépendance
des accroissements) et la cinquième égalité est une conséquence de la condition (c). En effet, la
condition (c) nous dit que la distribution de l’accroissement Xs+t − Xs est la loi N (0, t) et cela
implique que la distribution de la variable aléatoire x + (Xs+t − Xs ) est la loi N (x, t).
Le mouvement brownien est homogène dans l’espace

À partir de la définition, on vérifie facilement que si (Xt ; t ≥ 0) est un mouvement brownien
standard issu de x et si on pose Yt = y + Xt , alors le processus (Yt ; t ≥ 0) est un mouvement
brownien standard issu de y + x.
Ce résultat élémentaire est parfois appelé la propriété d’homogénéité dans l’espace.
8.2 Le distribution conditionnelle de Xs sachant Xt

On considère un mouvement brownien standard issu de l’origine, disons (Xt ; t ≥ 0), et on fixe
0 < s < t < ∞. À partir de la définition de mouvement brownien on obtient L(Xs ) = N (0, s) et
L(Xt |Xs = x) = L(x + (Xt − Xs )|Xs = x) = L(x + (Xt − Xs )) = N (x, t − s). On a donc
1 2
fXt (y) = √ e−y /2t
2πt
1 2
fXs (x) = √ e−x /2s
2πs
1 2
fXt |Xs = x (y) = p e−(y−x) /2(t−s) .
2π(t − s)
À partir de ces trois densités et de l’équation

fXs , Xt (x, y) fX (x)fXt |Xs = x (y)
fXs |Xt = y (x) = = s
fXt (y) fXt (y)
on obtient, après quelques simplifications,
!
1 (x − sy/t)2
fXs |Xt = y (x) = q exp − .
2π s(t−s) 2 s(t−s)
t
t
On a donc, pour tout 0 < s < t < ∞ et pour tout y ∈ R,

s s(t − s)
L(Xs |Xt = y) = N y, .
t t
189
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.3 Première visite à l’ensemble {a, b}

Le résultat suivant est l’analogue d’un résultat qu’on a obtenu au chapitre 3 pour la marche aléatoire
symétrique sur les entiers. Voir le cas p = 1/2 des théorèmes 3 et 4 du chapitre 3.
Théorème. Soit (Xt ; t ≥ 0), un mouvement brownien standard. Pour tout choix de −∞ < a <
b < ∞, on pose
Ta,b = min{t ≥ 0 : Xt ∈ {a, b}}.
Alors pour tout x ∈ [a, b] on a
P[Ta,b < ∞|X0 = x] = 1 (8.4)

x−a
P[XTa,b = b|X0 = x] = (8.5)
b−a
b−x
P[XTa,b = a|X0 = x] = (8.6)
b−a
E[Ta,b |X0 = x] = (x − a)(b − x). (8.7)
Démonstration de l’équation (8.4). Le résultat (8.4) se démontre de la même façon que le

résultat analogue pour la marche aléatoire sur les entiers présenté au chapitre 3. Les détails ne
seront pas répétés ici.
Démonstration des équations (8.5) et (8.6). Puisque L(Xt |X0 = x) = N (x, t) pour tout t ≥ 0,
on a
E[Xt |X0 = x] = x pour tout t ≥ 0. (8.8)
Il est donc raisonnable de penser que
E[XTa,b |X0 = x] = x. (8.9)
Le passage de (8.8) à (8.9) n’est pas complètement trivial. On peut le justifier en faisant appel à la
théorie des martingales. Nous y reviendrons à la section 8.7. Pour le moment, nous prenons pour
acquis le résultat (8.9). Puisque la variable aléatoire XTa,b est ou bien égale à a, ou bien égale à b,
l’équation (8.9) nous donne
a P[XTa,b = a|X0 = x] + b P[XTa,b = b|X0 = x] = x.
Par ailleurs on a
P[XTa,b = a|X0 = x] + P[XTa,b = x|X0 = x] = 1.
Lorsqu’on résout ce système de 2 équations à 2 inconnues, on obtient les résultats (8.5) et (8.6).
Démonstration de l’équation (8.7). Puisque L(Xt |X0 = x) = N (x, t) pour tout t ≥ 0, on a
E[(Xt − x)2 |X0 = x] = t pour tout t ≥ 0.
donc
E[(Xt − x)2 − t|X0 = x] = 0 pour tout t ≥ 0. (8.10)
Il est donc raisonnable de penser que
E[(XTa,b − x)2 − Ta,b |X0 = x] = 0, (8.11)
190
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
c’est-à-dire
E[Ta,b |X0 = x] = E[(XTa,b − x)2 |X0 = x]. (8.12)
À nouveau, le passage de l’équation (8.10) à l’équation (8.11) peut être justifié avec l’aide d’un
résultat de la théorie des martingales. Prenons pour acquis le résultat (8.12). Lorsqu’on calcule
l’espérance qui apparaı̂t sur le côté droit de cette équation, on obtient
E[Ta,b |X0 = x] = (a − x)2 P[XTa,b = a|X0 = x] + (b − x)2 P[XTa,b = b|X0 = x].
Les résultats (8.5) et (8.6) nous donne donc
b−x x−a
E[Ta,b |X0 = x] = (a − x)2 + (b − x)2 .
b−a b−a
Après simplifications, on obtient E[Ta,b |X0 = x] = (x − a)(b − x).
Le théorème précédent nous permet de voir qu’il y a une marche aléatoire symétrique sur Z cachée
dans notre mouvement brownien standard issu de l’origine. En effet, si on suppose que (Xt ; t ≥ 0)
est un mouvement brownien standard issu de l’origine et si on pose
T0 = 0
T1 = min{t ≥ T0 : Xt ∈ {XT0 − 1, XT0 − 1}}
T2 = min{t ≥ T1 : Xt ∈ {XT1 − 1, XT1 + 1}}
T3 = min{t ≥ T2 : Xt ∈ {XT2 − 1, XT2 + 1}}
etc.
alors la suite (XTn ; n ≥ 0) est une marche aléatoire symétrique sur Z. Ainsi plusieurs propriétés du
mouvement brownien peuvent être obtenues à partir de nos connaissances au sujet de la marche
aléatoire symétrique sur Z.
8.4 Première visite au point y

On suppose que (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine. On fixe y ∈ R
et on pose
Ty = min{t ≥ 0 : Xt = y}.
Le but de la présente section est d’obtenir la distribution de la variable aléatoire Ty . Voici d’abord
deux résultats préliminaires.
Proposition 1. Pour tout y ∈ R, on a P[Ty < ∞|X0 = 0] = 1.
Démonstration. Considérons le cas où y > 0. (Le cas y < 0 se traite de la même façon et le cas
y = 0 est trivial). On note que si y > 0 alors on a {Ty < ∞} = ∪∞ n=1 {XT−n,y = y}. La continuité
des probabilités et le théorème de la section 8.3 nous donne donc
n
P[Ty < ∞|X0 = 0] = lim P[XT−n,y = y|X0 = 0] = lim = 1.
n→∞ n→∞ n + y
191
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Proposition 2. [Le principe de réflexion]. Pour tout t > 0 et y > 0, on a

1
P[Xt ≥ y|Ty ≤ t] = .
2
Idée de la démonstration. On se place au temps Ty . On a XTy = y. La propriété de Markov

nous dit qu’à partir du temps Ty , c’est comme si on partait à neuf, de l’état y. Par symétrie on a
alors
P[Xt ≥ y|Ty ≤ t] = P[Xt ≤ y|Ty ≤ t].
Puisque P[Xt = y|Ty ≤ t] = 0, on conclut que P[Xt ≥ y|Ty ≤ t] = 1/2.
La démonstration ci-dessus n’est pas rigoureuse. En réalité, ce n’est pas la simple propriété de
Markov qu’on utilise mais plutôt la propriété de Markov forte (puisque Ty est un temps aléatoire).
Pour rendre cette démonstration plus rigoureuse, il faudrait étudier la propriété de Markov forte,
comme à la section 4 du chapitre 2.
Théorème. Si (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine et si y > 0, alors
la densité de probabilité de la variable aléatoire Ty est donnée par
(
y√ −y 2 /2t
3/2 2π e si t > 0
fTy (t) = t (8.13)
0 si t ≤ 0
Démonstration. Pour tout t > 0 et y > 0 on obtient

1
P[Xt ≥ y] = P[(Xt ≥ y) ∩ (Ty ≤ t)] = P[Xt ≥ y|Ty ≤ t] P[Ty ≤ t] = P[Ty ≤ t]
2
Pour la troisième égalité, on a utilisé le principe de réflexion. On obtient donc
√ √ √
P[Ty ≤ t] = 2 P[Xt ≥ y] = 2 P[Xt / t ≥ y/ t] = 2(1 − Φ(y/ t)).
La densité de la variable Ty est donc

y √
t3/2
φ(y/ t) si t > 0
fTy (t) = (8.14)
0 si t ≤ 0
Ici Φ(x) et φ(x) dénotent, respectivement, la fonction de répartition et la densité de probabilité de

2
la loi N (0, 1). Puisque φ(x) = √12π e−x /2 , l’équation (8.14) est équivalente à l’équation (8.13).
À partir de ce théorème on montre facilement que E[Ty ] = ∞. On aurait pu obtenir ce résultat à

partir du résultat analogue pour la marche aléatoire symétrique sur Z et du résultat énoncé à la
fin de la section 8.3.
Exercice. C’est bien de savoir que E[Ty ] = ∞ mais ça ne nous donne pas une bonne idée des
valeurs typiques que la variable Ty peut prendre. Pour avoir une meilleure idée, l’étudiant devrait
tracer le graphe de la densité de probabilité fTy (t). Il devrait aussi vérifier que
(a) la valeur modale de la densité fTy (t) est y 2 /3,
(b) la médiane de la densité fTy (t) est y 2 /(Φ−1 (3/4))2 .
192
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.5 Le maximum du mouvement brownien sur [0, t]

Comme à la section précédente, on suppose que (Xt ; t ≥ 0) est un mouvement brownien standard
issu de 0. Cette fois-ci, on fixe t > 0 et on pose
Mt = max Xs .
0≤s≤t
Calculons la distribution de Mt . Pour y > 0, on a
P[Mt < y] = P[Ty > t] = 1 − P[Ty ≤ t].

√
À la section précédente on a obtenu P[Ty ≤ t] = 2 1 − Φ(y/ t) . On a donc
√
P[Mt < y] = 2Φ(y/ t) − 1.
On en déduit la densité de Mt :
( 2 /2t
√2 e−y si y ≥ 0
fMt (y) = 2πt
0 si y < 0.
On reconnaı̂t ici la densité de la valeur absolue d’une N (0, t). On a donc démontré le résultat
suivant :
Théorème. Si Mt dénote le maximum, sur l’intervalle [0, t], d’un mouvement brownien standard
issu de l’origine, alors L(Mt ) = |N (0, t)|.
p
Exercice : Montrez que E[Mt ] = 2t/π.
8.6 Transformations du mouvement brownien

Tout au long de la présente section, on suppose que (Xt ; t ≥ 0) est un mouvement brownien standard
issu de 0 et on considère différents processus stochastiques obtenus à partir de ce mouvement
brownien standard.
8.6.1 Mouvement brownien avec paramètre de dérive et paramètre de diffusion

On fixe x ∈ R, µ ∈ R et σ > 0. On pose
Yt = x + µt + σXt .
Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien issu de x, avec paramètre de dérive µ
et paramètre de diffusion σ 2 . La section 8.8 sera consacrée à ce processus aléatoire important.
8.6.2 Mouvement brownien et changement d’échelle

On fixe c > 0 et on pose
1
Yt = √ Xct .
c
Exercice : Montrez que le processus (Yt ; t ≥ 0) est un mouvement brownien standard.
193
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.6.3 Mouvement brownien et inversion du temps

On pose
tX1/t si t > 0
Yt =
0 si t = 0.
Exercice : Montrez que le processus (Yt ; t ≥ 0) est un mouvement brownien standard.
8.6.4 Mouvement brownien géométrique

On fixe x ∈ R, µ ∈ R et σ > 0. On pose
Yt = exp (x + µt + σXt ) .
Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien géométrique. On peut écrire Yt sous la
forme
Yt = C exp (µt + σXt )
avec C = ex . Le mouvement brownien géométrique est un processus de Markov positif à trajectoires
continues. Ce n’est pas un processus gaussien. C’est parfois un bon modèle pour décrire l’évolution
de la valeur d’un titre boursier. La section 8.9 sera consacrée à ce processus aléatoire important.
Exercice : Montrez que si (Yt ; t ≥ 0) est un mouvement brownien géométrique comme ci-dessus,
alors pour s < t on a

E[Yt |(Yu ; 0 ≤ u ≤ s)] = Ys exp µ(t − s) + σ 2 (t − s)/2 .
8.6.5 Le processus de Ornstein-Uhlenbeck

On fixe α > 0 et on pose
Yt = e−αt/2 X(eαt ).
Ce processus aléatoire (Yt ; t ≥ 0) est appelé un processus de Ornstein-Uhlenbeck avec paramètre
α. On vérifie facilement que
(a) (Yt ; t ≥ 0) est un processus de Markov.
(b) (Yt ; t ≥ 0) est un processus à trajectoires continues.
(c) (Yt ; t ≥ 0) est un processus gaussien.
(d) (Yt ; t ≥ 0) est un processus stationnaire :
pour tout choix de 0 < s1 < s2 < · · · < sm et t ≥ 0, on a
L(Ys1 +t , Ys2 +t , ..., Ysm +t ) = L(Ys1 , Ys2 , ..., Ysm ).
Notez que Yt ∼ N (0, 1) pour tout t ≥ 0. On a donc E[Yt ] = 0 et Var[Yt ] = 1 pour tout t ≥ 0. Un
calcul élémentaire montre que pour tout s ≥ 0 et t ≥ 0 on a
Cov[Ys , Yt ] = e−α|t−s| .
194
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.6.6 Le mouvement brownien intégré

Rt
On pose It = 0 Xs ds. Le processus aléatoire (It ; t ≥ 0) s’appelle un mouvement brownien intégré.
Il s’agit d’un processus à trajectoires continues et dérivables. Si on écrit It comme une limite de
sommes de Riemann, par exemple
Z t n
tX
It = Xs ds = lim Xkt/n ,
0 n→∞ n
k=1
alors on constate que la loi de It est une loi normale puisque chaque somme de Riemann suit une
loi normale (puisque cette somme est une combinaison linéaire de variables aléatoires dont la loi
conjointe est une loi normale multivariée). Calculons l’espérance et la variance de It . On obtient
Z t Z t Z t
E[It ] = E Xs ds = E[Xs ] ds = 0 ds = 0.
0 0 0
et
"Z 2 #
t
Var[It ] = E[It2 ] = E Xs ds
0
Z t Z t Z t Z t
= E Xr dr Xs ds = E Xr Xs dr ds
0 0 0 0
Z tZ t Z tZ t
= E[Xr Xs ]dr ds = min{r, s} dr ds
0 0 0 0
Z tZ s
= 2 r dr ds = t3 /3.
0 0
On a donc It ∼ N (0, t3 /3).
À l’aide du truc des limites de sommes de Riemann, on peut aussi montrer que pour tout choix
de réels positifs t1 , t2 , ..., tn la distribution conjointe des variables It1 , It2 , ..., Itn est une loi normale
multivariée. Le processus (It ; t ≥ 0) est donc un processus gaussien. Le calcul de sa fonction de
covariance est laissé en exercice.
Exercice. Montrez que, pour tout 0 ≤ s ≤ t < ∞, on a Cov[Is , It ] = s2 (3t − s)/6.
Exercice. Obtenez la distribution conditionnelle de Is+t sachant Is = y.
8.6.7 Le pont brownien

Un pont brownien standard est un processus (Yt ; 0 ≤ t ≤ 1) qui satisfait les propriétés suivantes :
(a) P[Y0 = Y1 = 0] = 1.
(b) C’est un processus gaussien.
(c) C’est un processus à trajectoires continues.
(d) L(Yt ) = N (0, t(1 − t)) pour tout 0 ≤ t ≤ 1.
(e) Cov[Ys , Yt ] = min{s, t}(1 − max{s, t}).
195
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On montre facilement que si (Xt ; t ≥ 0) est un mouvement brownien standard issu de 0 et si on

pose Yt = Xt − tX1 , alors le processus (Yt ; 0 ≤ t ≤ 1) est un pont brownien standard.
Le résultat suivant est utile en statistique. Il est mentionné ici pour votre culture générale mais sa
démonstration dépasse le cadre de ce cours et sera donc omise.
Théorème. Soit (Yt ; 0 ≤ t ≤ 1), un pont brownien standard. Posons W = max0≤t≤1 |Yt |. Alors la
fonction de répartition de W est donnée par
 ∞
 X 2 2
 1−2 (−1)k+1 e−2k w si w > 0,
FW (w) =
 k=1

0 si w ≤ 0.
Application 1. On peut montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d. avec
fonction de répartition continue F∗ (x) et si
Dn = sup |Fn (x) − F∗ (x)| ,

x∈R
où Fn (x) dénote la fonction de répartition empirique, alors

√ L
n Dn −→ W
où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn est appelée la statistique de Kolmogorov et Smirnov et elle peut être utilisée pour tester
H0 : F = F∗ contre H1 : F 6= F∗ lorsqu’on suppose que X1 , X2 , X3 , ..., Xn sont i.i.d. avec fonction
de répartition F (x) et qu’on souhaite tester si F (x) = F∗ (x), pour une fonction de répartition
continue F∗ (x) complètement spécifiée.
Application 2. On peut aussi montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d.
avec fonction de répartition continue F (x) et si Y1 , Y2 , Y3 , ..., Ym sont des variables aléatoires i.i.d.
avec fonction de répartition continue G(x), les Yj indépendantes des Xi , et si
Dn,m = sup |Fn (x) − Gm (x)| ,

x∈R
où Fn (x) et Gn (x) dénote respectivement la fonction de répartition empirique associée aux Xi et
la fonction de répartition empirique associée aux Yj , alors
r
mn L
Dn,m −→ W
m+n
où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn,m est appelée la statistique de Kolmogorov et Smirnov pour le problème à deux
échantillons et elle peut être utilisée pour tester H0 : F = G contre H1 : F 6= G.
196
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.7 Martingales
La notion de martingale joue un rôle important en théorie des probabilité, en particulier dans
les applications de la théorie des probabilités en mathématiques financières. Voici une définition
suffisamment générale pour les besoins du présent cours.
Définition. Soient (Mt ; t ≥ 0) et (Xt ; t ≥ 0), des processus aléatoires. On dit que le processus
(Mt ; t ≥ 0) est une martingale par rapport au processus (Xt ; t ≥ 0) si les conditions suivantes sont
satisfaites :
(a) E[|Mt |] < ∞ pour tout 0 ≤ t < ∞.
(b) Si on connaı̂t (Xu ; 0 ≤ u ≤ t), alors on connaı̂t Mt . Autrement dit, Mt est une fonction de
(Xu ; 0 ≤ u ≤ t).
(c) Pour tout 0 ≤ s ≤ t < ∞ on a E[Mt |Xu , 0 ≤ u ≤ s] = Ms .
Supposons maintenant que (Xt ; t ≥ 0) soit un mouvement brownien standard issu de l’origine. Voici
trois exemples de processus aléatoires qui sont des martingales par rapport à (Xt ; t ≥ 0).
1. Le processus (Xt ; t ≥ 0) lui-même.
2. Le processus (Xt2 − t; t ≥ 0).
3. Le processus (exp(cXt − c2 t/2); t ≥ 0).
Pour le troisième exemple, la constante c est un nombre réel quelconque.
Proposition. Si (Mt ; t ≥ 0) est une martingale (par rapport à un certain processus (Xt ; t ≥ 0)),
alors E[Mt ] ne dépend pas de t. On a donc
E[Mt ] = E[M0 ] pour tout t ≥ 0. (8.15)
Démonstration. Il suffit de calculer E[Mt ] en conditionnant sur X0 et d’appliquer la propriété (c)

avec s = 0. On obtient
E[Mt ] = E[E[Mt |X0 ]] = E[M0 ].
Sous certaines conditions, on peut remplacer le temps fixe t par un temps aléatoire T dans l’équation
(8.15) ci-dessus. C’est ce que nous avons fait à la section 8.3 et c’est ce que nous ferons à la
section suivante. Afin de pouvoir énoncer un résultat précis à cet effet, voici d’abord une définition
importante.
Définition. On dit que la variable aléatoire non négative T est un temps d’arrêt pour le processus
aléatoire (Xt ; t ≥ 0) si la condition suivante est satisfaite : pour tout t ≥ 0, l’événement {T ≤ t}
est une fonction de (Xs ; 0 ≤ s ≤ t). Autrement dit, après avoir observé (Xs ; 0 ≤ s ≤ t), on sait si
on a T ≤ t ou si on a T > t.
Le théorème suivant ne sera pas énoncé de façon précise et ne sera pas démontré.
Théorème. Si (Mt ; t ≥ 0) est une martingale par rapport à un certain processus (Xt ; t ≥ 0) et si
T est un temps d’arrêt par rapport à ce processus (Xt ; t ≥ 0), alors, sous certaines conditions de
régularité et d’intégrabilité, on a
E[MT ] = E[M0 ]. (8.16)
197
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.8 Le mouvement brownien avec dérive

8.8.1 Distribution de sortie pour le mouvement brownien avec dérive
On suppose ici que (Yt ; t ≥ 0) est un mouvement brownien issu de 0, avec coefficient de dérive µ
et coefficient de diffusion σ 2 . On souhaite généraliser les résultats obtenus à la section 8.3. Pour
alléger la présentation on suppose ici que Y0 = 0. On a donc Yt = σXt + µt où (Xt ; t ≥ 0) est un
mouvement brownien standard issu de l’origine. On fixe a > 0 et b > 0 et on pose
T(−a,b) = min{t ≥ 0 : Yt ∈ {−a, b}}.
La variable aléatoire T(−a,b) est donc le temps de sortie de l’intervalle (−a, b). On souhaite obtenir
la distribution de sortie de l’intervalle (−a, b) c’est-à-dire la distribution de YT(−a,b) . Autrement dit,
on veut calculer
P[YT(−a,b) = b] et P[YT(−a,b) = −a].
D’après la section 8.7, pour tout choix de la constante c, le processus

exp c(Yt − µt)/σ − c2 t/2 ; t ≥ 0
est une martingale par rapport à (Xt ; t ≥ 0). En particulier, si on prend c = −2µ/σ, alors on
conclut que le processus
exp(−2µYt /σ 2 ); t ≥ 0
est une martingale par rapport à (Xt ; t ≥ 0). La variable aléatoire T(−a,b) étant un temps d’arrêt
par rapport à (Xt ; t ≥ 0), le théorème de la section 8.7 nous donne
h i
E exp(−2µYT(−a,b) /σ 2 ) = 1
c’est-à-dire
2 2
e−2µb/σ P[YT(−a,b) = b] + e2µa/σ P[YT(−a,b) = −a] = 1.
On a également
P[YT(−a,b) = b] + P[YT(−a,b) = −a] = 1.
Dans le cas où µ 6= 0, on solutionne ce système de 2 équations à 2 inconnues et on obtient
2
1 − e2µa/σ
P[YT(−a,b) = b] =
e−2µb/σ2 − e2µa/σ2
2
e−2µb/σ − 1
P[YT(−a,b) = −a] = .
e−2µb/σ2 − e2µa/σ2
Dans le cas où µ = 0 (avec σ 2 > 0 quelconque), on procède comme à la section 8.3 et on obtient
a
P[YT(−a,b) = b] =
a+b
b
P[YT(−a,b) = −a] = .
a+b
Exercice. Montrez que 

 1 si µ > 0,
lim P[YT(−b,b) = b] = 1/2 si µ = 0,
b→∞ 
0 si µ < 0.
Exercice. Montrez que peu importe la valeur de µ on a

lim P[YT(−b,b) = b] = 1/2.
b→0
198
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.8.2 Espérance du temps de sortie pour le mouvement brownien avec dérive

On reprend le scénario de la section 8.8.1. On souhaite obtenir E[T(−a,b) ].
Le cas où µ = 0
Dans le cas où µ = 0, le processus (Yt /σ; t ≥ 0) est un mouvement brownien standard issu de 0.
On utilise la martingale ((Yt /σ)2 − t; t ≥ 0) et on conclut que
" #
YT(−a,b) 2

E − T(−a,b) = 0
σ
donc
1
E[T(−a,b) ] = E[(YT(−a,b) )2 ]
σ2
1 2 2

= b P[Y T = b] + a P[Y T = −a]
σ2 (−a,b)

(−a,b)
1 a b ab
= 2
b2 + a2 = 2
σ a+b a+b σ
Le cas où µ 6= 0
Dans le cas où µ 6= 0, le processus ((Yt − µt)/σ; t ≥ 0) est un mouvement brownien standard issu
de 0, donc une martingale d’espérance 0. On utilise cette martingale et on conclut que
E[(YT(−a,b) − µT(−a,b) )/σ] = 0
donc
1
E[T(−a,b) ] = E[YT(−a,b) ]
µ
1
= b P[YT(−a,b) = b] − a P[YT(−a,b) = −a]
µ
2 2
b(1 − e2µa/σ ) − a(e−2µb/σ − 1)
= .
µ(e−2µb/σ2 − e2µa/σ2 )
Exercice. Si on prend la limite quand µ → 0 dans le résultat ci-dessus, est-ce qu’on obtient le
résultat de la section 8.3 ?
Exercice. Vérifiez que si µ > 0 et si a et b sont très grand, alors E[T(−a,b) ] ≈ b/µ. Autrement dit,
E[T(−a,b) ] 1
lim
a→∞
= .
b→∞
b µ
Exercice. Quelle est l’intuition derrière le résultat de l’exercice précédent ? Autrement dit, com-
ment aurait-on pu deviner ce résultat ?
199
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.8.3 Le maximum du mouvement brownien avec dérive négative

On considère (Yt ; t ≥ 0), un mouvement brownien issu de 0 avec coefficient de dérive µ < 0 et avec
coefficient de diffusion σ 2 > 0. On pose M = max0≤t<∞ Yt et on demande la distribution de M .
Fixons y > 0. Pour tout entier n ≥ 1, écrivons En pour dénoter l’événement le mouvement brownien
(Yt ; t ≥ 0) frappe l’état −n avant de frapper l’état y. On obtient alors
P[M < y] = P [∩∞

n=1 En ] = lim P[En ]
n→∞
= lim P[YT(−n,y) = −n]
n→∞
2
e−2µy/σ − 1
= lim −2µy/σ2
n→∞ e − e2µn/σ2
2
e−2µy/σ − 1 2
= = 1 − e2µy/σ
e−2µy/σ2
On conclut que M ∼ exponentielle(λ), avec λ = −2µ/σ 2 . (Ce λ est bel et bien positif puisqu’on
suppose que µ < 0).
Exercice. Obtenez le résultat analogue pour la marche aléatoire

Pn sur Z avec dérive négative, c’est-
à-dire la marche aléatoire (Sn ; n ≥ 0) définie par Sn = j=1 ηj où les variables η1 , η2 , η3 , ... sont
i.i.d. avec P[ηj = 1] = p et P[ηj = −1] = 1 − p pour un certain 0 < p < 1/2.
8.9 Le mouvement brownien géométrique

On suppose que (Yt ; t ≥ 0) est un mouvement brownien géométrique issu de C et avec paramètres
µ et σ 2 . Voir la section 8.6.4 pour la définition. Ici µ est un nombre réel quelconque et C et σ 2 sont
des réels strictement positifs. Un tel mouvement brownien géométrique peut toujours s’écrire sous
la forme
Yt = C exp(µt + σXt )
où (Xt ; t ≥ 0) est un mouvement brownien standard issu de 0.
8.9.1 La loi log-normale

Pour t > 0, la loi de Yt s’appelle la loi log-normale (puisque la loi de log(Yt ) est une loi normale).
On peut écrire une expression pas trop compliquée pour la densité de Yt mais ce n’est rien de très
utile car pour calculer des probabilités concernant la loi log-normale, on se ramène tout simplement
à la loi normale.
Exemple. On suppose que (Yt ; t ≥ 0) est un mouvement brownien géométrique issu de 2 et avec
paramètres µ = 1/3 et σ 2 = 4. Calculons P[Y9 ≤ 800]. On obtient ceci :
P[Y9 ≤ 800] = P[2 exp(3 + 2X9 ) ≤ 800]

= P[3 + 2X9 ≤ log(400)] avec 3 + 2X9 ∼ N (3, 36)

log(400) − 3
= Φ = Φ(0.4986) = 0.6910.
6
200
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.9.2 Le maximum du mouvement brownien géométrique avec µ < 0

Dans le cas où µ < 0, on a vu à la section 8.8.3 que le maximum, disons M , du mouvement brownien
µt + σXt suit la loi exponentielle(λ) avec λ = −2µ/σ 2 = 2|µ|/σ 2 . Posons
M ∗ = max Yt = max C exp(µt + σXt ).

0≤t<∞ 0≤t<∞
Pour tout y > C, on obtient
P[M ∗ ≤ y] = P[ max C exp(µt + σXt ) ≤ y]

0≤t<∞
= P[C exp( max (µt + σXt )) ≤ y]
0≤t<∞
= P[ max (µt + σXt ) ≤ log(y/C)]
0≤t<∞
= 1 − exp(−λ log(y/C))
λ 2|µ|/σ2
C C
= 1− = 1− .
y y
La densité de probabilité de M ∗ est donc la loi de Pareto donnée par


 2|µ| C 1+ 2|µ|
σ2
fM ∗ (y) = Cσ2 y si y ≥ C
 0 si y < C.
8.9.3 Le minimum du mouvement brownien géométrique avec µ > 0

Dans le cas où µ > 0, le résultat de la section 8.8.3 nous permet de conclure que le négatif du
minimum du mouvement brownien µt + σXt suit la loi exponentielle(λ) avec λ = 2µ/σ 2 . Posons
M∗ = min Yt = min C exp(µt + σXt ).

0≤t<∞ 0≤t<∞
Pour tout 0 < y < C, on obtient
P[M∗ ≤ y] = P[ min C exp(µt + σXt ) ≤ y]

0≤t<∞
= P[C exp( min (µt + σXt )) ≤ y]
0≤t<∞
= P[ min (µt + σXt )) ≤ log(y/C)]
0≤t<∞
= P[− min (µt + σXt )) ≥ − log(y/C)]
0≤t<∞
= P[− min (µt + σXt )) ≥ log(C/y)]
0≤t<∞
2
= exp(−λ log(C/y)) = (C/y)−λ = (y/C)λ = (y/C)2µ/σ .
La densité de M∗ est donc

( 2µ
2µ y σ 2 −1
fM∗ (y) = Cσ2 C si 0 < y < C
0 sinon.
En particulier, si σ 2 = 2µ, alors M∗ suit la loi uniforme sur l’intervalle (0, C).
201
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 0. Faites les 12 exercices qui apparaissent tout au long du chapitre 8.
Numéro 1. On suppose que (Bt ; t ≥ 0) est un mouvement brownien standard.
(a) Calculez P[Bt ≤ 1 pour tout 0 ≤ t ≤ 1|B0 = 0].
(b) Calculez P[B4 > 0|B2 = −1].
(c) Calculez P[B4 > 0|B0 = 0 et B2 > 0].
Numéro 2. Soit (Xt ; t ≥ 0), un mouvement brownien avec coefficient de dérive µ = 1/5 et
coefficient de diffusion σ 2 = 2. On pose T = min{t ≥ 0 : |Xt | = 4}.
(a) Calculez P[XT = 4|X0 = 0].
(b) Trouvez le x∗ entre -4 et 4 pour lequel on a P[XT = 4|X0 = x∗ ] = 1/2.
Numéro 3. Soit (Xt ; t ≥ 0), un mouvement brownien issu de l’état 3, avec coefficient de dérive
µ = 1/5 et coefficient de diffusion σ 2 = 2. Calculez la probabilité que ce mouvement brownien ne
frappera jamais l’origine.
Numéro 4. Soit (Xt ; t ≥ 0), un mouvement brownien issu de l’origine, avec coefficient de dérive
µ et coefficient de diffusion σ 2 . On a simulé ce mouvement brownien à 800 reprises. Pour chacune
de ces 800 répétitions, on a mesuré le temps que ça a pris pour que le processus frappe l’ensemble
{−2, 2} et on a noté lequel des états -2 et 2 a été atteint en premier. Voici nos résultats :
• Temps moyen requis pour atteindre {−2, 2} : 4.853 unités de temps.
• Nombre de fois qu’on a atteint 2 avant d’atteindre -2 : 623 fois.
Expliquez comment on peut estimer µ et σ 2 à partir de ces observations.
Numéro 5. Soit (Xt ; t ≥ 0) et (Yt ; t ≥ 0), deux mouvements browniens standards indépendants
l’un de l’autre, le premier issu de 0 et le deuxième issu de y∗ > 0. On pose T = min{t√≥ 0 : Xt = Yt }.
Obtenez la densité de T et l’espérance de T . Indice : Si on pose Zt = (y∗ + Xt − Yt )/ 2, que peut-on
dire du processus (Zt ; t ≥ 0) ?
Numéro 6. Soit (Xt ; t ≥ 0), un mouvement brownien avec coefficient de dérive µ = 1 et coefficient
de diffusion σ 2 = 9. Calculez Z 1

P Xt dt ≤ 3 X0 = 2 .

0
Numéro 7. Si (Xt ; t ≥ 0) est un mouvement brownien issu de xo , avec coefficient de dérive µ1

et coefficient de diffusion σ12 , si (Yt ; t ≥ 0) est un mouvement brownien issu de yo , avec coefficient
de dérive µ2 et coefficient de diffusion σ22 , si (Xt ; t ≥ 0) et (Yt ; t ≥ 0) sont indépendants l’un de
l’autre et si on pose Zt = a + bt + cXt + dYt , que peut-on dire du processus (Zt ; t ≥ 0) ?
202
Claude Bélisle
Université Laval

STT 4700 2021

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STT 4700 2021

Transféré par

Droits d'auteur :

Formats disponibles

STT-4700

© Claude Bélisle, 2021

Pour réussir le cours STT-4700, il faut

Table des matières

1 Probabilité conditionnelle et espérance conditionnelle 1

2 Introduction à la théorie des

4 Chaı̂nes de Markov à temps discret :

6 Processus de Poisson 117

7 Chaı̂nes de Markov à temps continu 157

8 Le mouvement brownien 187

8.5 Le maximum du mouvement brownien sur [0, t] . . . . . . . . . . . . . . . . . . . . . 193

1.1 Probabilité conditionnelle

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)

(2, 6) (3, 5) (4, 4) (5, 3) (6, 2)

A = l’événement ≪ obtenir au moins un six ≫

B = l’événement ≪ le total obtenu est 8 ≫

Définition de probabilité conditionnelle. Soit E, une expérience aléatoire avec ensemble de

Figure 1. La probabilité conditionnelle de A sachant B.

Le résultat suivant est facile à démontrer.

Théorème. Soit B, un événement tel que P[B] > 0. Alors

1. Pour tout événement A on a 0 ≤ P[A|B] ≤ 1.

3b. Si A1 , A2 , A3 , ... sont des événements mutuellement exclusifs, alors

• P[A|B] = 1 − P[Ac |B],

1.2 La règle de multiplication

P[A ∩ B] = P[A|B] P[B].

A = l’événement ≪ obtenir une boule noire au premier tirage ≫

P[A ∩ B ∩ C] = P[A ∩ B] P[C |A ∩ B]

et en conditionnant sur A on obtient

P[A ∩ B] = P[A] P[B|A].

P[E1 ∩ · · · ∩ En ] = P[E1 ] P[E2 |E1 ] P[E3 |E1 ∩ E2 ] · · · P[En |E1 ∩ · · · ∩ En−1 ].

On peut bien sûr réécrire cette dernière équation sous la forme

H = l’événement ≪ obtenir 4 boules de la même couleur ≫

alors on a H = A ∪ B ∪ C. Les événements A, B, et C étant mutuellement exclusifs, on obtient

P[H] = P[A ∪ B ∪ C] = P[A] + P[B] + P[C].

La règle de multiplication nous donne

1.3 La loi des probabilités totales

Solution. Pour résoudre ce problème, posons

A = l’événement ≪ le clou est défectueux ≫,

P[E1 ] = 0.50 P[A|E1 ] = 0.03

On doit calculer P[A]. On obtient

= P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]

= P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

P[A] = P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

est un cas particulier du résultat suivant :

La loi des probabilités totales : Si E1 , E2 , ..., En , des événements mutuellement exclusifs et

Figure 2. La loi des probabilités totales.

A = l’événement ≪ obtenir au moins un six avec le dé ≫

et pour n = 1, 2, 3, ... posons

En = l’événement ≪ la première pile survient au ne lancer de la pièce ≫.

D’une part on a P[En ] = 1/2n pour chaque n ≥ 1. D’autre part on a

pour chaque n ≥ 1. Les événements E1 , E2 , E3 , ... étant mutuellement exclusifs et exhaustifs, on

1.4 Le théorème de Bayes

Solution. Si on utilise la notation introduite dans la solution de l’exemple 3, la probabilité condi-

Le théorème de Bayes : Soit E1 , E2 , ..., En , des événements mutuellement exclusifs et exhaustifs.

Le diagramme de Venn de la figure 3 illustre le théorème de Bayes. La probabilité de Ei sachant

Figure 3. Le théorème de Bayes.

Solution. Avec la notation de l’exemple 4, la probabilité recherchée est simplement la probabilité

A = l’événement ≪ l’individu choisi est porteur du virus ≫,

P[A] = 0.001 et P[Ac ] = 0.999,

Le théorème de Bayes nous donne donc

≪ obtenir un six au premier lancer ≫ et si B dénote l’événement ≪ obtenir un quatre au deuxième

Définition provisoire d’indépendance de deux événements : Soit A et B, des événements

P[A|B] = P[A] et P[B|A] = P[B].