Vous êtes sur la page 1sur 210

STT-4700

Hiver 2021

STT-4700
Processus aléatoires
Hiver 2021

Claude Bélisle
Professeur titulaire
Département de mathématiques et de statistique
Université Laval
belisle@mat.ulaval.ca

© Claude Bélisle, 2021

Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Avant-propos

Cet ouvrage est utilisé comme manuel de référence pour le cours STT-4700 Processus aléatoires of-
fert par le Département de mathématiques et de statistique de l’Université Laval. Ce cours s’adresse
principalement aux étudiants des programmes de baccalauréat en mathématiques, de baccalauréat
en statistique et de baccalauréat intégré en économie et mathématiques. Il est normalement offert à
la session d’hiver. Le préalable pour le cours STT-4700 Processus aléatoires est le cours STT-1500
Probabilités.

Pour réussir le cours STT-4700, il faut


(a) avoir réussi le cours STT-1500 Probabilités,
(b) avoir réussi un cours de calcul différentiel et intégral dans Rn ,
(c) être prêt à travailler fort,
(d) avoir une certaine maturité mathématique.

Claude Bélisle
Hiver 2021

i
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

ii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Table des matières

Avant-propos i

1 Probabilité conditionnelle et espérance conditionnelle 1


1.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 La règle de multiplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 La loi des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Le théorème de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Calcul de probabilités par conditionnement . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Calcul d’espérance par conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8 Calcul de variance par conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Quelques exemples de calculs par conditionnement . . . . . . . . . . . . . . . . . . . 17
1.10 Les exercices du chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Introduction à la théorie des


chaı̂nes de Markov à temps discret 25
2.1 Matrice stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Probabilités de transition d’ordre supérieur et
généralisations de la propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Distributions conjointes et distributions marginales . . . . . . . . . . . . . . . . . . . 35
2.5 La propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Communication entre états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8 Chaı̂nes irréductibles et apériodiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9 Récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10 Rérurrence positive et récurrence nulle . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.11 Les exercices du chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3 Marches aléatoires 57
3.1 La marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 La marche aléatoire sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3 La marche aléatoire sur {0, 1, 2, ..., m} . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 La marche aléatoire sur N0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5 Retour sur la marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Marche aléatoire sur un graphe simple connexe . . . . . . . . . . . . . . . . . . . . . 68
3.7 Les exercices du chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

iii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

4 Chaı̂nes de Markov à temps discret :


loi stationnaire et convergence 75
4.1 Loi stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Le théorème du renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3 Théorème de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.5 Annexe A : Démonstration du théorème de la section 4.2 . . . . . . . . . . . . . . . . 89
4.6 Annexe B : Démonstrations des théorèmes de la section 4.3 . . . . . . . . . . . . . . 91
4.7 Les exercices du chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5 Processus de branchement 97
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 L’espérance et la variance de Xn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3 La fonction génératrice des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.4 La probabilité de disparition de la population . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Quelques généralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.6 Les exercices du chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6 Processus de Poisson 117


6.1 La loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.2 La loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3 La loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4 Processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.5 La loi de (S1 , S2 , ..., Sn ) sachant N (t) = n . . . . . . . . . . . . . . . . . . . . . . . . 129
6.6 Superposition et décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.7 Processus de Poisson non homogène . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.8 Processus de Poisson composé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.9 Troisième définition de processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . 136
6.10 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.11 Les exercices du chapitre 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

7 Chaı̂nes de Markov à temps continu 157


7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.2 Processus de naissance et de mort . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.3 Temps de passage d’un processus de naissance et de mort . . . . . . . . . . . . . . . 161
7.4 Les Pij (t) d’un processus de naissances pur . . . . . . . . . . . . . . . . . . . . . . . 163
7.5 La matrice infinitésimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.6 L’équation de Chapman et Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.7 Les équations différentielles de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 170
7.8 Solution matricielle de l’équation différentielle de Kolmogorov . . . . . . . . . . . . . 174
7.9 Distribution stationnaire et convergence . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.10 Les exercices du chapitre 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

8 Le mouvement brownien 187


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.2 Le distribution conditionnelle de Xs sachant Xt . . . . . . . . . . . . . . . . . . . . . 189
8.3 Première visite à l’ensemble {a, b} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.4 Première visite au point y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

iv
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.5 Le maximum du mouvement brownien sur [0, t] . . . . . . . . . . . . . . . . . . . . . 193


8.6 Transformations du mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . 193
8.7 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.8 Le mouvement brownien avec dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
8.9 Le mouvement brownien géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
8.10 Les exercices du chapitre 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

v
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 1

Probabilité conditionnelle et
espérance conditionnelle

1.1 Probabilité conditionnelle


La notion de probabilité conditionnelle est une des notions les plus importantes en théorie des
probabilités. Avant de l’introduire de façon formelle, considérons un exemple illustratif. Je lance
une paire de dés. Quelle est la probabilité que j’obtienne au moins une fois la valeur six ? Pour
résoudre ce problème élémentaire, il suffit d’observer que
• l’expérience aléatoire ≪ lancer une paire de dés ≫ donne lieu à 36 résultats possibles ;
• ces 36 résultats sont équiprobables : ils ont tous la même probabilité de survenir ;
• parmi ces 36 résultats, il y en a 11 pour lesquels on obtient au moins un six.

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)


(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

La réponse est donc 11/36. Maintenant, je lance les dés et je vous annonce que j’ai obtenu un total
égal à 8. Étant donnée cette information, quelle est la probabilité que j’aie obtenu au moins une
fois la valeur six ? Pour résoudre ce problème, on note d’abord qu’il y a 5 résultats possibles pour
lesquels le total est égal à 8. Ce sont les 5 résultats suivants :

(2, 6) (3, 5) (4, 4) (5, 3) (6, 2)

Parmi ces 5 résultats possibles, il y en a 2 pour lesquels il y a un six : le résultat (2, 6) et le résultat
(6, 2). La réponse est donc 2/5. Examinons notre démarche d’un peu plus près. Posons

A = l’événement ≪ obtenir au moins un six ≫


= {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6), (6, 5), (6, 4), (6, 3), (6, 2), (6, 1)},

B = l’événement ≪ le total obtenu est 8 ≫


= {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)},

1
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

et notons que
A ∩ B = {(2, 6), (6, 2)}.
Notre réponse 2/5 peut donc être écrite sous la forme
2 2/36 P[A ∩ B]
= = .
5 5/36 P[B]
Cet exemple motive la définition suivante :

Définition de probabilité conditionnelle. Soit E, une expérience aléatoire avec ensemble de


résultats possibles Ω (parfois appelé l’ensemble fondamental). Soit A et B, des événements. Sup-
posons que P[B] > 0. La probabilité conditionnelle de A sachant B, dénotée P[A|B], est définie par
l’équation
P[A ∩ B]
P[A|B] = .
P[B]

La figure 1 illustre cette définition. Sachant que l’événement B s’est réalisé, la probabilité que
l’événement A se soit réalisé est égale à la probabilité de l’intersection A ∩ B (région ombragée)
divisée par la probabilité de B (région encerclée par une ligne épaisse).

Figure 1. La probabilité conditionnelle de A sachant B.

Le résultat suivant est facile à démontrer.

Théorème. Soit B, un événement tel que P[B] > 0. Alors

1. Pour tout événement A on a 0 ≤ P[A|B] ≤ 1.


2. P[∅|B] = 0 et P[Ω|B] = 1.
3a. Si A1 , A2 , ...An sont des événements mutuellement exclusifs, alors
n
X
P [∪ni=1 Ai | B] = P[Ai |B].
i=1

3b. Si A1 , A2 , A3 , ... sont des événements mutuellement exclusifs, alors



X
P [∪∞
i=1 Ai | B] = P[Ai |B].
i=1

On reconnaı̂t ici les trois axiomes de Kolmogorov. Ce théorème nous dit donc que si on fixe B, alors
la fonction qui associe à chaque événement A la probabilité conditionnelle P[A|B] est une mesure
de probabilité sur Ω. Il s’ensuit que toutes les propriétés usuelles des probabilités sont également
valides pour les probabilités conditionnelles. Par exemple, on a

2
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

• P[A|B] = 1 − P[Ac |B],


• P[C ∪ D|B] = P[C|B] + P[D|B] − P[C ∩ D|B],
• C ⊂ D ⇒ P[C|B] ≤ P[D|B].

1.2 La règle de multiplication


Dans certains problèmes, les probabilités P[A ∩ B] et P[B] sont ou bien données ou bien faciles à
calculer. On peut alors utiliser la définition

P[A ∩ B]
P[A|B] =
P[B]

pour calculer la probabilité conditionnelle P[A|B]. Mais souvent ce sont la probabilité conditionnelle
P[A|B] et la probabilité P[B] qui sont ou bien données ou bien faciles à calculer. On peut alors
calculer P[A ∩ B] à l’aide de la règle de multiplication :

P[A ∩ B] = P[A|B] P[B].

Les rôles de A et B étant symétriques dans l’expression P[A ∩ B], on peut aussi écrire la règle de
multiplication sous la forme
P[A ∩ B] = P[A] P[B|A]. (1.1)
Dans la pratique, ce sont les données du problème qui nous indiquent laquelle des deux équations
précédentes utiliser. Souvent il y a un ordre chronologique qui dicte notre choix.

Exemple 1. Un panier contient cinq boules noires et trois boules blanches. On tire deux boules
au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir une boule noire au
premier tirage et une boule blanche au deuxième ?

Solution. Si on pose

A = l’événement ≪ obtenir une boule noire au premier tirage ≫


B = l’événement ≪ obtenir une boule blanche au deuxième tirage ≫

alors la probabilité désirée est simplement P[A ∩ B]. Une application de la règle de multiplication
nous donne
5 3 15
P[A ∩ B] = P[A] P[B|A] = × = .
8 7 56

Une généralisation élémentaire de la règle de multiplication nous permet de traiter les intersections
de plus de deux événements. Considérons par exemple le cas d’une intersection de trois événements,
disons A ∩ B ∩ C. En conditionnant sur A ∩ B on obtient

P[A ∩ B ∩ C] = P[A ∩ B] P[C |A ∩ B]

et en conditionnant sur A on obtient

P[A ∩ B] = P[A] P[B|A].

3
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

En combinant ces deux dernières équations, on obtient la règle de multiplication pour l’intersection
de trois événements :
P[A ∩ B ∩ C] = P[A] P[B|A] P[C |A ∩ B].
De la même façon on peut traiter le cas général :

La règle de multiplication :

P[E1 ∩ · · · ∩ En ] = P[E1 ] P[E2 |E1 ] P[E3 |E1 ∩ E2 ] · · · P[En |E1 ∩ · · · ∩ En−1 ].

On peut bien sûr réécrire cette dernière équation sous la forme


n
Y
P[∩nk=1 Ek ] = P[Ek | ∩k−1
i=1 Ei ]
k=1

avec la convention que ∩0i=1 Ei = Ω, de sorte que le premier terme dans le produit ci-dessus est
P[E1 | ∩0i=1 Ei ] = P[E1 |Ω] = P[E1 ].

Exemple 2. Un panier contient cinq boules bleues, six boules blanches et sept boules rouges. On
tire quatre boules au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir
quatre boules de la même couleur ?

Solution. Si on pose

H = l’événement ≪ obtenir 4 boules de la même couleur ≫


A = l’événement ≪ obtenir 4 boules bleues ≫
B = l’événement ≪ obtenir 4 boules blanches ≫
C = l’événement ≪ obtenir 4 boules rouges ≫,

alors on a H = A ∪ B ∪ C. Les événements A, B, et C étant mutuellement exclusifs, on obtient

P[H] = P[A ∪ B ∪ C] = P[A] + P[B] + P[C].

La règle de multiplication nous donne


5 4 3 2 1
P[A] = × × × = ,
18 17 16 15 612
6 5 4 3 3
P[B] = × × × = ,
18 17 16 15 612
7 6 5 4 7
P[C] = × × × = .
18 17 16 15 612
On obtient donc
1 3 7 11
P[H] = + + = .
612 612 612 612

4
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

1.3 La loi des probabilités totales


Voici un exemple pour illustrer le résultat de la présente section.

Exemple 3. Dans l’entrepôt d’une certaine usine de fabrication de clous, 50% des clous ont été
fabriqués par la machine I, 30% par la machine II et 20% par la machine III. Parmi les clous
fabriqués par la machine I, 3% sont défectueux. Parmi ceux fabriqués par la machine II, 5% sont
défectueux et parmi ceux fabriqués par la machine III, 8% sont défectueux. Quelle est la proportion
de clous défectueux dans l’entrepôt de cette usine ? Autrement dit, si on choisit un clou au hasard
dans l’entrepôt, quelle est la probabilité d’obtenir un clou défectueux ?

Solution. Pour résoudre ce problème, posons

A = l’événement ≪ le clou est défectueux ≫,


E1 = l’événement ≪ le clou provient de la machine I ≫,
E2 = l’événement ≪ le clou provient de la machine II ≫,
E3 = l’événement ≪ le clou provient de la machine III ≫.

Les informations qui nous sont données dans l’énoncé du problème se traduisent alors de la façon
suivante :

P[E1 ] = 0.50 P[A|E1 ] = 0.03


P[E2 ] = 0.30 P[A|E2 ] = 0.05
P[E3 ] = 0.20 P[A|E3 ] = 0.08.

On doit calculer P[A]. On obtient

P[A] = P[A ∩ Ω]

= P[A ∩ (E1 ∪ E2 ∪ E3 )]

= P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]

= P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]

= P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]


3 50 5 30 8 20
= + + = 0.0460.
100 100 100 100 100 100

Dans cette série d’équations, on a d’abord utilisé le fait que les événements E1 , E2 et E3 sont
exhaustifs, c’est-à-dire E1 ∪ E2 ∪ E3 = Ω. On a donc A = A ∩ Ω = A ∩ (E1 ∪ E2 ∪ E3 ) =
(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) et donc P[A] = P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]. L’égalité
suivante vient du fait que les événements E1 , E2 et E3 sont mutuellement exclusifs, c’est-à-dire
E1 ∩ E2 = E2 ∩ E3 = E1 ∩ E3 = ∅. Il s’ensuit que les événements A ∩ E1 , A ∩ E2 et A ∩ E3 sont
aussi des événements mutuellement exclusifs et le troisième axiome de Kolmogorov nous donne
P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )] = P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]. Pour l’égalité suivante, on a
simplement utilisé la règle de multiplication. Enfin, pour terminer le calcul on a simplement utilisé

5
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

les informations contenues dans l’énoncé du problème. Ce type de problème est souvent rencontré
en pratique et l’équation

P[A] = P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

est un cas particulier du résultat suivant :

La loi des probabilités totales : Si E1 , E2 , ..., En , des événements mutuellement exclusifs et


exhaustifs, alors, pour tout événement A, on a
n
X
P[A] = P[A|Ej ]P[Ej ].
j=1

Rappelons que E1 , E2 , ..., En sont des événements mutuellement exclusifs s’ils sont disjoints deux à
deux, c’est-à-dire si on a Ei ∩ Ej = ∅ pour tout i 6= j. Rappelons aussi que E1 , E2 , ..., En sont des
événements exhaustifs si on a E1 ∪ E2 ∪ · · · ∪ En = Ω. Dire que E1 , E2 , ..., En sont des événements
mutuellement exclusifs et exhaustifs est équivalent à dire que lorsque notre expérience aléatoire
sera réalisée, un et un seul des événements E1 , E2 , ..., En se réalisera. En langage ensembliste, on
dit que les ensembles E1 , E2 , ..., En forment une partition de l’ensemble Ω.

Le diagramme de Venn de la figure 2 illustre la loi des probabilités totales dans le cas particulier
où l’ensemble Ω est partitionné en cinq morceaux.

Figure 2. La loi des probabilités totales.

La loi des probabilités totales est également valide dans le cas où on est en présence d’une col-
lection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs. Voici un exemple
élémentaire pour illustrer ce cas.

Exemple 4. On lance une pièce de monnaie jusqu’à ce qu’on obtienne une pile. Puis, on lance
un dé un nombre de fois égal au nombre de fois qu’on a lancé la pièce de monnaie. Quelle est la
probabilité d’obtenir au moins un six avec le dé ?

Solution. Posons

A = l’événement ≪ obtenir au moins un six avec le dé ≫

et pour n = 1, 2, 3, ... posons

En = l’événement ≪ la première pile survient au ne lancer de la pièce ≫.

D’une part on a P[En ] = 1/2n pour chaque n ≥ 1. D’autre part on a


 n
c 5
P[A|En ] = 1 − P[A |En ] = 1 −
6

6
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

pour chaque n ≥ 1. Les événements E1 , E2 , E3 , ... étant mutuellement exclusifs et exhaustifs, on


peut utiliser la loi de probabilités totales. On obtient

X
P[A] = P[A|En ] P[En ]
n=1
∞  n 
X 5 1
= 1−
6 2n
n=1
∞  n ∞  
X 1 X 5 n 5 2
= − =1− = .
n=1
2 n=1
12 7 7
Ici, on a utilisé le fait bien connu que voici concernant les séries géométriques :

X r
rn = pour tout − 1 < r < 1.
1−r
n=1

1.4 Le théorème de Bayes


Exemple 5. Considérons à nouveau l’exemple 3. On obtient un clou provenant de l’entrepôt de
l’usine. On note que ce clou est défectueux. Sachant qu’il est défectueux, quelle est la probabilité
que le clou ait été fabriqué par la machine I ?

Solution. Si on utilise la notation introduite dans la solution de l’exemple 3, la probabilité condi-


tionnelle désirée est simplement P[E1 |A]. Pour calculer cette probabilité conditionnelle, on peut
procéder comme suit :
P[E1 ∩ A]
P[E1 |A] =
P[A]

P[A|E1 ] P[E1 ]
=
P[A]

P[A|E1 ] P[E1 ]
=
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

(0.03)(0.50)
=
(0.03)(0.50) + (0.05)(0.30) + (0.08)(0.20)
15
= ≈ 0.3261.
46

Dans ce calcul, la première égalité est simplement la définition de probabilité conditionnelle. Pour
la deuxième égalité, on a utilisé la règle de multiplication en conditionnant sur E1 . Enfin, pour la
troisième égalité on a utilisé la loi des probabilités totales.

De la même façon on peut calculer P[E2 |A] et P[E3 |A]. On obtient alors, pour i ∈ {1, 2, 3},
P[A|Ei ] P[Ei ]
P[Ei |A] = .
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]

7
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Ce type de problème est souvent rencontré en pratique et l’équation précédente est un cas particulier
du théorème suivant.

Le théorème de Bayes : Soit E1 , E2 , ..., En , des événements mutuellement exclusifs et exhaustifs.


Soit A, un événement tel que P[A] > 0. Alors, pour tout i ∈ {1, 2, ..., n},
P[A|Ei ]P[Ei ]
P[Ei |A] = Pn .
j=1 P[A|Ej ]P[Ej ]

Le diagramme de Venn de la figure 3 illustre le théorème de Bayes. La probabilité de Ei sachant


A est égale à la probabilité du morceaux ombragé foncé divisée par la somme des probabilités des
morceaux ombragés.

Figure 3. Le théorème de Bayes.

Tout comme la loi des probabilités totales, le théorème de Bayes est également valide dans le cas
où on a une collection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs.

Exemple 6. On a réalisé l’expérience décrite à l’exemple 4 et on vous informe qu’on n’a obtenu
aucun six avec le dé. Quelle est la probabilité que le dé ait été lancé plus de 4 fois ?

Solution. Avec la notation de l’exemple 4, la probabilité recherchée est simplement la probabilité


conditionnelle P[∪∞ c
i=5 Ei |A ]. On obtient donc

" ∞
# ∞
[ X
c
P Ei A = P[Ei |Ac ]

i=5 i=5


X P[Ac |Ei ]P[Ei ]
= P∞ c
i=5 j=1 P[A |Ej ]P[Ej ]

∞ 
5 i 1
X
6 2i
= P∞ 5  j 1
i=5 j=1 6 2j
P∞ 5 i
  4
i=5 12 5
=  = ≈ 0.0301.
P∞ 5 j 12
j=1 12

8
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le théorème de Bayes nous donne parfois des résultats qui peuvent sembler surprenants à première
vue. Voici un exemple pour illustrer ce phénomène.

Exemple 7. Dans une certaine population, un individu sur 1000 est porteur d’un certain virus,
disons le virus V. Les porteurs du virus ne présentent aucun symptôme perceptible. Un test sanguin
a été développé pour détecter la présence du virus chez ces individus. Le test a les propriétés
suivantes. Chez les individus qui portent le virus, le test est positif (c’est-à-dire qu’il indique la
présence du virus) avec probabilité 0.98 et chez les individus qui ne portent pas le virus, le test est
négatif (c’est-à-dire qu’il indique l’absence du virus) avec probabilité 0.97. On choisit un individu
au hasard dans cette population et on lui administre le test. Le résultat du test est positif. Quelle
est la probabilité que cet individu soit porteur du virus ?

Solution. On veut calculer la probabilité qu’un individu choisi au hasard soit porteur du virus
sachant que le résultat de son test sanguin est positif. Autrement dit, on veut calculer P[A|B], où

A = l’événement ≪ l’individu choisi est porteur du virus ≫,


B = l’événement ≪ le résultat du test sanguin est positif ≫.

On a

P[A] = 0.001 et P[Ac ] = 0.999,


P[B|A] = 0.98 et P[B c |A] = 0.02,
P[B c |Ac ] = 0.97 et P[B|Ac ] = 0.03.

Le théorème de Bayes nous donne donc

P[B|A] P[A]
P[A|B] =
P[B|A] P[A] + P[B|Ac ] P[Ac ]

(0.98)(0.001)
= ≈ 0.0317.
(0.98)(0.001) + (0.03)(0.999)

À première vue ce résultat peut sembler surprenant. Après tout, le test sanguin est très précis :
le taux d’erreur est seulement 2% chez les gens qui ont le virus et seulement 3% chez les gens
qui n’ont pas le virus. Lorsque le résultat du test est positif, on s’attend naı̈vement à ce que
l’individu soit porteur du virus. Toutefois, l’élément de surprise disparaı̂t quelque peu lorsqu’on
fait le raisonnement suivant. Imaginez qu’on administre le test sanguin à 100 000 individus. Parmi
ces 100 000 individus, on s’attend à ce qu’il y en ait environ 100 qui soient porteurs du virus et
99 900 qui ne le soient pas. Parmi les 100 porteurs du virus, on s’attend à ce qu’il y en ait 98
pour qui le test sera positif et 2 pour qui il sera négatif. Parmi les 99 900 individus qui ne sont pas
porteurs du virus, on s’attend à ce qu’il y en ait 2 997 pour qui le test sera positif et 96 903 pour qui
il sera négatif. On s’attend donc à avoir 98 + 2 997 = 3 095 individus pour qui le test sera positif,
dont seulement 98 qui seront vraiment porteurs du virus.

1.5 Indépendance
Parfois, le fait de savoir qu’un événement A s’est réalisé ne change en rien la probabilité que
l’événement B se réalise. Dans l’exemple où on lance un dé deux fois, si A dénote l’événement

9
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

≪ obtenir un six au premier lancer ≫ et si B dénote l’événement ≪ obtenir un quatre au deuxième


lancer ≫, alors il est intuitivement clair que P[B] = P[B|A] ; le fait de savoir qu’on a obtenu un six
au premier lancer ne change en rien la probabilité d’obtenir un quatre au deuxième lancer. Dans cet
exemple, on a aussi P[A] = P[A|B] ; si j’ai lancé le dé deux fois et si je vous informe que j’ai obtenu
un quatre au deuxième lancer, pour vous la probabilité d’un six au premier lancer est toujours la
même. Dans un tel scénario, on dit que les événements A et B sont des événements indépendants.
Cet exemple motive la définition suivante.

Définition provisoire d’indépendance de deux événements : Soit A et B, des événements


tels que P[A] > 0 et P[B] > 0. On dit que A et B sont indépendants si

P[A|B] = P[A] et P[B|A] = P[B].

Remarque : Il est facile de montrer que si A et B sont des événements tels que P[A] > 0 et
P[B] > 0, alors P[A|B] = P[A] si et seulement si P[B|A] = P[B].

Cette définition provisoire d’indépendance est adéquate pour la plupart des applications. Cepen-
dant, les mathématiciens préfèrent la définition suivante. Elle ne fait pas appel à la notion de
probabilité conditionnelle et elle ne se limite pas aux événements de probabilités strictement posi-
tives. De plus, elle se prête mieux aux généralisations.

Définition d’indépendance de deux événements :


Les événements A et B sont dits indépendants si on a

P[A ∩ B] = P[A] P[B]. (1.2)

L’équation (1.2) n’est rien d’autre que notre règle de multiplication (1.1) avec P[B|A] remplacé par
P[B]. Il est facile de vérifier que si A et B sont des événements tels que P[A] > 0 et P[B] > 0, alors
les deux définitions précédentes sont équivalentes : si A et B sont des événements indépendants
au sens de la première définition alors ils sont également indépendants au sens de la deuxième
définition et, vice versa, s’ils sont indépendants au sens de la deuxième définition alors ils sont aussi
indépendants au sens de la première définition.

Pour illustrer le concept d’indépendance, considérons l’expérience aléatoire qui consiste à lancer un
dé deux fois. Pour des raisons de symétrie physique, le modèle probabiliste approprié pour cette
expérience est le modèle équiprobable sur l’ensemble fondamental

Ω = {(i, j); i ∈ {1, 2, 3, 4, 5, 6}, j ∈ {1, 2, 3, 4, 5, 6}}.

Considérons maintenant les événements suivants :

A = l’événement ≪ obtenir un 3 au premier lancer ≫


= {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)},
B = l’événement ≪ obtenir un 5 au deuxième lancer ≫
= {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}.

Si la notion mathématique d’indépendance est cohérente avec la notion intuitive d’indépendance,


les événements A et B devraient être indépendants au sens mathématique puisque le résultat du
premier lancer du dé n’affecte en rien le deuxième lancer. Un petit calcul permet de vérifier que A

10
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

et B sont bel et bien indépendants au sens de la définition mathématique d’indépendance. D’une


part on a

P[A] = P[{(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}] = 6/36 = 1/6,
P[B] = P[{(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}] = 6/36 = 1/6.

Donc on obtient P[A]P[B] = 1/36. D’autre part on a

P[A ∩ B] = P[{(3, 5)}] = 1/36.

On a donc P[A ∩ B] = P[A]P[B]. Autrement dit, les événements A et B sont indépendants au sens
de la définition mathématique d’indépendance donnée ci-dessus.

Dans la grande majorité des exemples que nous rencontrons en pratique, l’indépendance des évé-
nements A et B est une conséquence immédiate de l’énoncé du problème. Par exemple, si on dit
qu’on fait deux tirages avec remise à partir d’un panier contenant 4 boules rouges et 7 boules noires
et si on s’intéresse aux événements

A = l’événement ≪ obtenir une boule rouge au premier tirage ≫,


B = l’événement ≪ obtenir une boule noire au deuxième tirage ≫,

alors il est clair que A et B sont indépendants. Toutefois, dans certains cas il faut avoir recours à
la définition pour vérifier si deux événements sont indépendants. L’exemple suivant illustre cette
situation.

Exemple 8. On lance un dé à deux reprises et on considère les événements suivants :

A = l’événement ≪ la somme des deux lancers est égale à 5 ≫,


B = l’événement ≪ la somme des deux lancers est égale à 7 ≫,
C = l’événement ≪ obtenir un 4 au deuxième lancer ≫.

Les événements A et C sont-ils indépendants ? Les événements B et C sont-ils indépendants ?

Solution. Ici on obtient P[A] = 1/9, P[B] = 1/6 et P[C] = 1/6. On obtient aussi P[A∩C] = 1/36 et
P[B ∩ C] = 1/36. On conclut que A et C ne sont pas indépendants (puisque P[A ∩ C] 6= P[A] P[C])
et que B et C sont indépendants (puisque P[B ∩ C] = P[B] P[C]).

Dans le cas de trois événements, le concept d’indépendance se généralise de la façon suivante.

Indépendance de trois événements : Les événements A, B et C sont dit indépendants (on dit
parfois mutuellement indépendants) si les quatre conditions suivantes sont satisfaites :

P[A ∩ B] = P[A] P[B],


P[A ∩ C] = P[A] P[C],
P[B ∩ C] = P[B] P[C],
P[A ∩ B ∩ C] = P[A] P[B] P[C].

Lorsque seules les trois premières conditions sont satisfaites, on dit que les événements A, B et C
sont indépendants deux à deux. Des événements peuvent être indépendants deux à deux sans tou-
tefois être mutuellement indépendants. Voici un exemple élémentaire pour illustrer ce phénomène.

11
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On lance une pièce de monnaie à deux reprise et on pose

A = l’événement ≪ obtenir pile au premier lancer ≫,


B = l’événement ≪ obtenir pile au deuxième lancer ≫,
C = l’événement ≪ obtenir deux résultats identiques ≫.

À l’aide des définitions précédentes, il est facile de vérifier que les événements A, B et C sont
indépendants deux à deux mais ne sont pas mutuellement indépendants.

On peut aussi parler de collection d’événements indépendants :

Collection d’événements indépendants. Soit B = {Bj ; j ∈ J}, une collection quelconque


d’événements. Ces événements sont dit indépendants (on dit aussi mutuellement indépendants) si
pour tout entier positif n et pour tout choix de j1 , j2 , ..., jn ∈ J, avec jh 6= jℓ pour tout h 6= ℓ, on a
" n # n
\ Y
P Bj k = P[Bjk ].
k=1 k=1

Dans le cas où B = {A, B}, la définition générale donnée ci-dessus est équivalente à la définition
d’indépendance de deux événements donnée à la page 10. Dans le cas où B = {A, B, C}, la définition
générale donnée ci-dessus est équivalente à la définition d’indépendance de trois événements donnée
à la page précédente.

Le résultat suivant est très utile en pratique.

Principe de préservation de l’indédendance :


Si E1 , E2 , ..., Em , Em+1 , Em+2 , ..., Em+n sont des événements indépendants, si A est un événement
obtenu à partir des événements E1 , E2 , ..., Em à l’aide des opérations ensemblistes usuelles (c’est-
à-dire l’union, l’intersection et la complémentation) et si B est un événement obtenu à partir des
événements Em+1 , Em+2 , ..., Em+n également à l’aide des opérations ensemblistes usuelles, alors les
événements A et B sont indépendants.
Plus généralement, si E1,1 , E1,2 , ..., E1,n1 , E2,1 , E2,2 , ..., E2,n2 , ..., Ek,1 , Ek,2 , ..., Ek,nk sont des événe-
ments indépendants et si, pour chaque 1 ≤ j ≤ k, l’événement Aj est obtenu à partir des événements
Ej,1 , Ej,2 , ..., Ej,nj à l’aide des opérations ensemblistes usuelles, alors les événements A1 , A2 , ..., Ak
sont des événements indépendants.

Voici quelques exemples pour illustrer ce principe :

• Si A et B sont indépendants, alors Ac et B sont indépendants.


• Si A et B sont indépendants, alors Ac et B c sont indépendants.
• Si A, B et C sont indépendants, alors A ∩ B et C sont indépendants.
• Si A, B, C et D sont indépendants, alors A ∩ B et C ∪ D sont indépendants.
• Si B1 , B2 , ..., Bℓ sont indépendants, alors B1c , B2c , ..., Bℓc sont indépendants.

12
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Ce dernier exemple est très utile lorsqu’on veut calculer la probabilité qu’au moins un événement,
parmi un groupe de plusieurs événements indépendants, se réalise. Supposons par exemple que
A, B, C et D soient des événements indépendants et que

P[A] = 0.40, P[B] = 0.50, P[C] = 0.40, et P[D] = 0.30.

L’ensemble A ∪ B ∪ C ∪ D représente alors l’événement ≪ au moins un des événements A, B, C et


D se réalise ≫. La probabilité désirée est donc P[A ∪ B ∪ C ∪ D]. On peut calculer cette probabilité
à l’aide de la formule de Poincaré (aussi appelée formule d’inclusion-exclusion) :

P[A ∪ B ∪ C ∪ D] = P[A] + P[B] + P[C] + P[D]


− (P[A ∩ B] + P[A ∩ C] + P[A ∩ D] + P[B ∩ C] + P[B ∩ D] + P[C ∩ D])
+ (P[A ∩ B ∩ C] + P[A ∩ B ∩ D] + P[A ∩ C ∩ D] + P[B ∩ C ∩ D])
−P[A ∩ B ∩ C ∩ D].

Les probabilités d’intersections apparaissant sur le côté droit de cette égalité peuvent toutes être
calculées en invoquant l’indépendance. Par exemple

P[A ∩ B ∩ D] = P[A] P[B] P[D] = (0.40)(0.50)(0.30) = 0.06.

On peut aussi calculer P[A ∪ B ∪ C ∪ D] en utilisant la propriété de complémentation, la formule


de De Moivre, et l’indépendance de Ac , B c , C c et D c :

P[A ∪ B ∪ C ∪ D] = 1 − P[(A ∪ B ∪ C ∪ D)c ]


= 1 − P[Ac ∩ B c ∩ C c ∩ D c ]
= 1 − P[Ac ] P[B c ] P[C c ] P[D c ]
= 1 − (1 − P[A]) (1 − P[B]) (1 − P[C]) (1 − P[D])
= 1 − (0.60)(0.50)(0.60)(0.70) = 1 − 0.126 = 0.874.

1.6 Calcul de probabilités par conditionnement


Voici un exemple pour illustrer le résultat de la présente section.

Exemple 9. On considère une boutique de souvenir du Vieux Québec et on fait les hypothèses
suivantes. Chaque fois qu’un touriste entre dans la boutique, la probabilité qu’il fasse un achat est
p. Le nombre de client qui entreront dans la boutique durant la prochaine heure est une variable
aléatoire avec loi de Poisson de moyenne ν. En supposant indépendance d’un client à l’autre, calculez
la probabilité qu’aucun client ne fera un achat durant la prochaine heure.

Solution. On pose

A = l’événement ≪ aucun client ne fait un achat durant la prochaine heure ≫


X = le nombre de client qui entreront dans la boutique durant la prochaine heure

On veut calculer P[A]. On y arrive facilement grâce à la loi des probabilités totales. Il suffit de
considérer la partition engendrée par la variable aléatoire X, c’est-à-dire la partition {E0 , E1 , E2 , ...},
avec En = {X = n}. On obtient alors

13
Claude Bélisle
Université Laval
STT-4700
Hiver 2021


X
P[A] = P[A|En ] P[En ]
n=0
X∞
= P[A|X = n] P[X = n]
n=0
X∞
= P[A|X = n] pX (n)
n=0

où pX (n) dénote la fonction de masse de la variable X. Dans le présent exemple on a


e−ν ν n
pX (n) = pour n = 0, 1, 2, 3, ...
n!
et on note que
P[A|X = n] = (1 − p)n pour n = 0, 1, 2, 3, ...
On obtient donc

X e−ν ν n
P[A] = (1 − p)n = e−νp .
n!
n=0

De façon plus générale, si X est une variable aléatoire discrète alors pour tout événement A on a
X
P[A] = P[A|X = x] pX (x). (1.3)
x

Dans cette dernière équation, la somme est prise sur l’ensemble de toutes les valeurs possibles de la
variable X. On dit alors qu’on calcule la probabilité de A en conditionnant sur la variable aléatoire
X. Dans le cas où X est une variable aléatoire de type continu avec densité fX (x), l’équation
précédente prend la forme suivante :
Z ∞
P[A] = P[A|X = x] fX (x) dx. (1.4)
−∞

Remarque 1. L’équation (1.4) demande des explications ! Quand X est une variable aléatoire de
type continue, on a P[X = x] = 0 pour tout x ∈ R. À la section 1 du présent chapitre, nous avons
défini la probabilité conditionnelle P[A | B] seulement pour les événements B pour lesquels on a
P[B] > 0. Mais alors, que signifie P[A|X = x] ? Sans aller plus en profondeur, voici une réponse
approprié pour nos besoins. On peut définir la probabilité conditionnelle P[A|X = x] avec l’équation
suivante :
P[A|X = x] = lim P[A | x − ǫ < X < x + ǫ].
ǫ↓0

Remarque 2. L’équation (1.3) est un cas spécial de la loi des probabilités totales. Mais comment
démontre-t-on l’équation (1.4) ? Une approche possible consiste à obtenir l’équation (1.4) à partir
de l’équation (1.3) par un simple passage à la limite. Pour alléger la présentation, considérons le
cas où X est une variable aléatoire non négative avec densité fX (x). Dans ce cas, pour tout entier
positif n la loi des probabilités totales nous donne

X
P[A] = P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
k=0

14
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On obtient donc

X
P[A] = lim P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
n→∞
k=0

On peut montrer que la limite qui apparait dans cette dernière équation est égale à l’intégrale qui
apparait dans l’équation (1.4). Les détails ne seront pas présentés ici.

Remarque 3. Rappelons que l’espérance d’une fonction d’une variable aléatoire X, disons la
fonction g(X), peut être calculer avec l’aide de la formule de changement de variable :
( P
x g(x) pX (x) dans le cas discret,
E[g(X)] = R∞
−∞ g(x) fX (x) dx dans le cas continu.

Les équations (1.3) et (1.4) peuvent donc être écrite de façon compacte sous la forme suivante :

P[A] = E[ P[A | X] ]. (1.5)

Ici P[A | X] est, par définition, la fonction g(x) = P[A | X = x] évaluée à x = X. Autrement
dit, P[A | X] est la variable aléatoire g(X), où g est la fonction définie par g(x) = P[A | X = x].
L’équation (1.5) a l’avantage d’être compacte. De plus elle couvre aussi bien le cas discret (équation
(1.3)) que le cas continu (équation (1.4)). Pour les débutants il est néanmoins recommandé de
travailler avec les équations (1.3) et (1.4) plutôt que l’équation (1.5).

Remarque 4. Un autre avantage de l’équation (1.5) est qu’elle demeure valide même dans le cas
où la variable aléatoire X n’est ni de type discrète, ni de type continue. Ceci dit, dans le présent
document, on se limite au cas où la variable aléatoire X est ou bien de type discrète, ou bien de
type continue.

1.7 Calcul d’espérance par conditionnement


Supposons qu’on soit en présence de deux variables aléatoires, disons la variable X et la variable
Y , et supposons qu’on veuille calculer l’espérance de Y . Considérons le cas continu. Si on connaı̂t
la densité de Y , on peut procéder directement :
Z ∞
E[Y ] = y fY (y) dy.
−∞

Une autre approche consiste à faire un calcul direct à partir de la densité conjointe du couple
(X, Y ). On peut alors écrire
Z ∞Z ∞
E[Y ] = y fX, Y (x, y) dx dy
−∞ −∞
Z ∞Z ∞
= y fY |X = x (y) fX (x) dy dx
−∞ −∞
Z ∞ Z ∞  Z ∞
= y fY |X = x (y) dy fX (x) dx = E[Y |X = x] fX (x) dx.
−∞ −∞ −∞

15
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On peut faire un calcul semblable dans le cas discret. En résumé, on a donc


X
E[Y ] = E[Y |X = x] pX (x) dans le cas discret ; (1.6)
X ∈R
Z ∞
E[Y ] = E[Y |X = x] fX (x) dx dans le cas continu. (1.7)
−∞

Lorsqu’on utilise ces équations, on dit qu’on calcule l’espérance de Y en conditionnant sur la variable
aléatoire X.

Remarque 1. Si on utilise la notation E[Y |X] pour représenter la variable aléatoire g(X), où g(x)
est la fonction définie par
g(x) = E[Y |X = x],
alors les deux équations de calcul d’espérance par conditionnement peuvent être écrite sous la forme
compacte suivante :
E[Y ] = E[E[Y |X]]. (1.8)

Remarque 2. Pour arriver à l’équation (1.7), nous avons supposé que les variables aléatoires X et
Y possèdent une densité conjointe fX, Y (x, y). On peut montrer que l’équation (1.7) demeure valide
dans le cas où la distribution marginale de X est de type continue et celle de Y est de type discrète.
De même, pour l’équation (1.6) nous avons implicitement supposé que les variables aléatoires X
et Y possèdent une fonction de masse conjointe pX, Y (x, y). On peut montrer que l’équation (1.6)
demeure valide dans le cas où la distribution marginale de X est de type discrète et celle de Y est
de type continue.

Remarque 3. Les équations (1.6), (1.7) et (1.8) sont les analogues des équations (1.3), (1.4) et
(1.5). En fait, on peut dire que les équations (1.3), (1.4) et (1.5) sont des cas particuliers des
équations (1.6), (1.7) et (1.8). En effet, si on prend Y = 1A dans les équations (1.6), (1.7) et (1.8)
et si on utilise le fait que E[1A ] = P[A], alors on retrouve, dans l’ordre, les équations (1.3), (1.4) et
(1.5).

Remarque 4. Les équations (1.6), (1.7) et (1.8) sont bien sûr valide avec Y remplacé par une
fonction de Y . Par exemple, dans le cas continu on a, pour toute fonction h(y) pour laquelle
l’espérance E[h(Y )] existe,
Z ∞
E[h(Y )] = E[h(Y )|X = x] fX (x) dx
−∞

1.8 Calcul de variance par conditionnement


À la vue de l’équation (1.7), on pourrait penser que dans le cas continu on a
Z ∞
Var[Y ] = Var[Y |X = x] fX (x) dx.
−∞

Attention : cette équation ne tient pas ! Le calcul suivant nous donnera la bonne équation.

Pour faire un calcul de variance par conditionnement, on se ramène à des calculs d’espérances par
conditionnement et on utilise les résultats de la section précédente. Dans le cas continu, on obtient

16
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Var[Y ] = E[Y 2 ] − (E[Y ])2


Z ∞ Z ∞ 2
2
= E[Y |X = x] fX (x) dx − E[Y |X = x] fX (x) dx
−∞ −∞
Z ∞  Z ∞ 2
2
= Var[Y |X = x] + (E[Y |X = x]) fX (x) dx − E[Y |X = x] fX (x) dx .
−∞ −∞

On a donc
Z ∞ Z ∞ Z ∞ 2
2
Var[Y ] = Var[Y |X = x] fX (x) dx+ (E[Y |X = x]) fX (x) dx− E[Y |X = x] fX (x) dx .
−∞ −∞ −∞

Si on pose
h(x) = Var[Y |X = x] et g(x) = E[Y |X = x]
et si on écrit Var[Y |X] pour dénoter h(X) et E[Y |X] pour dénoter g(X) alors on obtient
Z ∞ Z ∞ Z ∞ 2
Var[Y ] = h(x) fX (x) dx + (g(x))2 fX (x) dx − g(x) fX (x) dx
−∞ −∞ −∞
2 2
= E[h(X)] + E[(g(X)) ] − (E[g(X)])
= E[h(X)] + Var[g(X)]
= E[Var[Y |X]] + Var[E[Y |X]].

On obtient le même résultat dans le cas discret. On a donc la formule suivante pour calculer la
variance de la variable Y en conditionnement sur la variable X :

Var[Y ] = E[Var[Y |X]] + Var[E[Y |X]]. (1.9)

1.9 Quelques exemples de calculs par conditionnement


Exemple 10.
Pour une certaine région en bordure d’un fleuve, à chaque année on observe

X = ≪ la quantité de pluie au printemps (en cm) ≫,


Y = ≪ les dommages causés par la crue des eaux (en milliers de dollars) ≫.

On suppose que E[Y |X = x] = c x2 et que X ∼ gamma(α, λ). On considère

A = l’événement ≪ il y a glissement de terrain causé par la crue des eaux ≫

et on suppose que
P[A|X = x] = 1 − e−bx .
On peut supposer que ces hypothèses de modélisation ont été justifiées de façon satisfaisante et que
les constantes positives α, λ, b et c peuvent être estimées à partir de données des années antérieures.

17
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Calcul de P[A] par conditionnement :


Z ∞
P[A] = P[A|X = x] fX (x) dx
Z0 ∞   λα
= 1 − e−bx xα−1 e−λx dx
0 Γ(α)
Z ∞ α
λ
= 1− xα−1 e−(b+λ)x dx
0 Γ(α)
Z ∞
λα (b + λ)α α−1 −(b+λ)x
= 1− x e dx
(b + λ)α 0 Γ(α)
 α
λ
= 1− .
b+λ

Calcul de E[Y ] par conditionnement :


Z ∞
E[Y ] = E[Y |X = x] fX (x) dx
0
Z ∞
λα
= c x2 xα−1 e−λx dx
0 Γ(α)
Z ∞
c Γ(α + 2) λα+2
= x(α+2)−1 e−λx dx
λ2 Γ(α) 0 Γ(α + 2)
c α(α + 1)
= .
λ2

Exemple 11.
On considère X1 , X2 , X3 , ... des variables aléatoires indépendantes et identiquement distribuées avec
moyenne µX et variance σX 2 . On sait que si n est un entier non négatif et si S = X + X + · · · + X ,
n 1 2 n
alors
2
E[Sn ] = nµX et Var[Sn ] = nσX .
On suppose maintenant que N est une variable aléatoire à valeurs entières non négatives avec
moyenne µN et variance σN2 , indépendantes des Xi . On s’intéresse à la variable aléatoire
N
X
SN = Xi .
i=1

Nous allons calculer E[SN ] et Var[SN ] en conditionnant sur N .

Calcul de E[SN ] :

X ∞
X
E[SN ] = E[SN |N = n] pN (n) = E[Sn |N = n] pN (n)
n=0 n=0
∞ ∞ ∞
!
X X X
= E[Sn ] pN (n) = nµX pN (n) = npN (n) µX = µN µX
n=0 n=0 n=0

18
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On peut aussi faire ce calcul avec l’aide de l’équation (1.8), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . L’équation (1.8) nous
donne donc
E[SN ] = E[E[SN |N ]] = E[N µX ] = µN µX .

Calcul de Var[SN ] : D’abord on écrit

Var[SN ] = E[(SN )2 ] − (E[SN ])2


= E[(SN )2 ] − (µN µX )2 = E[(SN )2 ] − µ2N µ2X ,

puis on calcule E[(SN )2 ] en conditionnant sur N :



X
2
E[(SN ) ] = E[(SN )2 |N = n] pN (n)
n=0
X∞
= E[(Sn )2 |N = n] pN (n)
n=0
X∞
= E[(Sn )2 ] pN (n)
n=0
X∞

= Var[Sn ] + (E[Sn ])2 pN (n)
n=0
X∞
2

= nσX + (nµX )2 pN (n)
n=0

! ∞
!
X X
2
= n pN (n) σX + n pN (n) µ2X
2

n=0 n=0
2
= µ N σX + E[N 2 ]µ2X .

En combinant ces deux derniers résultats, on obtient

Var[SN ] = E[(SN )2 ] − µ2N µ2X


2
= µ N σX + E[N 2 ]µ2X − µ2N µ2X
2

= µ N σX + E[N 2 ] − µ2N µ2X
2
= µ N σX + σN2 µ2X .

On peut aussi faire ce calcul avec l’aide de l’équation (1.9), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . De même, puisque
Var[SN |N = n] = nσX2 , on obtient Var[S |N ] = N σ 2 . L’équation (1.9) nous donne donc
N X

Var[SN ] = E[Var[SN |N ]] + Var[E[SN |N ]]


2 2
= E[N σX ] + Var[N µX ] = µN σX + σN2 µ2X .

En résumé, on a donc
2
E[SN ] = µN µX et Var[SN ] = µN σX + σN2 µ2X .

Exemple 12.

19
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On considère une séquence d’épreuves de Bernoulli avec probabilité de succès p. On pose


(
1 si on obtient un succès à la j e épreuve ;
Yj =
0 si on obtient un échec à la j e épreuve.

Les variables aléatoires Y1 , Y2 , Y3 , ... sont donc i.i.d. Bernoulli(p). On considère la variable aléatoire

N1 = min{j ≥ 0 : Yj = 1}

La variable N1 représente donc le temps du premier succès, c’est-à-dire le nombre d’épreuves


nécessaires pour obtenir notre premier succès. Nous allons calculer E[N1 ].

Méthode usuelle.

X ∞
X
E[N1 ] = n pN1 (n) = n (1 − p)n−1 p
n=1 n=1

X 1 1
= p n(1 − p)n−1 = p = .
p2 p
n=1

Pour faire ce calcul, il faut être familier avec la série géométrique



X 1
n r n−1 =
(1 − r)2
n=1

valide pour −1 < r < 1.

Méthode par conditionnement.


X
E[N1 ] = E[N1 |Y1 = k] P[Y1 = k]
k
= E[N1 |Y1 = 0] P[Y1 = 0] + E[N1 |Y1 = 1] P[Y1 = 1]
= (1 + E[N1 ]) (1 − p) + 1 p
= 1 + (1 − p) E[N1 ].

Pour comprendre la troisième égalité, on raisonne de la façon suivante. Si on obtient un échec à


la première épreuve, c’est-à-dire si Y1 = 0, alors on vient de gaspiller une unité de temps et on
recommence à zéro. Donc E[N1 |Y1 = 0] = 1 + E[N1 ]. Par ailleurs, si on obtient un succès à la
première épreuve, c’est-à-dire si Y1 = 1, alors on a N1 = 1 et donc E[N1 |Y1 = 1] = 1. On a donc
l’équation
E[N1 ] = 1 + (1 − p)E[N1 ].
On résout pour E[N1 ] et on obtient
1
E[N1 ] = .
p

Exemple 13.
On considère, comme à l’exemple précédent, une séquence d’épreuves de Bernoulli et on utilise la
même notation. Pour chaque entier positif k, on dénote par Nk le nombre d’épreuves nécessaires
pour obtenir pour la première fois k succès consécutifs. Nous allons calculer l’espérance de Nk . Pour

20
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

réussir à faire ce calcul, nous allons, en utilisant la technique de calcul d’espérance par condition-
nement, obtenir une formule générale permettant de calculer E[Nk ] à partir de E[Nk−1 ] pour tout
k ≥ 2. L’espérance de N1 étant connue (voir l’exercice précédent), nous pourrons ainsi obtenir, tour
à tour, E[N2 ], E[N3 ], etc.

D’abord on écrit X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ).

Puis, on calcule E[Nk |Nk−1 = ℓ] en conditionnant sur Yℓ+1 :


X
E[Nk |Nk−1 = ℓ] = E[Nk |Nk−1 = ℓ, Yℓ+1 = j] P[Yℓ+1 = j|Nk−1 = ℓ]
j
X
= E[Nk |Nk−1 = ℓ, Yℓ+1 = j] P[Yℓ+1 = j]
j
= E[Nk |Nk−1 = ℓ, Yℓ+1 = 1] p + E[Nk |Nk−1 = ℓ, Yℓ+1 = 0] (1 − p)
= (ℓ + 1) p + (ℓ + 1 + E[Nk ]) (1 − p)
= ℓ + 1 + (1 − p) E[Nk ].

On obtient donc
X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ)

X
= (ℓ + 1 + (1 − p) E[Nk ]) pNk−1 (ℓ)

= E[Nk−1 ] + 1 + (1 − p)E[Nk ].

On résout pour E[Nk ] et on obtient

1 E[Nk−1 ]
E[Nk ] = + pour k = 2, 3, 4, ...
p p

Combiné avec le fait que E[N1 ] = 1/p, ce résultat nous permet d’obtenir, pour k ≥ 1
1 1 1 1
E[Nk ] = + 2 + 3 + ··· + k.
p p p p
Les faits suivants ont été utilisés dans le calcul ci-dessus :
1. P[Yℓ+1 = j|Nk−1 = ℓ] = P[Yℓ+1 = j].
2. E[Nk |Nk−1 = ℓ, Yℓ+1 = 1] = ℓ + 1.
3. E[Nk |Nk−1 = ℓ, Yℓ+1 = 0] = ℓ + 1 + E[Nk ].
L’étudiant devrait pouvoir justifier ces faits.

21
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

1.10 Les exercices du chapitre 1

Numéro 1. Soit Ω, l’ensemble des résultats possibles d’une expérience aléatoire. Soit E et F ,
des événements mutuellement exclusifs et de probabilités strictement positives. On considère une
séquence de répétitions indépendantes de cette expérience aléatoire. Exprimez la probabilité que
l’événement E survienne avant l’événement F en termes des quantités P[E] et P[F ].

Numéro 2. On prend un jeu ordinaire de 52 cartes et on le sépare en quatre paquets de 13 cartes.


Calculez la probabilité que chacun des paquets contienne exactement un as.

Numéro 3. Si la réalisation de B augmente les chances que A se réalise, est-ce que la réalisation
de A augmente les chances que B se réalise ?

Numéro 4. Un panier contient n boules noires et r boules rouges. On tire une boule au hasard
et on note sa couleur. Puis on la remet dans le panier. On ajoute ensuite à ce panier a boules
additionnelles de la même couleur que celle qu’on vient de tirer. Le panier contient maintenant
n + r + a boules. On répète l’expérience : on tire une boule au hasard, puis on la remet dans le
panier avec à nouveau a boules additionnelles de la même couleur que celle qui vient d’être tirée.
Le panier contient maintenant n + r + 2a boules. On répète cette procédure une troisième fois, une
quatrième fois, etc.
(a) Au premier tirage, quelle est la probabilité d’obtenir une boule rouge ?
(b) Au deuxième tirage, quelle est la probabilité d’obtenir une boule rouge ?
(c) Au k e tirage, quelle est la probabilité d’obtenir une boule rouge ?

Numéro 5. On a une pièce de 5 cents et une pièce de 25 cents. Pour chacune de ces deux pièces, la
probabilité de Pile est p et la probabilité de Face est 1 − p. On ne connait pas p. On considère une
séquence de lancers de cette paire de pièces de monnaie. À chaque lancer de la paire de pièces, on
obtient P P, P F, F P ou F F (avec, disons, la convention que la première lettre indique le résultat
obtenu avec la pièce de 5 cents et la deuxième lettre indique le résultat obtenu avec la pièce de 25
cents). On lance la paire de pièces jusqu’à ce qu’on obtienne ou bien F P , ou bien P F . Si c’est F P
qui survient avant P F , on pose X = 0. Si c’est P F qui survient avant F P , on pose X = 1. Obtenez
la distribution de la variable aléatoire X.

Numéro 6. Soit X et Y , des variables aléatoires indépendantes avec moyennes µX et µY et avec


2 et σ 2 . Obtenez une expression pour la variance de XY en termes des quantités µ ,
variances σX Y X
µY , σX et σY2 .
2

Numéro 7. On suppose que X0 , X1 , X2 , X3 , ... sont des variables aléatoires i.i.d. à valeurs dans
l’ensemble {1, 2, 3, ..., m} et avec P[Xi = j] > 0 pour tout j ∈ {1, 2, 3, ..., m}. On pose N = min{n >
0 : Xn = X0 }. Obtenez E[N ].

Numéro 8. On suppose que U suit la loi uniforme sur l’intervalle (0, 1). On suppose que sachant
U
Pn= u, les variables X1 , X2 , ..., Xn sont i.i.d. Bernoulli(u). Obtenez l’espérance et la variance de
j=1 Xj .

22
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 9. Le nombre de clients qui feront un achat ce soir au magasin ABC est une variable
aléatoire avec loi de Poisson de moyenne 10. Le montant de l’achat du client numéro k est une
variable aléatoire avec loi uniforme sur l’intervalle (0, 100). Obtenez l’espérance et la variance du
total des ventes ce soir au magasin ABC.

Numéro 10. Si X suit la loi géométrique de paramètre p, quelle est la probabilité que X soit un
nombre pair ?

Numéro 11. La variable X suit la loi exponentielle de paramètre λ. Sachant X = x, la variable


Y suit la loi de Poisson de moyenne x. Obtenez la distribution de Y .

Numéro 12. La variable X suit la loi uniforme sur l’intervalle (0, 5). Sachant X = x, la variable
Y suit la loi de Poisson de moyenne x. Obtenez P[Y ≥ 3].

Numéro 13. Les joueurs A et B lancent une paire de dés tour à tour. C’est A qui commence.
L’objectif de A est d’obtenir une somme de 6. L’objectif de B est d’obtenir une somme de 7. Le
gagnant sera le premier joueur qui atteint son objectif.
(a) Calculez la probabilité que le joueur A gagne.
(b) Calculez l’espérance du nombre de fois que la paire de dés sera lancée.
Suggestion : Conditionnez sur la paire (S, T ), où S est le score obtenu par le joueur A lors de son
premier lancer de la paire de dés et T est le score obtenu par le joueur B lors de son premier lancer
de la paire de dés.

Numéro 14. On lance un dé jusqu’à ce que la somme des résultats dépasse 100 pour la première
fois. Quelle est la valeur la plus probable pour la somme des résultats au moment où l’on dépasse
100 pour la première fois ?

Numéro 15. On considère une grande population de familles et on suppose que le nombre d’enfants
par famille suit la loi de Poisson avec moyenne θ. On choisit un enfant dans cette population et on
pose S = le nombre de frères et soeurs de l’enfant choisi. Montrez que S suit la loi de Poisson de
moyenne θ.

Numéro 16. On suppose que les variables aléatoires V, U1 , U2 , U3 , ... sont i.i.d. avec loi uniforme
sur l’intervalle (0, 1). On pose N = min{n ≥ 1 : Un > V }. Obtenez E[N ].

Numéro 17. Reprenons le scénario de l’exemple 4 : On lance une pièce de monnaie jusqu’à ce
qu’on obtienne une pile. Puis, on lance un dé un nombre de fois égal au nombre de fois qu’on a
lancé la pièce de monnaie. Obtenez la distribution du nombre de fois que le dé a été lancé sachant
qu’on a obtenu aucun 6.

Numéro 18. On lance un dé jusqu’à ce qu’on obtienne pour la première fois la face six cinq fois
de suite. Calculez l’espérance du nombre de lancers.

Numéro 19. On considère une séquence de lancers d’un dé. Un bloc de résultats identiques est
une séquence maximale de lancers donnant tous lieu à la même face. Par exemple, si les résultats
des 20 premiers lancers sont les suivants

5 5 6 2 4 4 4 1 3 1 5 2 2 2 2 1 6 3 3 2

23
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

alors on peut dire qu’on a obtenu, dans l’ordre, un bloc de valeur 5 et de longueur 2, puis un bloc
de valeur 6 et de longueur 1, puis un bloc de valeur 2 et de longueur 1, puis un bloc de valeur 4 et
de longueur 3, etc. Quelle est l’espérance de la longueur du premier bloc de valeur 6 et de longueur
au moins 5 ?

Numéro 20. [Pas facile] On lance un dé jusqu’à ce qu’on obtienne pour la première fois la même
face cinq fois de suite. Calculez l’espérance du nombre de lancers.

24
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 2

Introduction à la théorie des


chaı̂nes de Markov à temps discret

2.1 Matrice stochastique


Nous travaillerons avec un ensemble fini ou infini dénombrable que nous appellerons l’espace des
états et que nous dénoterons S. Dans la plupart des exemples que nous rencontrerons, l’espace des
états sera l’un des ensembles suivants :
• S = {1, 2, 3, ..., m} pour un certain entier m ≥ 2,
• S = {0, 1, 2, ..., m} pour un certain entier m ≥ 1,
• S = N0 = {0, 1, 2, 3, ...},
• S = N1 = {1, 2, 3, 4, ...},
• S = Z = {..., −2, −1, 0, 1, 2, ...},
• S = Z2 = {(i, j) : i ∈ Z, j ∈ Z}.

de probabilités sur S est un vecteur sur S, disons v = (vi ; i ∈ S), tel


Définition. Une distributionP
que vi ≥ 0 pour tout i ∈ S et i∈S vi = 1.

Définition. Une matrice stochastique sur S est une matrice sur S, disons P = (Pij ; i ∈ S, j ∈ S),
dont chaque ligne est une distribution de probabilités sur S. Autrement dit, la matrice P = (Pij ; i ∈
S, j ∈ S) est une matrice stochastique si les deux conditions suivantes sont satisfaites :
(a) Pij ≥ 0 pour tout i ∈ S et j ∈ S ;
P
(b) j∈S Pij = 1 pour tout i ∈ S.

Pour fin de calcul matriciel, les distributions de probabilités sur S seront traitées comme étant des
vecteurs lignes. De même, si P = (Pij ; i ∈ S, j ∈ S) est une matrice sur S, alors la ie ligne de P
est le vecteur ligne (Pij ; j ∈ S) et la j e colonne de P est le vecteur colonne (Pij ; i ∈ S). Notez que
dans le cas où S est un ensemble fini de cardinal m, les distributions de probabilités sur S sont
des vecteurs lignes de longueur m et les matrices stochastiques sur S sont des matrices carrées de
dimension m par m. Le cas où S est un ensemble infini dénombrable ne pose pas de problème.
Par exemple, si S = N1 , on écrira v = (vi ; i ≥ 1) = (v1 , v2 , v3 , ...) pour dénoter une distribution de
probabilités sur S et on écrira P = (Pij ; i ≥ 1, j ≥ 1) pour dénoter une matrice stochastique sur S.

25
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Voici quelques rappels sur les produits matriciels. Nous nous limitons ici au cas du produit v P où
v est un vecteur sur S et P est une matrice sur S et au cas du produit PQ où P et Q sont toutes
les deux des matrices sur S. Ce sont les deux cas qui nous seront utiles dans les sections suivantes.

Rappel 1. Si v = (vi ; i ∈ S) est un vecteur ligne sur S et si P = (Pij ; i ∈ S, j ∈ S) est une matrice
sur S, alors v P est le vecteur ligne sur S dont la j e coordonnée est donnée par
X
(v P)j = vi Pij . (2.1)
i∈S

Rappel 2. Si P = (Pij ; i ∈ S, j ∈ S) et Q = (Qij ; i ∈ S, j ∈ S) sont toutes les deux des matrices


sur S, alors PQ est la matrice sur S dont l’élément en position (i, j) est donné par
X
(PQ)ij = Piℓ Qℓj . (2.2)
ℓ∈S

Voici deux résultats élémentaires importants.

Proposition 1. Si le vecteur v est une distribution de probabilités sur S et si la matrice P est


une matrice stochastique sur S, alors le vecteur v P est une distribution de probabilités sur S.

Démonstration. Il suffit de vérifier que le vecteur ligne v P satisfait les deux conditions suivantes :
(i) (v P)j ≥ 0 pour tout j ∈ S ;
P
(ii) j∈S (v P)j = 1.

Considérons d’abord le point (i). Puisque v est une distribution de probabilités sur S on a vi ≥ 0
pour tout i ∈ S et puisque P est une matrice stochastique sur S on a Pij ≥ 0 pour tout i et j dans
S. On a donc vi Pij ≥ 0 pour tout choix de i et j dans S. On obtient donc
X
(v P)j = vi Pij ≥ 0 pour tout j ∈ S.
i∈S

Considérons maintenant le point (ii). On obtient


!     
X X X X X X X  X
(v P)j = vi Pij =  vi Pij  = vi  Pij  = vi = 1.
 
j∈S j∈S i∈S i∈S j∈S i∈S j∈S i∈S

Explications : Pour la première égalité on a simplement utilisé l’équation (2.1). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur vi qui apparait dans chaque terme P de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout i ∈ S on a j∈S Pij = P 1 (puisque P est une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que i∈S vi = 1 (puisque v est une
distribution de probabilités sur S).

Proposition 2. Si P = (Pij ; i ∈ S, j ∈ S) et Q = (Qij ; i ∈ S, j ∈ S) sont toutes les deux des


matrices stochastiques sur S, alors la matrice produit PQ est une matrice stochastique sur S.

Démonstration. Il suffit de vérifier que la matrice produit PQ satisfait les deux conditions sui-
vantes :

26
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) (PQ)ij ≥ 0 pour tout i et j dans S ;


P
(b) j∈S (PQ)ij = 1 pour tout i dans S.

On vérifie les conditions (a) et (b) ci-dessus de la même façon qu’on a vérifié les conditions (i) et (ii)
dans la démonstration de la Proposition 1. Par exemple, pour la condition (b) on procède comme
suit. Fixons i et j dans S. On obtient
 
X XX XX X X X
(PQ)ij = Piℓ Qℓj = Piℓ Qℓj = Piℓ Qℓj  = Piℓ = 1.
j∈S j∈S ℓ∈S ℓ∈S j∈S ℓ∈S j∈S ℓ∈S

Explications : Pour la première égalité on a simplement utilisé l’équation (2.2). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur Piℓ qui apparait dans chaque termeP de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout ℓ ∈ S on a j∈S Qℓj = 1 (puisque Q estP une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que pour tout i ∈ S on a ℓ∈S Piℓ = 1
(puisque P est une matrice stochastique sur S).

Rappelons en terminant que le produit matriciel est associatif. Ceci est vrai en particulier pour les
matrices stochastiques. Donc, si P, Q et R sont des matrices stochastiques sur l’espace d’états S,
alors on a
(PQ) R = P (QR) .
On peut donc laisser tomber les parenthèses et écrire simplement PQR.

On écrit I pour dénoter la matrice identité sur S c’est-à-dire la matrice I = (Iij ; i ∈ S, j ∈ S) avec
Iii = 1 pour tout i ∈ S et Iij = 0 pour tout i et j dans S avec i 6= j. Notez que cette matrice I est
une matrice stochastique.

Si P est une matrice stochastique sur S, la ne puissance de P, notée P n , jouera un rôle important
dans les prochaines sections. Cette ne puissance de P est définie de la façon suivante :


 I si n = 0,
n
P = PPP · · · P si n ≥ 1.

 | {z }
n fois

2.2 Chaı̂ne de Markov


Définition. Soit S, un ensemble non vide, fini ou infini dénombrable. Soit ν, une distribution de
probabilités sur S. Soit P, une matrice stochastique sur S. Une chaı̂ne de Markov sur S, à temps
discret, homogène dans le temps, avec loi initial ν et avec matrice de probabilités de transition P,
est une suite de variables aléatoires (Xn ; n ≥ 0) qui satisfait les trois conditions suivantes :
(i) Pour tout i ∈ S on a P[X0 = i] = νi .
(ii) Pour tout entier n ≥ 0 et pour tout choix de i0 , i1 , ..., in−1 et i dans S pour lesquels
P[(X0 , X1 , ..., Xn−1 , Xn ) = (i0 , i1 , ..., in−1 , i)] > 0, on a, pour tout j ∈ S,

P[Xn+1 = j | (X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j | Xn = i]. (2.3)

27
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(iii) Pour tout i dans S, pour tout j dans S et pour tous les entiers n tels que P[Xn = i] > 0, la
probabilité conditionnelle P[Xn+1 = j | Xn = i] ne dépend pas de n et est égale à Pij . Ces
probabilités conditionnelles sont appelées probabilités de transition.

L’analogie suivante nous aide à mieux comprendre le concept de chaı̂ne de Markov. On imagine une
particule qui se déplace de façon aléatoire. L’ensemble S représente l’ensemble de tous les états, ou
positions, possibles de la particule. La variable aléatoire Xn représente la position de la particule au
temps n, c’est-à-dire la position de la particule après n transitions. Au temps 0, on place la particule
dans un état qu’on aura choisi au hasard selon la distribution de probabilités ν = (νi ; i ∈ S). À
chaque unité de temps, la particule effectue une transition selon la règle suivante : si au temps n la
particule est à l’état i, alors sa position au temps n + 1 est choisie au hasard selon la distribution
de probabilités (Pij ; j ∈ S) et ce peu importe n et peu importe les états qui ont été visités aux
temps 0, 1, 2, ..., n − 1.

Quelques remarques.
(a) La condition (i) stipule tout simplement que la distribution de la variable aléatoire X0 est la
distribution de probabilités ν. Une façon alternative d’exprimer la condition (i) est d’écrire
tout simplement L(X0 ) = ν. Ici la notation L(X0 ) signifie “la loi (ou distribution) de la
variable aléatoire X0 ”.
(b) La condition (ii) est ce qu’on appelle la propriété de Markov. Cette condition dit simplement
que si on connait la position de la particule au temps n et si on veut prédire sa position au
temps n + 1, alors l’histoire antérieure de la particule, du temps 0 au temps n − 1, ne nous
aide en rien.
(c) La condition (iii) est ce qu’on appelle la condition d’homogénéité dans le temps. Cette
condition stipule que les probabilités de transition P[Xn+1 = j|Xn = i] ne dépendent pas de
n, d’où la terminologie homogène dans le temps.

Note biographique : Les chaı̂nes de Markov furent introduites par le mathématicien russe Andrei
Andreyevich Markov au début des années 1900. Markov est né le 14 juin 1856 à Ryazan en Russie.
Il était un étudiant de Tchebychev. Il est devenu professeur à l’Université de Saint-Pétersbourg en
1886. Jusqu’en l’an 1900, il a travaillé surtout en analyse et en théorie des nombres. Après 1900,
il a travaillé en théorie des probabilités. Avec la création des chaı̂nes qui portent son nom, il est
devenu en quelque sorte le père de la théorie des processus aléatoires. Il est mort le 20 juillet 1922
à l’âge de 66 ans.

Exemple 1 : La chaı̂ne à deux états. L’exemple non trivial le plus simple d’une chaı̂ne de
Markov est la chaı̂ne de Markov avec seulement deux états. Sans perte de généralité, supposons
que S = {0, 1} et considérons le cas où (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale
ν = (ν0 , ν1 ) = (r, 1 − r) et avec matrice stochastique
   
P00 P01 1−a a
P= = .
P10 P11 b 1−b

Ici r, a et b des nombres réels compris entre 0 et 1. Plus tard nous verrons que si a + b > 0, alors
peu importe le choix de la loi initiale, on a toujours
b a
lim P[Xn = 0] = et lim P[Xn = 1] = .
n→∞ a+b n→∞ a+b

28
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Exemple 2 : La marche aléatoire sur l’ensemble {0, 1, 2, ..., m}. Fixons m, un entier positif,
fixons k, un entier entre 0 et m, et fixons p, un nombre réel entre 0 et 1. Considérons un joueur
dont la fortune au temps 0 est de k dollars. À chaque unité de temps, le joueur mise 1 dollar dans
un jeu de hasard. Avec probabilité p, il gagne et sa fortune augmente de 1 dollar. Avec probabilité
1 − p, il perd et sa fortune diminue de 1 dollar. Si jamais sa fortune devient nulle, il cesse de jouer
et sa fortune demeure nulle pour toujours. Si jamais sa fortune atteint m dollars, il cesse de jouer
et sa fortune demeure m dollars pour toujours. Si on pose

Xn = la fortune du joueur après n unités de temps,

alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur l’ensemble S = {0, 1, ..., m}, issue de l’état
k et avec matrice stochastique
 
1 0 0 0 ··· 0 0
 1−p 0 p 0 ··· 0 0 
 
 0
 1−p 0 p ··· 0 0 

P=
 0 0 1 − p 0 ··· 0 0 
.
 .. .
.. .
.. .. .. ..
 . . . .
 
 0 0 0 0 ··· 0 p 
0 0 0 0 ··· 0 1
L’expression ≪ issue de l’état k ≫ signifie simplement que la loi initiale est la distribution de pro-
babilités concentrée à l’état k, c’est-à-dire la distribution de probabilités (νi ; i ∈ S) avec νi = 1 si
i = k et νi = 0 si i 6= k. Cette chaı̂ne de Markov est appelée la marche aléatoire sur l’ensemble
{0, 1, ..., m}. Les états 0 et m s’appellent les frontières. Dans le présent exemple, les frontières sont
dites absorbantes ; si la chaı̂ne de Markov atteint l’état 0 ou l’état m, elle y demeure pour toujours.
Posons 
min{n ≥ 0 : Xn ∈ {0, m}} si {n ≥ 0 : Xn ∈ {0, m}} 6= ∅
T =
∞ si {n ≥ 0 : Xn ∈ {0, m}} = ∅.
Plus tard, nous montrerons que P[T < ∞|X0 = k] = 1 et nous obtiendrons des expressions pour
les quantités P[XT = 0|X0 = k], P[XT = m|X0 = k], et E[T |X0 = k].

On peut aussi considérer le cas où les frontières sont réfléchissantes. Il suffit de se donner des réels
r et q entre 0 et 1 et de considérer la chaı̂ne de Markov avec matrice stochastique
 
1−r r 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p · · · 0 0 0 

P=
 0 0 1 − p 0 ··· 0 0 0 .
 .. .. .. .. .. .. .. 
 . . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 1−q q

À la frontière 0, on a absorption si r = 0, on a réflexion instantannée si r = 1, et on a réflexion


amortie si 0 < r < 1. Même scénario à la frontière m, selon que q = 1 (absorption), q = 0 (réflexion
instantannée), ou 0 < q < 1 (réflexion amortie).

Exemple 3 : La marche aléatoire sur les entiers non négatifs. Si, dans l’exemple du joueur
et du casino, on suppose que le casino possède une fortune infinie, de sorte que le joueur peut

29
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

continuer à jouer tant et aussi longtemps qu’il a de l’argent, alors la suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’ensemble N0 = {0, 1, 2, ...}, issue de l’état k et avec matrice stochastique
 
1 0 0 0 ···
 1−p 0 p 0 ··· 
 
P= 0
 1−p 0 p ···  .
 0
 0 1 − p 0 · · · 

.. .. .. ..
. . . .

Cette chaı̂ne de Markov est appelée la marche aléatoire sur N0 , issu de l’état k et avec absorption
à l’état 0. On peut, comme dans l’exemple précédent, considérer le cas plus général où
 
1−r r 0 0 ···
 1−p 0 p 0 ··· 
 
P=
 0 1−p 0 p ···  
 0
 0 1 − p 0 · · · 

.. .. .. ..
. . . .

pour un certain 0 ≤ r ≤ 1. Plus tard, nous verrons comment calculer, en termes de k et de p, la


probabilité conditionnelle P[T0 < ∞|X0 = k], où cette fois-ci

min{n ≥ 0 : Xn = 0} si {n ≥ 0 : Xn = 0} 6= ∅
T0 =
∞ si {n ≥ 0 : Xn = 0} = ∅.

La marche aléatoire sur N0 peut servir de modèle élémentaire de file d’attente (avec Xn = le nombre
d’individus dans une certaine file d’attente après n transitions, où transition veut dire qu’il y a ou
bien arrivée d’un nouveau client, ou bien départ du client qui était en train de se faire servir) ou de
modèle élémentaire de processus de naissances et de morts (avec Xn = le nombre d’individus dans
une certaine population après n transitions, où transition veut dire qu’il y a ou bien une naissance,
ou bien un décès).

Exemple 4 : Le modèle de Ehrenfest. On considère deux urnes, disons l’urne A et l’urne B,


contenant un total de m boules. À chaque unité de temps, une boule est choisie au hasard, avec
probabilité 1/m pour chaque boule. La boule choisie est retirée de son urne et est placée dans
l’autre urne. On s’intéresse à

Xn = le nombre de boules dans l’urne A au temps n,

c’est-à-dire le nombre de boules dans l’urne A après n transitions. La suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace des états S = {0, 1, 2, ..., m}. Sa matrice stochastique est donnée par
 
0 1 0 0 ··· 0 0 0
1 m−1

 m 0 m 0 ··· 0 0 0 

2 m−2

 0 m 0 m ··· 0 0 0 

3

 0 0 m 0 ··· 0 0 0 

P= .. .. .. .. .. .. ...

 . . . . . . .

2

 0 0 0 0 ··· 0 m 0 

m−1 1 
 0 0 0 0 ··· m 0 m
0 0 0 0 ··· 0 1 0

30
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Ce modèle d’urnes et de boules fut introduit par le physicien autrichien Paul Ehrenfest pour analyser
le phénomène de diffusion d’un gaz à travers un petit conduit reliant deux récipients. Les boules
représentent les molécules du gaz et les urnes représentent les récipients. Le modèle de Ehrenfest
suppose qu’à chaque unité de temps une molécule choisie au hasard passe d’un récipient vers l’autre.

Note biographique : Paul Ehrenfest est né à Vienne (Autriche) en 1880. Il a obtenu son doctorat
en 1904 sous la direction du célèbre physicien Boltzmann. Il était un ami intime des physiciens
Albert Einstein et Niels Bohr. Il a participé au développement de la théorie quantique. Il est mort
de façon tragique à Amsterdam en 1933. Einstein a écrit que, du point de vue de la qualité de
l’enseignement, Ehrenfest était le meilleur professeur de physique de l’époque.

Graphe de communication. Considérons une matrice stochastique P sur l’espace d’états S. Le


graphe de communication, ou schéma de communication, associé à la matrice P est le graphe,
orienté et valué, obtenu de la façon suivante :
• L’ensemble des sommets du graphe est l’espace des états S.
• Il y a une arête orientée qui va du sommet i jusqu’au sommet j si et seulement si Pij > 0.
La valeur de cette arête est égale à Pij .

Exemple 5. Voici le graphe de communication pour le modèle de Ehrenfest dans le cas où m = 5 :

1/5 2/5 3/5 4/5 1

0 1 2 3 4 5
1 4/5 3/5 2/5 1/5

Figure 1. Le graphe de communication pour le modèle de Ehrenfest avec m = 5.

2.3 Probabilités de transition d’ordre supérieur et


généralisations de la propriété de Markov
Nous présentons ici quelques conséquences de la propriété de Markov et de la propriété d’ho-
mogénéité dans le temps c’est-à-dire les conditions (ii) et (iii) de la définition de chaı̂ne de Markov
à temps discret donnée au début de la section précédente.

2.3.1 Une première généralisation de la propriété de Markov


Le résultat suivant est une généralisation non surprenante, mais très importante, de la propriété
de Markov. C’est un résultat qui sera très utile par la suite.
Théorème 1. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec loi initiale ν et avec matrice stochas-
tique P, alors pour tout entier k ≥ 0 et pour tout choix d’entiers 0 ≤ n1 < n2 < · · · < nk < n et
d’états in1 , in2 , ..., ink et i pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)] > 0, on a, pour
tout j ∈ S et pour tout entier m ≥ 1,

P[Xn+m = j | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = P[Xn+m = j | Xn = i] = (P m )ij . (2.4)

31
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Remarques au sujet de l’équation (2.4) : Le notation (P m )ij est utilisée pour dénoter l’élément
en position (i, j) de la matrice stochastique P m . La première égalité qui apparait à l’équation (2.4)
est une généralisation de l’équation (2.3) qui apparait au point (ii) de notre définition de chaı̂ne de
Markov. La deuxième égalité est une généralisation de la propriété d’homogénéité dans le temps
énoncée au point (iii) de notre définition de chaı̂ne de Markov. Cette égalité montre entre autre
choses que la probabilité conditionnelle P[Xn+m = j|Xn = i] ne dépend pas de n. On a donc

P[Xn+m = j|Xn = i] = P[Xm = j|X0 = i] pour tout n ≥ 0.

Définition. La probabilité conditionnelle P[Xm = j|X0 = i] est appelée probabilité de transition


d’ordre m. Le Théorème 1 nous dit que P[Xm = j|X0 = i] est simplement l’élément en position
(i, j) de la matrice stochastique P m . Pour simplifier l’écriture, nous écrirons simplement Pijm pour
dénoter cette probabilité.
L’équation (2.4) peut donc être réécrite de la façon suivante :

P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]


= P[Xn+m = j|Xn = i] = P[Xm = j|X0 = i] = Pijm . (2.5)

Démonstration du Théorème 1. La démonstration sera faite en deux étapes. D’abord nous


traiterons le cas m = 1, puis nous traiterons le cas m ≥ 2.

Le cas où m = 1. Dans ce cas l’équation (2.5) prend la forme suivante :

P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]


= P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i] = Pij . (2.6)

Or nous savons déjà que P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i] = Pij . Ça fait partie de notre
définition de chaı̂ne de Markov. Donc pour démontrer l’équation (2.6), il suffit de montrer que

P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pij . (2.7)

Plutôt que de présenter tout de suite une démonstration générale de l’équation (2.7), examinons
d’abord le cas particulier P[X5 = j | X2 = i2 , X4 = i]. En conditionnant sur (X0 , X1 , X3 ) on obtient
P[X5 = j | X2 = i2 , X4 = i]
X
= P[X5 = j | X0 = i0 , X1 = i1 , X2 = i2 , X3 = i3 , X4 = i] P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i] = Pij .
(i0 ,i1 ,i3 )∈S 3

Explications : Pour la première égalité, on a utilisé la loi des probabilités totales. Pour la deuxième
égalité, on a utilisé la propriété de Markov (2.3). Pour la troisième égalité, on a simplement mis
en évidence le terme Pij . Enfin, la dernière somme est égale à 1 puisque c’est la somme de toutes
les probabilités de la distribution conditionnelle du vecteur (X0 , X1 , X3 ) sachant que X2 = i2 et
X4 = i.

Le cas général peut être démontré de la même façon. Voici les détails. Il suffit de condition-
ner sur les variables (Xℓ ; ℓ ∈ A), où A est l’ensemble des indices manquants, c’est-à-dire A =

32
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

{0, 1, 2, ..., n}\{n1 , n2 , ..., nk , n}, et d’appliquer la propriété de Markov. Pour faciliter l’écriture, po-
sons nk+1 = n et ink+1 = in = i et posons a = n − k, le cardinal de l’ensemble A. On obtient
alors

P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)]

= P[Xn+1 = j| ∩k+1
m=1 (Xnm = inm )]
X
= P[Xn+1 = j| ∩nr=0 (Xr = ir )] P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
(iℓ ;ℓ∈A)∈S a
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
(iℓ ;ℓ∈A)∈S a
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )] = Pij .
(iℓ ;ℓ∈A)∈S a

La dernière somme est égale à 1 puisqu’il s’agit de la somme de toutes les probabilités de la
distribution conditionnelle du vecteur (Xℓ ; ℓ ∈ A) sachant ∩k+1
m=1 (Xnm = inm ). Ceci complète la
démonstration du Théorème 1 dans le cas où m = 1.

Le cas où m ≥ 2. Fixons m ≥ 2. Pour démontrer l’équation (2.5), il suffit de montrer que

P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pijm . (2.8)

En effet, puisque les probabilités conditionnelles P[Xn+m = j|Xn = i] et P[Xm = j|X0 = i] sont des
cas particulier de la probabilité conditionnelle P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)], si
on démontre (2.8) alors on aura par le fait même démontré (2.5).

Pour bien comprendre la démonstration sans se perdre dans la notation, considérons la cas parti-
culier suivant : P[X7 = j | X2 = i2 , X4 = i]. En conditionnant sur (X5 , X6 ) on obtient

P[X7 = j | X2 = i2 , X4 = i]
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] P[X7 = j | X2 = i2 , X4 = i, X5 = k, X6 = ℓ]
k∈S ℓ∈S
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] Pℓj
k∈S ℓ∈S
XX
= P[X5 = k | X2 = i2 , X4 = i]P[X6 = ℓ | X2 = i2 , X4 = i, X5 = k] Pℓj
k∈S ℓ∈S
!
XX X X X
2
= Pik Pkℓ Pℓj = Pik Pkℓ Pℓj = Pik Pkj = Pij3 .
k∈S ℓ∈S k∈S ℓ∈S k∈S

Pour la deuxième égalité, on a utilisé le cas spécial m = 1 qu’on a démontré ci-dessus. Pour la
troisième égalité, on a simplement utilisé la règle de multiplication. Pour la quatrième égalité, on
a à nouveau utilisé, deux fois, le cas spécial m = 1.
Le cas général peut être traité de la même façon et les détails ne seront pas présentés ici. Ceci
complète notre démonstration du Théorème 1.

33
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.3.2 Une autre généralisation de la propriété de Markov


On suppose comme d’habitude que (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale ν
et avec matrice stochastique P. D’après notre définition de chaı̂ne de Markov, on a ceci :
Pour tout n ≥ 0 et pour tout choix de i0 , i1 , i2 , ..., in−1 et i dans S tels que
P[(X0 , X1 , ..., Xn−1 , Xn ) = (i0 , i1 , ..., in−1 , i)] > 0, on a

P[Xn+1 = j|(X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j|Xn = 0] = Pij

pour tout j ∈ S.
D’après le Théorème 1, on a la généralisation suivante :
Pour tout entier k ≥ 0 et pour tout choix d’entiers 0 ≤ n1 < n2 < · · · < nk < n et
d’états in1 , ..., ink et i pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a

P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)] = P[Xn+m = j|Xn = i] = Pijm

pour tout m ≥ 0 et pour tout j ∈ S.


Voici une autre généralisation :

Théorème 2. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec matrice stochastique P, alors
pour tout choix d’entier non négatif k, d’entiers 0 ≤ n1 < n2 < · · · < nk < n et d’états i1 , i2 , ..., ik
et i dans S pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a

P[(Xn+m1 , Xn+m1 +m2 , ..., Xn+m1 +···+mℓ ) = (j1 , j2 , ..., jℓ ) | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]

= P[(Xn+m1 , Xn+m1 +m2 , ..., Xn+m1 +···+mℓ ) = (j1 , j2 , ..., jℓ )|Xn = i]


m1 m2
= Pi,j P
1 j1 ,j2
· · · Pjmℓ
ℓ−1 ,jℓ
.

pour tout entier positif l, pour tout choix d’entiers non négatifs m1 , m2 , ..., mℓ et pour tout choix
d’états j1 , j2 , ..., jℓ dans S.

Démonstration.
Le cas où ℓ = 1 est couvert par le Théorème 1. Pour le cas où ℓ > 1, considérons le cas particulier
suivant :
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i].
D’abord on utilise la règle de multiplication et on obtient

P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i]


= P[X14 = j1 | X3 = i3 , X8 = i8 , X10 = i]
× P[X17 = j2 | X3 = i3 , X8 = i8 , X10 = i, X14 = j1 ]
× P[X24 = j3 | X3 = i3 , X8 = i8 , X10 = i, X14 = j1 , X17 = j2 ].

Puis, pour chacun des 3 termes apparaissant sur le côté droit de l’équation précédente, on applique
la conclusion du théorème 2 dans le cas ℓ = 1. Autrement dit, on utilise le Théorème 1. On obtient
alors
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i] = Pij4 1 Pj31 j2 Pj72 j3 .
Le cas général se traite de la même façon mais la notation est un peu lourde.

34
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.3.3 L’équation de Chapman et Kolmogorov


Si P est une matrice stochastique, alors pour tout choix d’entiers non négatifs m et n on a P m+n =
P m P n . L’entrée (i, j) de la matrice P m+n est donc égale à l’entrée (i, j) du produit matriciel P m P n .
On a donc démontré le théorème élémentaire suivant :

Théorème 3. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour
tout choix d’entiers non négatifs m et n et pour tout choix de i et j dans l’espace des états S, on a
X
Pijm+n = m n
Pik Pkj . (2.9)
k∈S

Corollaire. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour tout
choix d’entiers non négatifs m et n et pour tout choix de i, j et ℓ dans S, on a

Pijm+n ≥ Piℓm Pℓjn . (2.10)

Pour des raisons un peu obscures, l’équation (2.9) est appelée l’équation de Chapman et Kolmogorov.
Cette équation (2.9) est en fait un cas spécial d’une équation beaucoup plus générale, aussi appelée
équation de Chapman et Kolmogorov, concernant les processus de Markov à temps continu et à
espace d’états quelconque. Quant à elle, l’équation (2.10) est souvent utilisée pour montrer qu’une
certaine probabilité de transition, disons Pijr est strictement positive. Il suffit simplement de trouver
des entiers m et n et un état ℓ tels que r = m + n, Piℓm > 0 et Pℓjn > 0. L’équation (2.10) nous
donne alors Pijr = Pijm+n ≥ Piℓm Pℓjn > 0.

2.4 Distributions conjointes et distributions marginales


Dans la présente section, nous supposons que (Xn ; n ≥ 0) est une chaı̂ne de Markov sur l’espace
d’états S, avec loi initiale ν et avec matrice stochastique P, et nous obtenons quelques résultats
élémentaires concernant la distribution des variables aléatoires X0 , X1 , X2 , ...

2.4.1 La loi marginale de Xn


On s’intéresse maintenant à L(Xn ), la loi marginale de Xn . Par définition on a que L(X0 ) = ν.
Pour n ≥ 1, la loi marginale de Xn peut être obtenue en conditionnant sur X0 et en utilisant les
probabilités de transition d’ordre n. En effet, pour tout n ≥ 1 et pour tout j dans S on a
X
P[Xn = j] = P[X0 = i] P[Xn = j|X0 = i]
i∈S
X
= νi Pijn = (νP n )j .
i∈S

Nous avons donc démontré le résultat suivant.

Théorème 6. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale ν et avec matrice
stochastique P, alors
L(Xn ) = νP n ∀n ≥ 0.

35
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.4.2 La distribution du vecteur (X0 , X1 , ..., Xn )


Pour calculer la loi conjointe de X0 et X1 , on utilise la règle de multiplication. Pour tout choix de
i0 et i1 dans S, on a

P[(X0 , X1 ) = (i0 , i1 )] = P[X0 = i0 , X1 = i1 ]


= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ]
= νi0 Pi0 i1 .

La loi conjointe de X0 , X1 et X2 s’obtient de la même façon. Pour tout choix de i0 , i1 et i2 dans S,


on a

P[(X0 , X1 , X2 ) = (i0 , i1 , i2 )]
= P[X0 = i0 , X1 = i1 , X2 = i2 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X0 = i0 , X1 = i1 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X1 = i1 ]
= νi0 Pi0 i1 Pi1 i2 .

Plus généralement, on a le résultat suivant :


Théorème 4. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S, avec loi initiale ν et avec matrice
stochastique P, alors pour tout entier n ≥ 0 et pour tout (i0 , i1 , ..., in ) ∈ S n+1 on a
n−1
Y
P[(X0 , X1 , ..., Xn ) = (i0 , i1 , ..., in )] = νi0 Piℓ ,iℓ+1 . (2.11)
ℓ=0

Voici la réciproque du théorème 4. Sa démonstration est laissée en exercice.


Théorème 5. Soit S, un ensemble non vide, fini ou infini dénombrable. Soit ν, une distribution de
probabilités sur S. Soit P, une matrice stochastique sur S. Soit (Xn ; n ≥ 0), une suite de variables
aléatoires à valeurs dans S. Si l’équation (2.11) est satisfaite pour tout entier n ≥ 0 et pour tout
(i0 , i1 , ..., in ) ∈ S n+1 , alors (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S, avec loi initiale ν et avec
matrice stochastique P.

2.4.3 La distribution du vecteur (Xn1 , Xn2 , ..., Xnk )


En procédant comme aux sections 2.4.1 et 2.4.2, on obtient facilement la distribution conjointe de
Xn1 , Xn2 , ..., Xnk . Ici k est un entier positif et n1 , n2 , ..., nk sont des entiers tels que 0 ≤ n1 < n2 <
· · · < nk . En effet, pour tout choix d’états in1 , in2 , ..., ink dans S, on obtient
n −nk−1
P[(Xn1 , Xn2 , ..., Xnk ) = (in1 , in2 , ..., ink )] = (νP n1 )in Pinn2 −n n3 −n2
in Pin in · · · Pin
1 k
i .
1 1 2 2 3 k−1 nk

36
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.5 La propriété de Markov forte


Comme à la section précédente, on considère une chaı̂ne de Markov, disons (Xn ; n ≥ 0), sur un
espace d’états S, avec matrice stochastique P. Fixons un temps, disons le temps m, et considérons
la suite de variables aléatoires (Xm+n ; n ≥ 0). Fixons i∗ ∈ S. Les deux énoncés suivants sont des
conséquences de la propriété de Markov :
(a) Conditionnellement à Xm = i∗ , la suite de variables aléatoires (Xm+n ; n ≥ 0) est une chaı̂ne
de Markov avec matrice stochastique P, issu de l’état i∗ .
(b) Conditionnellement à Xm = i∗ , la suite de variables aléatoires (Xm+n ; n ≥ 1) est indépen-
dante des variables aléatoires X0 , X1 , ..., Xm−1 .
Sous certaines conditions, les énoncés (a) et (b) demeurent vrais lorsque le temps fixe m est remplacé
par un temps aléatoire T , c’est-à-dire une variable aléatoire T à valeur dans l’ensemble des entiers
non négatifs. On admettra même le cas où T prend la valeur ∞ avec une probabilité positive.

Définition. Un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0) est une variable aléatoire T à
valeurs dans l’ensemble N0 ∪ {∞} et telle que pour tout entier non négatif n l’événement {T = n}
peut être exprimé en termes des variables aléatoires X0 , X1 , X2 , ..., Xn .

Autrement dit, le temps aléatoire T est un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0)
si la condition suivante est satisfaite pour tout n ≥ 0 : ayant observé les variables aléatoires
X0 , X1 , X2 , ..., Xn , on sait si oui ou non on a T = n.

L’exemple le plus important d’un temps d’arrêt est le temps de frappe.

Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de frappe de
l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA défini par

min{n ≥ 0 : Xn ∈ A} si {n ≥ 0 : Xn ∈ A} 6= ∅
TA =
∞ si {n ≥ 0 : Xn ∈ A} = ∅

Il est facile de voir que le temps de frappe de l’ensemble A est bel et bien un temps d’arrêt. En
effet, pour tout n ≥ 0 on a {TA = n} = {X0 ∈ / A, X1 ∈
/ A, X2 ∈/ A, ..., Xn−1 ∈
/ A, Xn ∈ A}. De la
même façon, on vérifie facilement que les temps de premier retour sont des temps d’arrêt.

Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de premier retour
à l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA∗ défini par

min{n ≥ 1 : Xn ∈ A} si {n ≥ 1 : Xn ∈ A} 6= ∅
TA∗ =
∞ si {n ≥ 1 : Xn ∈ A} = ∅

Théorème 7. [La propriété de Markov forte]. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov sur S, avec
matrice stochastique P. Soit T , un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0). Soit i∗ ,
un état.
(a) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 0) est
une chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .
(b) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 1) est
indépendante des variables aléatoires X0 , X1 , ..., XT −1 .

37
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Remarque. Nous utiliserons la propriété de Markov forte seulement dans le cas où le temps
aléatoire T est un temps de frappe ou un temps de premier retour. Dans ces deux cas, le théorème
ci-dessus est intuitivement clair. Toutefois, la démonstration est plutôt délicate. L’étudiant peut
omettre le reste de la présente section.

Démonstration de la partie (a). Pour simplifier la présentation, on suppose que pour tout
i ∈ S on a P[T < ∞ | X0 = i] = 1. Posons Yn = XT +n et considérons la suite (Yn ; n ≥ 0). On
veut montrer que conditionnellement à XT = i∗ la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .

Pour tout choix d’un entier n ≥ 0 et d’états i0 , i1 , ..., in dans S, on a

P[(Y0 , Y1 , ..., Yn ) = (i0 , i1 , ..., in )|XT = i∗ ]

= P[(XT , XT +1 , ..., XT +n ) = (i0 , i1 , ..., in )|XT = i∗ ]



X
= P[T = m|XT = i∗ ]P[(XT , XT +1 , ..., XT +n ) = (i0 , i1 , ..., in )|XT = i∗ , T = m]
m=0


X
= P[T = m|XT = i∗ ]P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
m=0

Comme T est un temps d’arrêt, l’événement {T = m} est une union d’événements élémentaires
faisant intervenir seulement les variables aléatoires X0 , X1 , ..., Xm . Donc, en vertu de la propriété
de Markov, on a

P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]

= P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ ].


Q
Comme à la section 2.3, on voit que cette dernière probabilité est égale à νi∗ (i0 ) n−1 ℓ=0 Piℓ ,iℓ+1 où
νi∗ = (νi∗ (k); k ∈ S) est la distribution de probabilité concentrée sur l’état i∗ . On a donc

P[(Y0 , Y1 , ..., Yn ) = (i0 , i1 , ..., in )|XT = i∗ ]



X
= P[T = m|XT = i∗ ] P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
m=0


X
= P[T = m|XT = i] P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ ]
m=0


X n−1
Y
= P[T = m|XT = i∗ ] νi∗ (i0 ) Piℓ ,iℓ+1
m=0 ℓ=0

n−1
! ∞ n−1
Y X Y
= νi∗ (i0 ) Piℓ ,iℓ+1 P[T = m|XT = i∗ ] = νi∗ (i0 ) Piℓ ,iℓ+1 .
ℓ=0 m=0 ℓ=0

Le Théorème 5 nous permet donc de conclure que conditionnellement à XT = i∗ , la suite de variables


aléatoires (XT +n ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, issue de l’état i∗ .

38
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration de la partie (b). Pour simplifier la présentation, on suppose à nouveau qu’on a


P[T < ∞ | X0 = i] = 1 pour tout i ∈ S. Fixons n ≥ 0 et fixons i0 , i1 , i2 , ... et j1 , j2 , ..., jn dans S. Il
faut montrer que
h  i
P ∩Tk=0−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗
h i
= P ∩Tk=0
−1
(Xk = ik ) |XT = i∗ P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] .

Si on conditionne sur T on obtient

h  i
P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗

X h  i
= P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗ , T = m
m=0
X∞
  
= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) ∩ (∩ℓ=1 (Xm+ℓ = jℓ )) |Xm = i∗
m=0
X∞
 
= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) |Xm = i∗ P [∩ℓ=1 (Xm+ℓ = jℓ ) |Xm = i∗ ]
m=0

X  
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗
m=0
X∞
 
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗ , T = m
m=0
X∞ h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗ , T = m
m=0
h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗

Pour la deuxième égalité, nous avons utilisé la propriété de Markov, comme dans la démonstration
de la partie (a). Pour la troisième égalité, nous avons utilisé le point (b) du premier paragraphe de
la présente section. Pour la quatrième égalité, nous avons utilisé le fait que le terme P[∩nℓ=1 (Xm+ℓ =
jℓ )|Xm = i∗ ] ne dépend pas de m et est égal à P[∩nℓ=1 (XT +ℓ = jℓ )|XT = i∗ ] en vertu de la partie (a)
du présent théorème. Enfin, pour la cinquième égalité, nous avons appliqué à nouveau la propriété
de Markov. Ceci complète la démonstration.

2.6 Communication entre états


Dans la présente section nous étudions la structure de communication que la matrice stochastique
P induit sur l’espace d’états S. Comme pour la section précédente, on considère ici une chaı̂ne de
Markov, disons (Xn ; n ≥ 0), sur un espace d’états S, avec matrice stochastique P.

2.6.1 Accessibilité
Définition. On dit que l’état j est accessible à partir de l’état i, et on écrit alors i → j, s’il existe
un entier n ≥ 0 tel que Pijn > 0.

39
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a donc
i → j ⇔ il existe un entier n ≥ 0 tel que Pijn > 0.
Autrement dit, on a

X
i→j ⇔ Pijn > 0.
n=0

La relation d’accessibilité → ainsi définie est réflexive (on a i → i pour tout i ∈ S) puisque pour
tout i ∈ S on a Pii0 = 1. Elle est également transitive. En effet, si i → j et j → k alors, par
définition, on a Pijn1 > 0 pour un certain n1 ≥ 0 et Pjk n2
> 0 pour un certain n2 ≥ 0. L’équation de
Chapman et Kolmogorov nous donne alors
X
n1 +n2
Pik = Piℓn1 Pℓk
n2
≥ Pijn1 Pjk
n2
>0
ℓ∈S

et on conclut que i → k. En général, la relation → n’est ni symétrique, ni anti-symétrique. En effet,


on peut avoir i → j sans avoir j → i (donc la relation → n’est pas symétrique). On peut aussi avoir
i → j et j → i sans avoir i = j (donc la relation → n’est pas anti-symétrique).

Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, la relation d’accessibilité
peut aussi être exprimée en terme de la variable aléatoire

Nj = ≪ le nombre total de visites à l’état j ≫.

Plus précisément, on pose



X
Nj = 1{j} (Xn )
n=0
avec 
1 si Xn = j,
1{j} (Xn ) =
0 6 j.
si Xn =
L’espérance conditionnelle de Nj sachant X0 = i est alors donnée par
" ∞ #
X

E[Nj |X0 = i] = E 1{j} (Xn ) X0 = i

n=0

X
= E[1{j} (Xn )|X0 = i]
n=0
X∞ ∞
X
= P[Xn = j|X0 = i] = Pijn .
n=0 n=0

On a donc le résultat élémentaire suivant :

Théorème 8. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i et j,
des états. Alors, les trois conditions suivantes sont équivalentes :
• i → j,
P∞ n
• n=0 Pij > 0,
• E[Nj |X0 = i] > 0.

40
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.6.2 Communication
Définition. On dit que les états i et j communiquent, et on écrit alors i ↔ j, si on a i → j et
j → i.

La relation ↔ ainsi définie est appelée la relation de communication sur S induite par la matrice
stochastique P. Cette relation est clairement symétrique : si on a i ↔ j, alors on a aussi j ↔ i.
De plus, la réflexivité et la transitivité de la relation d’accessibilité → entraı̂nent la réflexivité
et la transitivité de la relation de communication ↔. Rappelons qu’une relation qui est à la fois
symétrique, réflexive et transitive est appelée une relation d’équivalence. On a donc le résultat
suivant.

Théorème 9. Soit S, un ensemble fini ou infini dénombrable. Soit P, une matrice stochastique
sur S. La relation de communication sur S induite par la matrice stochastique P est une relation
d’équivalence.

Les classes d’équivalence de la relation de communication ↔ sont appelées les classes de com-
munication de la matrice stochastique P. On dit aussi les classes de communication de la chaı̂ne
de Markov (Xn ; n ≥ 0). Le cas où tous les états communiquent entre eux est particulièrement
important, d’où la définition suivante.

Définition. La matrice stochastique P est dite irréductible s’il existe une seule classe de commu-
nication, c’est-à-dire si on a i ↔ j pour tout i et j dans S. On dira que (Xn ; n ≥ 0) est une chaı̂ne
de Markov irréductible si sa matrice stochastique P est irréductible.

Exemple 6 :  
1/3 2/3 0 0 0 0 0

 6/7 0 0 0 0 1/7 0 


 0 0 0 1 0 0 0 

P=
 0 0 1/4 1/4 1/2 0 0 .


 0 0 0 0 0 0 1 

 0 0 0 0 3/4 1/4 0 
0 0 0 0 0 1/5 4/5
Ici l’étudiant peut vérifier que les classes de communication sont {1, 2}, {3, 4} et {5, 6, 7}. Pour voir
ça, il suffit de dessiner le graphe de communication.

Exemple 7 :  
1/3 2/3 0 0 0

 0 1/2 1/2 0 0 

P=
 1/4 0 0 3/4 0 .

 0 0 0 1/9 8/9 
2/3 0 0 1/3 0
En traçant le graphe de communication, l’étudiant peut voir que tous les états communiquent entre
eux. Il y a donc une seule classe de communication. La matrice P est donc irréductible.

Le Théorème 8 nous donne automatiquement le résultat suivant :

41
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Théorème 10. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Les trois
conditions suivantes sont équivalentes :
• La chaı̂ne est irréductible,
P∞ n
• n=0 Pij > 0, pour tout choix de i et j dans S,
• E[Nj |X0 = i] > 0, pour tout choix de i et j dans S.

Pour illustrer le concept d’irréductibilité, examinons la marche aléatoire sur {0, 1, 2, ..., m} avec
matrice stochastique
 
1−r r 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p ··· 0 0 0 
P= . .. .. .. .. .. ..  .
 .. . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 1−q q

Voici les classes de communication de P selon les valeurs des paramètres p, q et r.

p q r Classes de communication

0<p<1 0≤q<1 0<r≤1 {0, 1, 2, ..., m}∗


0<p<1 0≤q<1 r=0 {0}∗ , {1, 2, ..., m}
0<p<1 q=1 0<r≤1 {0, 1, 2, ..., m − 1}, {m}∗
0<p<1 q=1 r=0 {0}∗ , {1, 2, ..., m − 1}, {m}∗
p=0 0≤q<1 0<r≤1 {0, 1}∗ , {2}, {3}, ..., {m − 1}, {m}
p=0 0≤q<1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}
p=0 q=1 0<r≤1 {0, 1}∗ , {2}, {3}, ..., {m − 1}, {m}∗
p=0 q=1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}∗
p=1 0≤q<1 0<r≤1 {0}, {1}, {2}, ..., {m − 1, m}∗
p=1 0≤q<1 r=0 {0}∗ , {1}, {2}, ..., {m − 1, m}∗
p=1 q=1 0<r≤1 {0}, {1}, {2}, ..., {m − 1}, {m}∗
p=1 q=1 r=0 {0}∗ , {1}, {2}, ..., {m − 1}, {m}∗

Nous terminons cette section avec la notion de classe absorbante.

Définition. Une classe de communication C est dite absorbante si la condition suivante est satis-
faite : X
Pij = 1 pour tout i ∈ C.
j∈C

42
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Lorsqu’une classe absorbante est un singleton, disons le singleton C = {i}, l’état i est appelé un
état absorbant. Dans le tableau de l’exemple précédent, les classes absorbantes sont indiquées par
des astérisques.

Si C1 et C2 sont des classes de communication pour P, on dit que C1 est accessible à partir de C2 ,
et on écrit C1  C2 , s’il existe un état i ∈ C2 et un état j ∈ C1 tels que i → j. Il est facile de vérifier
que la relation  ainsi définie est une relation d’ordre sur l’ensemble des classes de communication
de P. Autrement dit, la relation  satisfait les trois conditions suivantes :
• Réflexivité : Pour toute classe de communication C, on a C  C.
• Antisymétrie : Si C1  C2 et C2  C1 , alors C1 = C2 .
• Transitivité : Si C1  C2 et C2  C3 , alors C1  C3 .
Les éléments minimaux de cette relation d’ordre sont précisément les classes absorbantes de P.

2.7 Périodicité
Si H est un ensemble non vide d’entiers positifs, alors pgcd(H) dénote le plus grand commun
diviseur de H, c’est-à-dire le plus grand entier k pour lequel h/k est un entier pour tout h ∈ H.
Voici quelques exemples élémentaires :

pgcd ({6, 20, 24}) = 2,


pgcd ({6, 7, 12, 24}) = 1,
pgcd ({5, 10, 15, 20, ...}) = 5.

Pour la définition suivante, on suppose que S est un ensemble non vide, fini ou infini dénombrable,
et que P est une matrice stochastique sur S.

Définition. Pour i ∈ S, la période de l’état i, dénotée d(i), est définie par l’équation
(
pgcd({n ≥ 1 : Piin > 0}) si {n ≥ 1 : Piin > 0} 6= ∅,
d(i) =
∞ si {n ≥ 1 : Piin > 0} = ∅.

Un état est dit apériodique si sa période est 1.

Exemple 8. Considérons la marche aléatoire sur N0 , avec réflexion à l’origine (r > 0). Si la réflexion
est instantanée (r = 1), alors on a d(i) = 2 pour tout i ∈ N0 . Si la réflexion est amortie (0 < r < 1),
alors on a d(i) = 1 pour tout i ∈ N0 .

Exemple 9. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique donnée par
 
0 1 0 0 0 0
 0 0 1/2 0 0 1/2 
 
 0 0 0 1 0 0 
P=  .
 0 1/3 0 0 2/3 0 

 0 0 0 0 0 1 
3/5 0 0 2/5 0 0

Si on trace de graphe de communication de cette chaı̂ne de Markov, on vérifie facilement que


d(i) = 3 pour tout i ∈ S.

43
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le résultat suivant nous dit que la périodicité est une notion de classe : à l’intérieur d’une classe
de communication, tous les états ont la même période.

Théorème 11. Soit P, une matrice stochastique sur l’espace d’états S. Soit i et j, des états. Si
i ↔ j, alors d(i) = d(j).

Démonstration. Fixons i 6= j ∈ S et supposons que i ↔ j. Posons

A = {n ≥ 1 : Pini > 0},


B = {n ≥ 1 : Pjnj > 0}.

On a donc d(i) = pgcd(A) et d(j) = pgcd(B). Puisque i ↔ j, il existe des entiers positifs n1 et n2
tels que Pijn1 > 0 et Pjin2 > 0. On a donc Pini1 +n2 > 0. Donc n1 + n2 ∈ A. Donc

d(i) divise n1 + n2 . (2.12)

Fixons n ∈ B. On a donc Pjnj > 0. En utilisant l’équation de Chapman et Kolmogorov à deux


reprises, on obtient
Piin1 +n+n2 ≥ Pijn1 Pjj
n n2
Pji > 0
et on conclut que n1 + n2 + n ∈ A. Donc

d(i) divise n1 + n2 + n. (2.13)

Ensemble, les équations (2.12) et (2.13) impliquent que

d(i) divise n.

On a donc montré que d(i) divise tous les entiers n ∈ B. Autrement dit, d(i) est un diviseur commun
de l’ensemble B. Puisque d(j) est le plus grand commun diviseur de l’ensemble B, on conclut que
d(i) ≤ d(j). De la même façon, on montre que d(j) ≤ d(i) et on conclut finalement que d(i) = d(j).

Dans le cas où la chaı̂ne de Markov (Xn ; n ≥ 0) est irréductible, le théorème précédent nous dit
que tous les états ont la même période. Dans ce cas, si la période commune à tous les états est d,
alors on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible de période d. Si d = 1, alors
on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible et apériodique. Cette terminologie
sera aussi utilisée pour décrire la matrice stochastique d’une telle chaı̂ne.

2.8 Chaı̂nes irréductibles et apériodiques


Les chaı̂nes de Markov qu’on rencontre en pratique sont souvent des chaı̂nes de Markov irréductibles
et apériodiques. Dans la présente section nous démontrons quelques résultats importants pour ce
type de chaı̂nes de Markov. Pour y arriver, nous aurons besoin du théorème suivant. Il s’agit d’un
résultat élémentaire classique en théorie des nombres. La démonstration est omise.
Théorème élémentaire de théorie des nombres : Soit A, un ensemble d’entiers positifs non
vide. Supposons que A est fermé pour l’addition et supposons que le plus grand commun diviseur
de l’ensemble A est 1. Alors il existe un entier positif m∗ tel que m ∈ A pour tout m ≥ m∗ .

44
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Revenons maintenant à nos chaı̂nes de Markov. Dans ce qui suit, P dénote comme d’habitude une
matrice stochastique sur l’espace d’états S.
Théorème 12. Si j est un état apériodique, alors il existe un entier positif m∗j tel que Pjj
m > 0

pour tout m ≥ mj .
Démonstration. Fixons j ∈ S et posons A = {n ≥ 1 : Pjj n > 0}. Si j est apériodique, alors A

est non vide et son plus grand commun diviseur est égal à 1. On vérifie facilement que A est fermé
pour l’addition. En effet, si n1 ∈ A et n2 ∈ A, alors n1 + n2 ∈ A puisque
X
n1 +n2 n1 n2 n1 n2
Pjj = Pjℓ Pℓj ≥ Pjj Pjj > 0.
ℓ∈S

Le Théorème 12 est donc une simple conséquence du théorème de théorie des nombres.

Théorème 13. Si P est irréductible et apériodique, alors pour tout i et j dans S il existe un entier
positif nij tel que Pijn > 0 pour tout n ≥ nij .

Démonstration. Fixons i et j dans S. Puisque P est irréductible, on a i → j. Il existe donc un


n∗
entier positif n∗ij tel que Pij ij > 0. Puisque P est apériodique, l’état j est apériodique. Donc, d’après
le théorème précédent, il existe un entier positif m∗j tel que Pjj m > 0 pour tout m ≥ m∗ . Posons
j
nij = n∗ij + m∗j . Alors pour tout n ≥ nij on a
X n∗ n−n∗ij n∗ n−n∗ij
Pijn = Piℓ ij Pℓj ≥ Pij ij Pjj > 0.
ℓ∈S

Théorème 14. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ tel que

Pijn > 0 pout tout i ∈ S, j ∈ S et n ≥ n∗ . (2.14)

Démonstration. Le théorème précédent nous assure que pour chaque couple (i, j) ∈ S 2 il existe
un entier positif nij tel que Pijn > 0 pour tout n ≥ nij . L’équation (2.14) est alors satisfaite avec
n∗ = max nij .
i,j∈S

Il est important de noter que dans l’énoncé du Théorème 14 l’hypothèse selon laquelle S est un
ensemble fini est importante. Elle nous assure que maxi,j∈S nij < ∞. Le Théorème 14 ne tient pas
si on enlève l’hypothèse selon laquelle S est un ensemble fini. C’est le cas par exemple de la marche
aléatoire sur les entiers non négatifs avec réflexion amortie à 0. Il est facile de voir que pour cette
chaı̂ne de Markov la conclusion du Théorème 14 ne tient pas.

On termine la présente section avec un résultat qui va un peu plus loin que le Théorème 14.

Théorème 15. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ et un nombre réel c > 0 tels que

Pijn ≥ c pout tout i ∈ S, j ∈ S et n ≥ n∗ . (2.15)

45
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration. D’après le Théorème 14, il existe un entier positif n∗ pour lequel l’équation (2.14)
est satisfaite. En particulier on a Pijn∗ > 0 pour tout i et j dans S. Posons

c = min Pijn∗ .
(i,j)∈S 2

Puisque S est un ensemble fini, on a c > 0. Avec ce choix de la constante c, on obtient, pour tout
n ≥ n∗ , X X X
Pijn = Piℓn−n∗ Pℓjn∗ ≥ Piℓn−n∗ c = c Piℓn−n∗ = c ∀i ∈ S, ∀j ∈ S.
ℓ∈S ℓ∈S ℓ∈S

L’équation (2.15) est donc satisfaite avec ces choix de n∗ et de c.

2.9 Récurrence
On considère une chaı̂ne de Markov (Xn ; n ≥ 0) à valeurs dans l’espace d’états S et avec matrice
stochastique P. Pour i ∈ S, on pose

fi = P[ Il existe un n ≥ 1 tel que Xn = i | X0 = i]


= P[∪∞
n=1 (Xn = i) | X0 = i].

La quantité fi est donc la probabilité conditionnelle de retour à l’état i sachant que la chaı̂ne est
démarrée à l’état i.

Définition. Si fi = 1, on dit que i est un état récurrent. Si fi < 1, on dit que i est un état
transitoire.

Dans certains cas, on peut calculer la probabilité fi sans trop de difficulté. Voici un exemple
élémentaire.

Exemple 10. Considérons le cas où l’espace des états S est l’ensemble de tous les entiers non
négatifs et supposons que les probabilités de transition sont données par

 3/4 si j = i
Pi,j = 1/4 si j = i + 1

0 sinon

pour tout i ≥ 0. Il est facile de voir qu’on a alors fi = 3/4 pour tout i ∈ S. Les états sont donc
tous transitoires.

En général il peut être difficile de calculer la probabilité fi . Mais ce qui nous intéresse c’est simple-
ment de pouvoir déterminer si fi = 1 (l’état i est récurrent) ou si fi < 1 (l’état i est transitoire).
Le théorème suivant nous donne un critère pour y arriver.

Rappelons que Ni représente le nombre total de visite à l’état i, c’est-à-dire


∞ 
X 1 si x ∈ A,
Ni = 1{i} (Xn ) avec la convention 1A (x) =
0 si x ∈
/ A.
n=0

46
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Si fi < 1, alors la propriété de Markov forte nous permet de conclure que la distribution condition-
nelle du nombre total de visites à l’état i sachant que X0 = i est la loi géométrique avec paramètre
1 − fi . On a donc, dans le cas fi < 1,
 m−1
fi (1 − fi ) si m ∈ {1, 2, 3, ...},
P[Ni = m|X0 = i] =
0 si m ∈
/ {1, 2, 3, ...}.

Dans le cas où fi = 1, la propriété de Markov forte nous donne P[Ni = ∞|X0 = i] = 1. On a donc
le résultat suivant, valide autant dans le cas où fi < 1 que dans le cas où fi = 1.

Théorème 16.
1
E[Ni |X0 = i] = .
1 − fi

Le théorème suivant sera notre principal outil pour déterminer si un état est récurrent ou transitoire.

Théorème 17. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i, un
état. Alors, les trois conditions suivantes sont équivalentes :
(a) L’état i est récurrent,
P∞ n
(b) n=0 Pi i = ∞,
(c) E[Ni |X0 = i] = ∞.

P
Démonstration. Nous avons vu, à la section 2.6, que E[Ni |X0 = i] = ∞ n
n=0 Pi i . Les conditions
(b) et (c) sont donc équivalentes. Par ailleurs le Théorème 16 implique que les conditions (a) et (c)
sont équivalentes.

Exemple 11. Considérons le cas où l’espace des états S est un ensemble fini et où P est irréductible
et apériodique. D’après le Théorème 15, il existe un entier r ≥ 1 et un réel c > 0 tels que
n
Pi,j ≥c ∀i ∈ S, ∀j ∈ S, ∀n ≥ r.

En particulier, pour tout i ∈ S on obtient



X ∞
X ∞
X
Pini ≥ Pini = c = ∞.
n=0 n=r n=r

Les états sont donc tous récurrents.


Le résultat suivant montre que tout comme la périodicité, la récurrence est une propriété de classe :

Théorème 18. Supposons que i ↔ j. Alors i est récurrent si et seulement si j est récurrent.

Démonstration. Fixons i et j, des états qui communiquent entre eux et supposons que i est un
état récurrent. Puisque i et j communiquent, il existe un entier n1 ≥ 0 tel que Pjni1 > 0 et il
n2
P∞ unmentier n2 ≥ 0 tel que Pi j > 0. Puisque i est récurrent, le Théorème 17 nous dit que
existe
m=0 Pi i = ∞. On obtient donc

47
Claude Bélisle
Université Laval
STT-4700
Hiver 2021


X ∞
X
Pjnj ≥ Pjnj
n=0 n=n1 +n2
X∞
= Pjnj1 +m+n2
m=0
∞ ∞
!
X X
≥ Pjni1 Pimi Pinj2 = Pjni1 Pimi Pinj2
m=0 m=0
P∞
Puisque Pjni1 > 0, Pinj2 > 0 et m
m=0 Pi i = ∞, on conclut que

X
Pjnj = ∞.
n=0

L’état j est donc, en vertu du Théorème 17, un état récurrent.

2.10 Rérurrence positive et récurrence nulle


La notion de récurrence peut aussi être exprimée avec l’aide de la variable aléatoire
(

min{n ≥ 1 | Xn = i} si {n ≥ 1 | Xn = i} 6= ∅,
Ti =
∞ si {n ≥ 1 | Xn = i} = ∅.

En effet, le résultat suivant est une conséquence immédiate de la définition de récurrence donnée à
la section précédente :

Théorème 18. L’état i est récurrent si et seulement si P[Ti∗ < ∞ | X0 = i] = 1.

La classification suivante jouera un rôle important lorsque nous étudierons les notions de loi sta-
tionnaire et de convergence des chaı̂nes de Markov.

Définition. Soit i, un état récurrent. Si E[Ti∗ | X0 = i] < ∞, on dit que l’état i est récurrent positif.
Si E[Ti∗ | X0 = i] = ∞, on dit que l’état i est récurrent nul.

Suivant la tradition, on pose


mi = E[Ti∗ | X0 = i].
Le choix de la lettre m vient de l’anglais ; mi est le mean return time to state i. La terminologie
récurrence positive et récurrence nulle peut être justifiée de la façon suivante. Nous verrons plus
tard que sous certaines conditions la quantité 1/mi représente la proportion de temps que la chaı̂ne
de Markov passe à l’état i à la longue. Si mi < ∞, alors 1/mi > 0, donc récurrence positive. Si
mi = ∞, alors 1/mi = 0, donc récurrence nulle.

Le théorème suivant montre que la propriété de récurrence positive est aussi une propriété de classe.

Théorème 19. Si i est un état récurrent positif et si i ↔ j, alors j est aussi un état récurrent
positif.

48
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration. On fixe i et j dans S et on suppose que i est récurrent positif et que i ↔ j.


Le Théorème 18 nous assure que j est récurrent. On veut montrer que E[Tj∗ | X0 = j] < ∞. On
procède en 3 étapes. Pour simplifier la démonstration, on suppose que

P[Ti∗ < Tj∗ | X0 = i] > 0 et P[Tj∗ < Ti∗ | X0 = i] > 0. (2.16)

Notez que puisque les états i et j communiquent et sont récurrents, on a forcément P[Tj∗ <
Ti∗ | X0 = i] > 0. Toutefois on n’a pas nécessairement P[Ti∗ < Tj∗ | X0 = i] > 0. Pour compléter la
démonstration du Théorème 19, il faudrait traiter séparément le cas où P[Ti∗ < Tj∗ | X0 = i] = 0.
Ce n’est pas très difficile et les détails ne seront pas présentés ici.
Étape 1. Par hypothèse on a E[Ti∗ | X0 = i] < ∞. Combiné avec la condition (2.16) et le fait que

E[Ti∗ | X0 = i] = E[Ti∗ | X0 = i, Ti∗ < Tj∗ ] P[Ti∗ < Tj∗ | X0 = i]


+ E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] P[Tj∗ < Ti∗ | X0 = i]

on conclut que

E[Ti∗ | X0 = i, Ti∗ < Tj∗ ] < ∞ et E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] < ∞. (2.17)

Étape 2. Supposons qu’on démarre la chaı̂ne à l’état i et qu’on atteint l’état j avant notre premier
retour à l’état i. La propriété de Markov forte nous dit qu’une fois rendu à j, c’est comme si on
recommeçait à neuf à partir de l’état j, indépendamment du passé. On a donc

E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] = E[Tj∗ + (Ti∗ − Tj∗ ) | X0 = i, Tj∗ < Ti∗ ]
= E[Tj∗ | X0 = i, Tj∗ < Ti∗ ] + E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ]
> E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ] = E[Ti∗ | X0 = j].

On a donc
E[Ti∗ | X0 = j] < E[Ti∗ | X0 = i, Tj∗ < Ti∗ ].
On a vu à l’étape 1 que le terme de droite de cette dernière équation est fini. On conclut que

E[Ti∗ | X0 = j] < ∞. (2.18)

Étape 3. Si on démarre à l’état j, alors on peut borner supérieurement le temps de retour à l’état
j de la façon suivante :
Tj∗ ≤ Ti∗ + U1 + U2 + · · · + UN + V.
Ici V est la durée la première excursion de i à i qui passe par j et U1 , U2 , ..., UN sont les durées
des excursions de i à i qui ne passe pas par j et qui surviennent avant la première excursion de i
à i passant par j. Ici N est une variable aléatoire avec loi géométrique sur le entiers non négatifs.
Grâce à la propriété de Markov forte, on obtient

E[Tj∗ | X0 = j] ≤ E[Ti∗ + U1 + U2 + · · · + UN + V | X0 = j]
= E[Ti∗ | X0 = j] + E[N ] E[U1 ] + E[V ].

L’étape 2 nous donne E[Ti∗ | X0 = j] < ∞ et l’étape 1 nous donne E[U1 ] < ∞ et E[V ] < ∞. On a
donc E[Tj∗ | X0 = j] < ∞. L’état j est donc récurrent positif.

49
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Considérons le cas particulier d’une chaı̂ne de Markov irréductible et apériodique sur un espace
d’états fini. On a vu à l’exemple 11 que dans ce cas tous les états sont récurrents. Le théorème
suivant va un peu plus loin.

Théorème 20. Si P est irréductible et apériodique et si S est un ensemble fini, alors tous les états
sont récurrents positifs.

Démonstration. Fixons io ∈ S. On doit montrer que E[Ti∗o | X0 = io ] < ∞. D’après le Théorème


15, il existe un entier n∗ et un réel c > 0 qui sont tels que Pijn∗ ≥ c pour tout i et j dans S. Divisons
l’axe du temps en blocs de longueur n∗ de la façon suivante :
• Premier bloc : les temps 1, 2, ..., n∗ .
• Deuxième bloc : les temps n∗ + 1, n∗ + 2, ..., 2n∗ .
• Troisième bloc : les temps 2n∗ + 1, 2n∗ + 2, ..., 3n∗ .
Etc.
La condition Pijn∗ ≥ c pour tout i et j dans S nous assure que
• peu importe où on est au temps 0, la probabilité d’être à io au temps n∗ est au moins c ;
• peu importe où on est au temps n∗ , la probabilité d’être à io au temps 2n∗ est au moins c ;
• peu importe où on est au temps 2n∗ , la probabilité d’être à io au temps 3n∗ est au moins c ;
etc.
Donc, si on pose
M = le plus petit entier m pour lequel on a Xmn∗ = io
alors on a P[M > k | X0 = io ] ≤ (1 − c)k . Il s’ensuit que

X ∞
X
E[M | X0 = io ] = P[M > k | X0 = io ] ≤ (1 − c)k < ∞.
k=0 k=0

Or on a Ti∗o ≤ n∗ M . On obtient donc

E[Ti∗o | X0 = io ] ≤ E[n∗ M | X0 = io ] = n∗ E[M | X0 = io ] < ∞.

Remarque. La conclusion du Théorème 20 est valide même dans le cas périodique. Mais pour la
démonstration il faut invoquer une version du Théorème 15 pour les chaı̂nes de Markov périodiques.
Nous nous concentrons ici sur le cas apériodique.

Chaı̂ne ergodique. Une chaı̂ne de Markov est dite ergodique si elle est irréductible, apériodique
et récurrente positive. Nous verrons au chapitre 4 que les chaı̂nes de Markov ergodiques possèdent
des propriétés asymptotiques remarquables.

50
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2.11 Les exercices du chapitre 2


Numéro 1. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec espace d’états S = {1, 2, 3}, avec loi
initiale ν = (1/4, 1/2, 1/4) et avec probabilités de transition données par la matrice stochastique
suivante :  
0.1 0.2 0.7
P =  0.3 0.3 0.4 
0.1 0.1 0.8
(a) Dessinez le graphe de communication.
(b) Obtenez P[X4 = 3 | X0 = 1, X1 = 1, X2 = 2, X3 = 1].
(c) Obtenez P[X2 = 2 | X0 = 1].
(d) Obtenez P[X2 = 2].
(e) Obtenez P[X0 = 2, X1 = 2, X2 = 1, X3 = 3].

Numéro 2. On dispose de 4 boules rouges et 4 boules noires. On dispose également de deux urnes ;
l’urne A et l’urne B. Au temps 0, ces 8 boules sont sur la table. Parmi les 8 boules, on en choisit 4
au hasard et on les met dans l’urne A. On met les 4 autres boules dans l’urne B. Ensuite, à chaque
étape, on choisit une boule au hasard dans l’urne A et on l’échange avec une boule choisie au hasard
dans l’urne B. On s’intéresse à la suite de variables aléatoires (Xn ; n ≥ 0), où Xn dénote le nombre
de boules rouges dans l’urne A après n étapes. Pourquoi cette suite de variables aléatoires est-elle
une chaı̂ne de Markov ? Quelle est la loi initiale de cette chaı̂ne de Markov ? Quelle est la matrice
des probabilités de transition de cette chaı̂ne de Markov ? Dessinez le graphe de communication.
La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?

Numéro 3. Au temps 0, un panier contient 3 boules rouges et 3 boules noires. À chaque unité de
temps, on choisit 2 boules au hasard parmi les 6 boules du panier. Si la paire choisie comprend une
rouge et une noire, on met ces 2 boules de côté et on les remplace dans le panier par 2 boules bleues.
Si la paire choisie ne comprend pas une rouge et une noire, on remet ces 2 boules dans le panier. On
pose Xn = le nombre de boules rouges dans le panier au temps n. La suite (X0 , X1 , X2 , ...) est une
chaı̂ne de Markov. Quel est l’espace des états ? Quelle est la loi initiale ? Obtenez la matrice des
probabilités de transition. Dessinez le graphe de communication. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ? Obtenez la distribution de X3 .

Numéro 4. On considère 2 individus. Il sont tous les deux de génotype aA. Ces deux individus
auront 2 enfants qui constitueront la génération suivante. Chaque enfant reçoit un gène de chaque
parent. Ainsi, chaque génération est constituée de deux individus. Ces deux individus auront deux
enfants qui formeront la génération suivante. On pose Xn = l’ensemble des génotypes présents à la
génération n. L’espace des états est donc

S = {{aa}, {aA}, {AA}, {aa, aA}, {aa, AA}, {aA, AA}}.

Quelle est la loi initiale ? Obtenez la matrice des probabilités de transition. Dessinez le graphe de
communication. La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?
Calculez P [X1 = {aa, AA}, X2 = {aA}, X3 = {aa}].

51
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 5. Voici une version élémentaire du jeu des serpents et des échelles. L’échiquier est de
dimension 3 par 3. Il y a donc 9 cases numérotées de 1 à 9. Il y a deux échelles : une qui va de la
case 2 à la case 7 et une qui va de la case 3 à la case 5. Il y a deux serpents : un qui va de la case 6
à la case 1 et un qui va de la case 8 à la case 4. On joue avec une pièce de monnaie au lieu d’un dé.
Avec Pile, on avance de une case, avec Face on avance de deux cases. La position d’un joueur après
n lancers peut être décrite à l’aide d’une chaı̂ne de Markov. Expliquez comment. Quel est votre
espace d’états ? Obtenez la matrice des probabilités de transition. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ?

Numéro 6. Un village compte m individus. Ces individus sont tous des solitaires. Ils se promènent
dans le village. Certains individus sont des zombies, d’autres sont en santé. À chaque unité de temps,
deux individus se rencontrent. Les m 2 choix possibles sont équiprobables. Si ces deux individus sont
tous les deux des zombies ou tous les deux des individus en santé, rien ne se produit. Si un des deux
est un zombie et l’autre est en santé, l’individu en santé a une probabilité p de se faire mordre et de
devenir un zombie. Les zombies demeurent des zombies pour toujours. On pose Xn = le nombre de
zombies après les n premières rencontres. Obtenez la matrice stochastique de la chaı̂ne de Markov
(Xn ; n ≥ 0). La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ? Dans
le cas où m = 20 et p = 2/5, calculez P[(X1 , X2 , X3 , X4 ) = (7, 8, 8, 9)|X0 = 6].

Numéro 7. Suite problème numéro 6. Supposons qu’au temps 0 la population compte 1 zombie et
m − 1 individus en santé. Posons

T = min{n ≥ 0 : Xn = m}.

Ce T est donc le temps que ça prendra, c’est-à-dire le nombre de rencontres que ça prendra, pour
que toute la population soit transformée en zombies.
(a) Obtenez une expression aussi simple que possible, en termes de p et N , pour E[T ].
(b) Optionnel. Montrez que
E[T ] 1
lim = .
m→∞m log(m) p
P −1
Suggestion pour la partie (a) : Écrivez T sous la forme T = N i=1 (Vi+1 − Vi ) avec Vi = min{n ≥
0 : Xn = i}. Quelle est la distribution de la variable Vi+1 − Vi ?

Numéro 8. On considère une séquence de lancers d’un dé ordinaire. On pose S(0) = 0 et, pour
chaque entier k ≥ 1, on pose S(k) = la somme des résultats des k premiers lancers. Pour chaque
entier n ≥ 0, on pose Xn = S(Kn ) − n avec Kn = min{k ≥ 0 : Sk ≥ n}. La suite (Xn ; n ≥ 0) est
une chaı̂ne de Markov.
(a) Quel est l’espace des états de cette chaı̂ne de Markov ?
(b) Quelle est la loi initiale ?
(c) Quelle est la matrice des probabilités de transition ?
(d) Dessinez le graphe de communication.
(e) Voici, dans l’ordre, les résultats des 9 premiers lancers : 6, 3, 5, 1, 6, 2, 4, 5, 2. Dessinez la
trajectoire (Xn ; 0 ≤ n ≤ 30).

Numéro 9. Soit P, une matrice stochastique sur S. Montrez que si on a, pour un certain entier
positif r, Pijr > 0 pour tout i ∈ S et j ∈ S, alors on a Pijn > 0 pour tout i ∈ S et j ∈ S et pour tout
n ≥ r.

52
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 10. On suppose que Y−1 , Y0 , Y1 , Y2 , Y3 , ... sont i.i.d. Bernoulli(1/2) et, pour n ≥ 0, on
pose Xn = Yn−1 + Yn . Exemple : les Yj représentent les résultats de lancers d’une pièce de monnaie
(pile = 1 et face = 0) et Xn représente le nombre de piles lors des deux derniers lancers. La suite
(Xn ; n ≥ 0) est-elle une chaı̂ne de Markov ? Si oui, donnez l’espace des états, la loi initiale et la
matrice des probabilités de transition. Si non, expliquez pourquoi.
Numéro 11. Dans chacun des cas suivants dessinez le graphe de communication et identifiez les
classes de communication de la matrice stochastique P. La chaı̂ne est-elle irréductible ? Y a-t-il des
classes absorbantes ? Y a-t-il des états absorbants ?
(a) L’espace des états est N0 = {0, 1, 2, 3, ...} et les probabilités de transition sont données par
les équations suivantes : Pij = 3/4 si j = i + 1 et Pij = 1/4 si j = i.
(b) L’espace des états est S = {1, 2, 3, 4, 5, 6} et la matrice des probabilités de transition est
 
0 1/3 1/3 1/3 0 0
 0 1 0 0 0 0 
 
 0 0 1/2 0 1/2 0 
P=  0 0

 0 0 0 1 

 0 0 1/2 0 1/2 0 
1 0 0 0 0 0

(c) L’espace des états est Z = {...−2, −1, 0, 1, 2, ...} et les probabilités de transition sont données
par les équations suivantes : P0,1 = 1 et...
• Si i ∈ {1, 2, 3, ....}, alors


 1/100 si j =i−1

1/100 si j =i
Pi,j =

 97/100 si j =i+1

1/100 si j = −i

• Si i ∈ {... − 3, −2, −1} et si i n’est pas un multiple de 5, alors Pi,−i = 1.


• Si i ∈ {... − 25, −20, −15, −10, −5}, alors Pi,i = 1.
(d) L’espace des états est Z = {...−2, −1, 0, 1, 2, ...} et les probabilités de transition sont données
par les équations suivantes : P0,1 = 1 et...
• Si i ∈ {1, 2, 3, ....} et si i n’est pas un multiple de 5, alors


 1/100 si j =i−1

1/100 si j =i
Pi,j =

 97/100 si j =i+1

1/100 si j = −i

• Si i ∈ {5, 10, 15, 20, 25, ....}, alors



 2/100 si j = i
Pi,j = 97/100 si j = i + 1

1/100 si j = −i

• Si i ∈ {... − 3, −2, −1} et si i n’est pas un multiple de 5, alors Pi,−i = 1.


• Si i ∈ {... − 25, −20, −15, −10, −5}, alors Pi,i = 1.

53
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 12. L’espace des états est S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13} et la matrice des pro-
babilités de transition est
 
0 1/3 0 1/3 0 0 0 0 0 1/3 0 0 0
 0 0 1 0 0 0 0 0 0 0 0 0 0 
 
 1 0 0 0 0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 1 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 1 0 0 0 0 0 0 0 
 
 
 0 0 0 0 0 0 1 0 0 0 0 0 0 
 
P= 0 0 0 0 0 0 0 1 0 0 0 0 0 
 
 0 0 0 0 0 0 0 0 1 0 0 0 0 
 
 1 0 0 0 0 0 0 0 0 0 0 0 0 
 
 0 0 0 0 0 0 0 0 0 0 1/2 0 1/2 
 
 0 0 0 0 0 0 0 0 0 1/2 0 1/2 0 
 
 0 0 0 0 0 0 0 0 0 0 1/2 0 1/2 
0 0 0 0 0 0 0 0 0 1/2 0 1/2 0

Déterminez les classes de communication. Pour chaque classe de communication, déterminez la


période. Si la période est supérieure à 1, déterminez les sous-classes cycliques.

Numéro 13. On considère une chaı̂ne de Markov avec matrice stochastique P sur un espace d’états
fini S de cardinal, disons, m. On fixe i et j dans S, avec i 6= j. Montrez que si il existe un entier
n ≥ 1 tel que Pijn > 0, alors forcément il existe un entier 1 ≤ no < m tel que Pijno > 0.

Numéro 14. On suppose que les hypothèses suivantes sont valides pour le centre-ville de Vancou-
ver :
(i) Si il a plu hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.75.
(ii) Si il a fait beau hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.55.
(iii) Si il a plu hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est 0.25.
(iv) Si il a fait beau hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est
0.15.
Avec ces informations, expliquer comment on peut modéliser l’évolution de la météo au centre-ville
de Vancouver avec l’aide d’une chaı̂ne de Markov. Spécifiez l’espace des états et la matrice des
probabilités de transition.

Numéro 15. On considère le modèle de Ehrenfest avec m boules et avec Xn = le nombre de boules
dans l’urne A au temps n. On fixe 0 ≤ k ≤ m et on pose µn = E[Xn | X0 = k].
(a) En conditionnant sur Xn , montrez que µn+1 = 1 + (1 − 2/m)µn .
(b) Avec l’aide du résultat de la partie (a), exprimez µn sous une forme compacte en termes de

n, m et k. Rappel : 1 + r + r 2 + r 3 + · · · + r ℓ−1 = 1−r
1−r .
(c) Utilisez le résultat de la partie (b) pour obtenir limn→∞ µn .

54
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 16.
(a) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −1/i2
 e si j = i + 1
2
Pij = 1 − e−1/i si j = 1

0 sinon

(i) Montrez que cette chaı̂ne est irréductible et apériodique.


(ii) Montrez que cette chaı̂ne est transitoire.
(iii) Si on démarre à l’état 1, quelle est la distribution du nombre total de visites à l’état 1
durant la vie entière de cette chaı̂ne de Markov ?
(b) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −1/i
 e si j = i + 1
Pij = 1 − e−1/i si j = 1

0 sinon

(i) Montrez que cette chaı̂ne est irréductible et apériodique.


(ii) Montrez que cette chaı̂ne est récurrente nulle.
(c) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
 −2/i
 e si j = i + 1
Pij = 1−e −2/i si j = 1

0 sinon

(i) Montrez que cette chaı̂ne est irréductible et apériodique.


(ii) Montrez que cette chaı̂ne est récurrente positive.
P P∞
Indices : Il est pratique de savoir que ∞ k=1 1/k = ∞ et
2
k=1 1/k < ∞. Pour déterminer si c’est
récurrent ou transitoire, essayez un calcul direct de 1 − f1 , la probabilité de ne jamais retourner à
l’état 1 sachant qu’on démarre à l’état 1. Pour la partie (ii) des numéros (b) et
P(c), essayez de calculer

directement m1 . Pour y arriver, utilisez la formule m1P = E[T1 |X0 = 1] = k=1 P[T1∗ ≥ k|X0 = 1]

plutôt que la formule usuelle m1 = E[T1 |X0 = 1] = ∞


∗ ∗
k=1 k P[T1 = k|X0 = 1]. Enfin, comparez
Pk 1
j=1 j avec log(k).

55
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

56
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 3

Marches aléatoires

Dans le présent chapitre nous étudions un type particulier de chaı̂ne de Markov à temps discret :
les marches aléatoires. Ceci nous permettra d’illustrer plusieurs concepts étudiés au chapitre 2.

3.1 La marche aléatoire sur Z


Une particule se déplace sur l’ensemble des entiers relatifs Z. Au temps 0, la particule se trouve à
l’origine. À chaque unité de temps, la particule se déplace vers un des deux sites voisins : vers la
droite avec probabilité p, vers la gauche avec probabilité 1 − p. On suppose ici que 0 < p < 1. Le
cas p = 0 et le cas p = 1 sont sans intérêt. Si on pose

Xn = la position de la particule après n déplacements,

alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur Z, issue de l’origine et avec matrice
stochastique donnée par 
 p si j = i + 1,
Pij = 1 − p si j = i − 1,

0 si j ∈
/ {i − 1, i + 1}.
Cette chaı̂ne de Markov est appelée la marche aléatoire sur Z. Si p = 1/2, on dit que la marche
aléatoire est symétrique. Si p > 1/2, on dit qu’il y a dérive vers la droite alors que si p < 1/2 on
dit qu’il y a dérive vers la gauche. Avec la description ci-dessus, notre marche aléatoire est dite
issu de l’origine. On peut bien sûr considérer le cas où la marche aléatoire démarre à partir d’un
autre point ainsi que le cas où elle démarre à partir d’un point choisi au hasard selon une certaine
distribution de probabilité sur Z.

En examinant son graphe de communication, on constate que cette chaı̂ne de Markov est irréductible
et qu’elle est de période 2. La chaı̂ne étant irréductible, le Théorème 18 du chapitre 2 nous assure
que les états sont ou bien tous récurrents, ou bien tous transitoires. Examinons ce qui se passe avec
l’état 0. Pour déterminer
P∞si nous sommes dans le Pcas récurrent ou dans le cas transitoire, il suffit
n ∞ n < ∞.
de déterminer si on a n=0 P00 = ∞ ou si on a n=0 P00
n > 0 si
En examinant le graphe de communication de cette marche aléatoire, on constate que P00
et seulement si n est un entier pair. On obtient donc

X ∞
X
n 2n
P00 = P00 .
n=0 n=0

57
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Si la marche aléatoire est à l’origine au temps zéro, alors elle sera à l’origine au temps 2n si et
seulement si il y a, parmi les 2n premiers pas, exactement n pas vers la droite et n pas vers la
gauche. Il y a en tout 2nn trajectoires différentes, de longueur 2n, avec n pas vers la droite et n
pas vers la gauche. Chacune de ces trajectoires a une probabilité égale à pn (1 − p)n . On a donc
 
2n 2n n
P00 = p (1 − p)n ,
n

de sorte que
∞ ∞ ∞   ∞
X
n
X
2n
X 2n n n
X (2n)!
P00 = P00 = p (1 − p) = (p (1 − p))n .
n n! n!
n=0 n=0 n=0 n=0

Est-ce que cette somme converge ou est-ce qu’elle diverge ? Pour répondre à cette question, nous
allons invoquer la formule de Stirling. Cette formule, habituellement écrite sous la forme suivante

n! ∼ nn e−n 2πn, (3.1)

nous dit que n! est asymptotiquement équivalent à nn e−n 2πn. Le sens précis de l’équation (3.1)
est le suivant :
n!
lim √ = 1.
n→∞ n en −n 2πn
En appliquant 3 fois la formule de Stirling, on obtient
  √
2n (2n)! (2n)2n e−2n 2π2n 22n
= ∼ √ √ =√ .
n n! n! nn e−n 2πn nn e−n 2πn πn

On a donc  
2n 2n n 22n (4p (1 − p))n
P00 = p (1 − p)n ∼ √ (p (1 − p))n = √ .
n πn πn
On a donc obtenu le résultat suivant.

Proposition 1. Pour la marche aléatoire sur Z, on a


 
2n 2n n (4p (1 − p))n
P00 = p (1 − p)n ∼ √ . (3.2)
n πn

En particulier, pour la marche aléatoire symétrique sur Z, on a


2n
2n 1
P00 = n2n ∼ √ . (3.3)
2 πn

Pour la suite nous aurons besoin du résultat suivant.

Proposition 2. Si (an ; n ≥ 1) et (bn ; n ≥ 1) sont des suites de nombres réels positifs et si an ∼ bn


alors on a
X∞ X∞
an < ∞ si et seulement si bn < ∞.
n=1 n=1

58
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

P∞
Démonstration. P∞ La démonstration se fait en deux partie. D’une part
P∞ on montre que si Pn=1 an

converge, alors n=1 bn converge. D’autre part on montre que si n=1 an diverge, alors n=1 bn
diverge. Rappelons d’abord que notre hypothèse an ∼ bb signifie que limn→∞ abnn = 1. Cela implique,
entre autres choses, qu’il existe un entier n∗ tel que
1 an
≤ ≤ 2 pour tout n ≥ n∗ . (3.4)
2 bn
P
Première partie. Supposons que ∞ n=1 an < ∞. La première inégalité de l’équation (3.4) nous
donne bn ≤ 2an pour tout n ≥ n∗ et on obtient donc

X nX
∗ −1 ∞
X nX
∗ −1 ∞
X
bn = bn + bn ≤ bn + 2 an < ∞.
n=1 n=1 n=n∗ n=1 n=n∗
P
Deuxième partie. Supposons que ∞ n=1 an = ∞. La deuxième inégalité de l’équation (3.4) nous
donne bn ≥ an /2 pour tout n ≥ n∗ et on obtient donc
∞ ∞ ∞
X X 1 X
bn ≥ bn ≥ an = ∞.
n=n∗
2 n=n
n=1 ∗

Ceci complète la démonstration de la Proposition 2.

Revenons à notre marche aléatoire. D’après les deux propositions ci-dessus, on a


∞ ∞
X
2n
X (4p (1 − p))n
P00 <∞ si et seulement si √ < ∞.
n=0 n=1
πn

Dans le cas où p = 1/2, on obtient


∞ ∞ ∞
X (4p (1 − p))n X 1 1 X 1
√ = √ =√ √ = ∞.
n=1
πn n=1
πn π n=1 n
P∞ 2n
Donc, dans le cas où p = 1/2 on a n=0 P00 = ∞. On conclut que la marche aléatoire symétrique
sur Z est récurrente.
Dans le cas où p 6= 1/2, on a 0 ≤ 4p(1 − p) < 1 et on obtient
∞ ∞
X (4p (1 − p))n X
√ < (4p (1 − p))n < ∞.
n=1
πn n=1
P
Donc dans le cas où p 6= 1/2 on a ∞ 2n
n=0 P00 < ∞. On conclut que la marche aléatoire asymétrique
sur Z est transitoire. On a donc démontré le théorème suivant :

Théorème 1. Dans le cas symétrique, la marche aléatoire sur Z est récurrente. Dans le cas
asymétrique elle est transitoire.

Remarque. Comme on a pu le voir dans les paragraphes précédents, la récurrence de la marche


aléatoire symétrique sur Z est une conséquence de l’équation (3.3). Voici comment on aurait pu devi-
ner le résultat (3.3) avec l’aide du théorème limite central. On note d’abord qu’on peut représenter

59
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

la marche aléatoire symétrique sur Z de la façon suivante. On se donne une suite de variables
aléatoires indépendantes et identiquement distribuées, disons ξ1 , ξ2 , ξ3 , ..., avec distribution

P[ξi = 1] = 1/2 et P[ξi = −1] = 1/2,

et on pose 
0P si n = 0
Xn = n
j=1 ξj si n ≥ 1.
La suite (Xn ; n ≥ 0) est alors une marche aléatoire symétrique sur Z, issue de l’origine. Avec cette
représentation, on a  
X2n
2n
P00 = P[X2n = 0 | X0 = 0] = P  ξj = 0 .
j=1

Les variables ξj étant i.i.d. avec moyenne 0 et variance


P 1, le théorème limite central nous dit que
si n est grand alors la distribution de la variable 2n
j=1 j peut être approximée par la loi N (0, 2n).
ξ
Avec correction pour la continuité, on obtient
 
2n Z 1
2n
X 1 2 1 1
P00 = P ξj = 0 ≈ √ e−x /4n dx ≈ 2 × √ = √ .
−1 4πn 4πn πn
j=1

3.2 La marche aléatoire sur Zd


À la section 3.1, nous avons étudié la marche aléatoire sur Z. On peut également étudier la marche
aléatoire sur Zd , où d est un entier supérieur à 1. Nous allons nous limiter au cas symétrique.

Pour la marche aléatoire symétrique sur Z2 , la particule démarre au point (0, 0). À chaque unité
de temps la particule se déplace vers un des quatre sites adjacents, chaque direction ayant la même
probabilité 1/4 d’être choisie. Dans le cas d = 3, chaque état possède six voisins. La particule
démarre au point (0, 0, 0) et à chaque unité de temps elle se déplace vers un des six sites adjacents,
chaque direction ayant la même probabilité 1/6 d’être choisie. Dans Zd chaque état possède 2d
voisins. Par exemple, dans Z5 , les 10 voisins de l’état (8, 3, −2, 7, 28) sont les états

(8, 3, −2, 7, 29) (8, 3, −2, 8, 28) (8, 3, −1, 7, 28) (8, 4, −2, 7, 28) (9, 3, −2, 7, 28)
(8, 3, −2, 7, 27) (8, 3, −2, 6, 28) (8, 3, −3, 7, 28) (8, 2, −2, 7, 28) (7, 3, −2, 7, 28)

Plus généralement, les voisins du point (j1 , j2 , ..., jd ) ∈ Zd sont les 2d points de Zd qui diffèrent du
point (j1 , j2 , ..., jd ) en une seule coordonnée et pour lesquels la valeur absolue de cette différence
est égale à 1. À chaque unité de temps, la marche aléatoire effectue une transition vers un des
2d états voisins. Ces transitions se font avec probabilité 1/(2d) pour chacune des 2d directions
possibles. La matrice stochastique associée à la marche aléatoire symétrique sur Zd est donc la
matrice P = (Pij ; i ∈ Zd , j ∈ Zd ), avec
(
1
2d si |i − j| = 1
Pij =
0 si |i − j| 6= 1.

Ici, |i − j| dénote la distance euclidienne entre les points i et j.

Voici un résultat fondamental en théorie des processus aléatoires.

60
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Théorème 2. [Polya 1922]


La marche aléatoire sur Zd est récurrente si d = 1 ou d = 2. Elle est transitoire si d ≥ 3.

Démonstration. Le cas d = 1 a été traité à la section 3.1. Considérons le cas d = 2. Écrivons


2n , plutôt que P 2n
P00 (0,0)(0,0) , pour dénoter la probabilité conditionnelle P[X2n = (0, 0) | X0 = (0, 0)].
2n
On calcule ce P00 en procédant comme à la section 3.1. Pour être de retour à l’origine après 2n
pas, il faut que le nombre de pas vers la droite soit égal au nombre de pas vers la gauche et il faut
que le nombre de pas vers le haut soit égal au nombre de pas vers le bas. Imaginez une trajectoire
de longueur 2n qui démarre au point (0, 0) et qui se termine au point (0, 0). Si cette trajectoire
comprend k pas vers la droite, alors forcément elle comprend k pas vers la gauche, n − k pas vers le
haut et n − k pas vers le bas. Le nombre total de trajectoires de ce type est donné par le coefficient
multinomial
(2n)!
.
k!k!(n − k)!(n − k)!
Les valeurs possibles de k sont les entiers 0, 1, 2, 3, ..., n. Chaque trajectoire a une probabilité égale
à 1/42n . On obtient donc
n
2n
X (2n)! 1
P00 =
k!k!(n − k)!(n − k)! 42n
k=0
n
1 (2n)! X n!n!
= 2n
4 n!n! k!k!(n − k)!(n − k)!
k=0

2n X n  2
n n
=
42n k
k=0
2n 2  !2 2n
n n
= =
42n 22n
P 2 
Pour l’avant dernière égalité, on a utilisé l’identité combinatoire bien connue nk=0 nk = 2n n .
La deuxième partie de l’équation (3.3) nous permet donc de conclure que pour la marche aléatoire
symétrique sur Z2 on a
!
2n 2
2n n 1
P00 = 2n
∼ . (3.5)
2 πn
P P2n
Puisque la série ∞ 1
n=1 n diverge, on conclut que la série
2n
n=0 P00 diverge. On a donc récurrence.

À la lumière des équations (3.3) et (3.5), on pourrait être tenté de croire que pour la marche
aléatoire symétrique sur Zd on a
!d
2n
2n n 1
P00 = ∼ .
22n (πn)d/2

Attention, cette généralisation ne tient pas ! En réalité, l’égalité ci-dessus est valide seulement dans
le cas d = 1 et dans le cas d = 2. Par ailleurs, le résultat suivant est vraie pour tout d ≥ 1 :

2n dd/2 /2d−1
P00 ∼ . (3.6)
(πn)d/2

61
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On peut obtenir le résultat (3.6) à partir de la version multi-dimensionnelle du théorème limite


central, comme on a fait pour le cas d = 1 à la fin de la section 3.1.
P∞ 1 P∞ 2n
Avec d ≥ 3, la série n=1 nd/2 converge ! Donc, avec d ≥ 3, la série n=0 P00 converge et on
conclut que la marche aléatoire symétrique sur Zd est transitoire lorsque d ≥ 3.

Remarque. Prenons le cas d = 3. Le théorème de Polya nous dit que la marche aléatoire symétrique
sur Z3 est transitoire. Donc, partant de l’origine il n’est pas certain que nous reviendrons un jour
à l’origine. Mais alors, quelle est la probabilité de retour à l’origine ? Il existe une formule très
compliquée qui permet de calculer cette probabilité. Cette formule nous donne f0 = 0.340537330...

3.3 La marche aléatoire sur {0, 1, 2, ..., m}


Nous reprenons ici l’exemple 2 de la section 2 du chapitre 2 : la marche aléatoire (Xn ; n ≥ 0)
sur l’ensemble {0, 1, 2, ..., m}. Pour fixer les idées, on suppose ici que les frontières 0 et m sont
absorbantes. La matrice des probabilités de transition est donc la matrice stochastique suivante. Il
s’agit bien sûr d’une matrice carrée de dimension m + 1 par m + 1.
 
1 0 0 0 ··· 0 0 0
 1−p 0 p 0 ··· 0 0 0 
 
 0
 1 − p 0 p · · · 0 0 0 

P=
 0 0 1 − p 0 ··· 0 0 0  .
 .. .. .. .. .. .. .. 
 . . . . . . . 
 
 0 0 0 0 ··· 1 − p 0 p 
0 0 0 0 ··· 0 0 1

On suppose que 0 < p < 1. Dans ce cas, il y a 3 classes de communication. Ce sont les ensembles
{0}, {1, 2, ..., m − 1} et {m}. La classe {1, 2, ..., m − 1} est transitoire et les états 0 et m sont
absorbants. Considérons les temps

min{n ≥ 0 : Xn = 0} si {n ≥ 0 : Xn = 0} 6= ∅
T0 =
∞ sinon,

min{n ≥ 0 : Xn = m} si {n ≥ 0 : Xn = m} 6= ∅
Tm =
∞ sinon,

T{0,m} = min{T0 , Tm }.

Il est facile de montrer que pour tout k ∈ {0, 1, 2, ..., m} on a

P[T{0,m} < ∞ | X0 = k] = 1. (3.7)

Imaginez que notre marche aléatoire est obtenue de la façon suivante. On démarre à l’état k. À
chaque unité de temps, on lance une pièce de monnaie dont la probabilité de pile est p. Si on obtient
pile, on fait un pas vers la droite (à moins d’être déjà rendu à l’état m). Si on obtient face, on
fait un pas vers la gauche (à moins d’être déjà rendu à l’état 0). Considérons les blocs de temps
B1 = {0, 1, 2, ..., m−1}, B2 = {m, m+1, m+2, ..., 2m−1}, B3 = {2m, 2m+1, 2m+2, ..., 3m−1}, B4 =
{3m, 3m + 1, 3m + 2, ..., 4m − 1}, etc. La probabilité que la pièce de monnaie nous donne m piles

62
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

consécutives ou m faces consécutives durant le bloc de temps Bℓ est pm + (1 − p)m > 0. Il est donc
certain que pour notre séquence de lancers de la pièce de monnaie on obtiendra éventuellement
un bloc Bℓ pour lequel les m lancers auront donné la même face. La probabilité que notre marche
aléatoire n’atteigne jamais l’ensemble {0, m} est donc nulle. L’équation (3.7) est donc satisfaite.

Pour k ∈ {0, 1, 2, ..., m}, posons

vm (k) = P[Tm < T0 |X0 = k].

Ce vm (k) est donc la probabilité d’absorption à m étant donnée que la marche démarre à l’état k.
Trivialement on a vm (0) = 0 et vm (m) = 1. Pour k ∈ {1, 2, 3, ..., m − 1} on obtient

vm (k) = P[Tm < T0 |X0 = k]


= P[Tm < T0 |X0 = k, X1 = k − 1] (1 − p) + P[Tm < T0 |X0 = k, X1 = k + 1] p
= P[Tm < T0 |X0 = k − 1] (1 − p) + P[Tm < T0 |X0 = k + 1] p
= (1 − p) vm (k − 1) + p vm (k + 1).

On a donc

vm (0) = 0
vm (k) = (1 − p) vm (k − 1) + p vm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
vm (m) = 1

Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est donnée
par
k
vm (k) = . (3.8)
m
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est
donnée par
 k
1 − 1−pp
vm (k) =  m . (3.9)
1−p
1− p

On a donc le résultat suivant.

Théorème 3. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m},  k

 m si p = 1/2

k
P[Tm < T0 |X0 = k] =

1− 1−p p
 1− 1−p m si p =

 6 1/2.
p

Calculons maintenant l’espérance de la variable aléatoire T{0,m} . Pour k ∈ {0, 1, 2, ..., m}, posons

wm (k) = E[T{0,m} |X0 = k].

Ce wm (k) est donc le temps moyen avant absorption pour la marche aléatoire sur {0, 1, 2, ..., m}
lorsque l’état initial est l’état k. Trivialement on a wm (0) = wm (m) = 0. Pour k ∈ {1, 2, 3, ..., m−1}

63
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

on obtient

wm (k) = E[T{0,m} |X0 = k]


= E[T{0,m} |X0 = k, X1 = k − 1] (1 − p) + E[T{0,m} |X0 = k, X1 = k + 1] p
= (1 + E[T{0,m} |X0 = k − 1]) (1 − p) + (1 + E[T{0,m} |X0 = k + 1]) p
= (1 − p) (1 + wm (k − 1)) + p (1 + wm (k + 1))
= 1 + (1 − p) wm (k − 1) + p wm (k + 1).

On a donc

wm (0) = 0
wm (k) = 1 + (1 − p) wm (k − 1) + p wm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
wm (m) = 0

Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est alors
donnée par
wm (k) = k(m − k). (3.10)
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est alors
donnée par
 k
1−p
k m 1 − p
wm (k) = −   . (3.11)
1 − 2p 1 − 2p 1 − 1−p m
p

On a donc le résultat suivant.

Théorème 4. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m}, 

 k(m − k) si p = 1/2

k
E[T{0,m} |X0 = k] =

1− 1−p
k m p
 1−2p − 1−2p 1− 1−p m si p 6= 1/2.


p

Remarque. En anglais, la technique utilisée dans la présente section est appelée first step analysis,
la raison étant que nous avons conditionné sur le résultat du premier pas.

3.4 La marche aléatoire sur N0


Considérons maintenant la marche aléatoire (Xn ; n ≥ 0) sur l’ensemble N0 = {0, 1, 2, 3, ...}. Voici
la matrice stochastique de cette marche aléatoire.
 
1−r r 0 0 0 ···
 1−p 0 p 0 0 ··· 
 
 0
 1 − p 0 p 0 ··· 

P= 0 0 1−p 0 p ··· 
 
 0
 0 0 1 − p 0 ··· 

.. .. .. .. ..
. . . . .

64
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On s’intéresse au cas irréductible. On suppose donc que 0 < p < 1 et 0 < r ≤ 1. Posons

B = l’événement ≪ la marche ne visitera jamais l’origine ≫ = {T0 = ∞}


Bm = l’événement ≪ la marche visitera l’état m avant de visiter l’état 0 ≫ = {Tm < T0 }.

Lorsque X0 = k > 0 on a

B = ∩∞
m=k+1 Bm et Bk+1 ⊃ Bk+2 ⊃ Bk+3 ⊃ · · ·

On obtient donc, pour k ≥ 1,

P[T0 = ∞|X0 = k] = P[B|X0 = k] = P[∩∞


m=k+1 Bm |X0 = k]
= lim P[Bm |X0 = k] = lim P[Tm < T0 |X0 = k]
m→∞ m→∞
= lim vm (k)
m→∞
  k

 1− 1−p
p
limm→∞  1−p m si p 6= 1/2
= 1− p

 k
limm→∞ m si p = 1/2
  k
 1 − 1−p si p > 1/2
= p

0 si p ≤ 1/2.

On a donc   
 1−p k si p > 1/2
P[T0 < ∞|X0 = k] = p (3.12)

1 si p ≤ 1/2.
Ce résultat nous permet, entre autres choses, de conclure que dans le cas irréductible (0 < r ≤ 1 et
0 < p < 1) la marche aléatoire sur N0 est transitoire si p > 1/2 et récurrente si p ≤ 1/2.

Nous allons maintenant considérer le cas irréductible et récurrent (0 < r ≤ 1 et 0 < p ≤ 1/2) et
nous allons déterminer si la récurrence est nulle ou positive. Comme à la section précédente, posons
T{0,m} = min{T0 , Tm } et notons que si X0 = k alors on a T{0,k+1} ≤ T{0,k+2} ≤ T{0,k+3} ≤ · · · et

T0 = lim T{0,m} .
m→∞

On en déduit que si p = 1/2 alors pour tout k ≥ 1 on a

E[T0 |X0 = k] = E[ lim T{0,m} |X0 = k] = lim E[T{0,m} |X0 = k] = lim k(m − k) = ∞
m→∞ m→∞ m→∞

alors que si p < 1/2 alors pour tout k ≥ 1 on a

E[T0 |X0 = k] = E[ lim T{0,m} |X0 = k] = lim E[T{0,m} |X0 = k]


m→∞ m→∞
  k 
1−p

 k m 1− p 
 k
= lim −  m = < ∞.
m→∞   1 − 2p 1 − 2p 1− p 1−p 
 1 − 2p

On conclut que si p = 1/2 on a récurrence nulle alors que si p < 1/2 on a récurrence positive.

65
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

3.5 Retour sur la marche aléatoire sur Z


Nous avons vu à la section 1 du présent chapitre que la marche aléatoire symétrique sur Z est
récurrente. Avec l’aide des résultats obtenus à la section précédente, il est facile de montrer qu’il
s’agit d’une récurrence nulle. Il suffit de montrer que

E[T0∗ | X0 = 0] = ∞. (3.13)

où T0∗ dénote le temps du premier retour à l’état 0, c’est-à-dire T0∗ = min{n ≥ 1 : Xn = 0}. Voici
deux méthodes différentes pour démontrer l’équation (3.13).

Première méthode. Puisqu’on démarre à l’origine, au temps 1 on se retrouve où bien à l’état 1,
ou bien à l’état -1. On a vu à la section précédente que, partant de l’état 1, l’espérance du temps
nécessaire pour atteindre l’état 0 est infini. Par symétrie il en est de même si on part de l’état -1.
On a donc

E[T0∗ | X0 = 0]
= E[T0∗ | X0 = 0, X1 = 1] P[X1 = 1 | X0 = 0] + E[T0∗ | X0 = 0, X1 = −1] P[X1 = −1 | X0 = 0]
  
∗ 1 ∗ 1
= (1 + E[T0 | X0 = 1]) × (1 + E[T0 | X0 = −1]) ×
2 2
   
1 1
= (1 + ∞) × + (1 + ∞) × = ∞.
2 2

Deuxième méthode. L’argument suivant nous permet d’obtenir l’équation (3.13). Il nous permet
également de mieux comprendre ce qui se passe entre deux visites à l’état 0. Pour tout m ∈ Z,
posons
T0∗ −1
X
Km = I{m} (Xn ).
n=0

Cette variable aléatoire Km représente donc le nombre total de visites à l’état m avant le temps
T0∗ . On a alors X
T0∗ = Km
m∈Z

et il s’ensuit que X
E[T0∗ | X0 = 0] = E[Km | X0 = 0]. (3.14)
m∈Z

Nous allons maintenant calculer, pour tout m ∈ Z, l’espérance conditionnelle E[Km | X0 = 0]. Le
cas m = 0 est trivial. On a E[K0 | X0 = 0] = 1. Pour m 6= 0, il suffit de calculer E[Km | X0 = 0]
dans le cas m > 0 puisque par symétrie on a E[K−m | X0 = 0] = E[Km | X0 = 0].

Proposition 3. Fixons m > 0. Pour tout ℓ ≥ 1 on a


 ℓ−1
1 1
P[Km ≥ ℓ | X0 = 0] = 1− .
2m 2m

Démonstration. Puisqu’on démarre à l’état 0, on aura Km ≥ 1 si et seulement si le premier pas


est un pas vers la droite (ce qui survient avec probabilité 1/2) et une fois rendu à l’état 1, on atteint

66
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

l’état m avant d’atteindre l’état 0 (ce qui survient avec probabilité 1/m en vertu du Théorème 3).
On a donc
1
P[Km ≥ 1 | X0 = 0] = .
2m
De même, on aura Km ≥ 2 si et seulement si on a Km ≥ 1 (ce qui survient avec probabilité 1/2m)
et, après notre première visite à l’état m, ou bien notre prochain pas est un pas vers la droite
(probabilité 1/2), ou bien notre prochain pas est un pas vers la gauche (probabilité 1/2) et par la
suite on atteint l’état m avant d’atteindre l’état 0 (probabilité (m − 1)/m en vertu du Théorème
3). On obtient donc
   
1 1 1m−1 1 1
P[Km ≥ 2 | X0 = 0] = + = 1− .
2m 2 2 m 2m 2m

On peut répéter ce processus indéfiniment. On obtient ainsi la Proposition 3.

Proposition 4. Pour tout m ∈ Z, on a E[Km | X0 = 0] = 1.

Démonstration. Suite à la remarque qui précède l’énoncé de la Proposition 3, il suffit de considérer


le cas m > 0. Dans ce cas la Proposition 3 nous donne

X
E[Km | X0 = 0] = P[Km ≥ ℓ | X0 = 0]
ℓ=1
∞  ℓ−1
X 1 1
= 1−
2m 2m
ℓ=1
∞   ∞  
1 X 1 ℓ−1 1 X 1 k
= 1− = 1− = 1.
2m 2m 2m 2m
ℓ=1 k=0
P∞ k 1
Pour la dernière égalité on a utilisé le fait que k=0 r = 1−r pour tout −1 < r < 1.

L’équation (3.14) combinée avec la Proposition 4 nous donne l’équation (3.13). On a donc démontré,
de deux façons différentes, le résultat suivant.

Théorème 5. La marche aléatoire symétrique sur Z est récurrente nulle.

Remarques.
1. Voici une troisième méthode pour montrer que la récurrence de la marche aléatoire symétrique
sur Z est une récurrente nulle. On peut montrer que la distribution conditionnelle de la va-
riable T0∗ sachant que X0 = 0 est donnée par
2k−2

k−1
P[T0∗ = 2k | X0 = 0] = k = 1, 2, 3, ...
k 22k−1

À partir de ce résultat on peut déduire que E[T0∗ | X0 = 0] = ∞.


2. On peut aussi montrer que la marche aléatoire symétrique sur Z2 est récurrente nulle. Une
approche possible consiste à adapter la deuxième méthode présentée ci-dessus.

67
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

3.6 Marche aléatoire sur un graphe simple connexe


Un graphe simple est un couple (S, A) où S est un ensemble non vide, fini ou infini dénombrable,
et où V est un ensemble de paires {x, y} avec x ∈ S et y ∈ S. Les éléments de S sont appelés les
sommets du graphe et les éléments de A sont appelés les arêtes du graphe. Les sommets x et y sont
dits voisins si ils sont connectés par une arête c’est-à-dire si la paire {x, y} appartient à l’ensemble
A. Implicitement on a les propriétés suivantes :
• Un graphe simple ne contient pas d’arêtes qui vont d’un sommet vers lui-même.
• Dans un graphe simple il y a toujours au plus une arête entre deux sommets donnés.
Un graphe simple est dit connexe si pour tout x ∈ S et y ∈ S, avec x 6= y, il existe un chemin qui
relie x à y c’est-à-dire il existe un entier n ≥ 1 et des sommets x = x0 , x1 , x2 , ..., xn−1 , xn = y tels
que {xj−1 , xj } ∈ A pour j = 1, 2, 3, ..., n.

On considère un graphe simple connexe, disons le graphe (S, A). Pour x ∈ S, on pose

degré(x) = le nombre de sommets y ∈ S qui sont voisins du sommet x

Si S est un ensemble fini de cardinal m, alors forcément on a degré(x) ≤ m − 1 pour tout x ∈ S.


Dans le cas où S est un ensemble infini dénombrable, on supposera toujours que degré(x) < ∞
pour tout x ∈ S.

Définition. Soit (S, A), un graphe simple connexe. La marche aléatoire sur (S, A) est la chaı̂ne de
Markov avec espace d’états S et avec probabilités de transition données par

1/degré(i) si j est un voisin de i
Pij =
0 sinon.

Certains des exemples étudiés dans le présent chapitre sont en fait des exemples de marche aléatoires
sur des graphes simples connexes. En voici trois.
1. La marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instantannée à 0 et à m.
L’étudiant peut vérifier que dans cet exemple on a degré(0) = degré(m) = 1 et degré(i) = 2
pour tout i ∈ {1, 2, ..., m − 1}.
2. La marche aléatoire symétrique sur Z. Dans ce cas on a degré(ℓ) = 2 pour tout ℓ ∈ Z.
3. La marche aléatoire symétrique sur Z2 . Dans ce cas on a degré(ℓ) = 4 pour tout ℓ ∈ Z2 .
Au prochain chapitre, nous verrons quelques propriétés et applications intéressantes des marches
aléatoires sur les graphes simples connexes finis.

68
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

3.7 Les exercices du chapitre 3

Numéro 1. André dispose de 20$ et Benoı̂t dispose de 15$. Il vont jouer à pile ou face jusqu’à ce
que l’un d’eux se ruine. À chaque pile André donne 25 cents à Benoı̂t. À chaque face Benoı̂t donne
25 cents à André. Quelle est la probabilité que André gagne ? Si la pièce est lancée à toutes les 30
secondes, le jeu durera en moyenne combien de temps ?

Numéro 2. Charles dispose de 20$ et Denis dispose de 15$. Il vont jouer à lancer un dé jusqu’à
ce que l’un d’eux se ruine. Quand le lancer du dé donne lieu à un 1 ou un 4, Denis donne 25 cents
à Charles. Quand le lancer du dé donne lieu à un 2, un 3, un 5 ou un 6, Charles donne 25 cents à
Denis. Quelle est la probabilité que Charles gagne ? Si le dé est lancé à toutes les 30 secondes, le
jeu durera en moyenne combien de temps ?

Numéro 3. Au Casino Chez Fabien, il y a un seul jeu et une seule sorte de joueur. Lorsqu’un
joueur se présente, il arrive toujours avec 40$. Il mise toujours 1$ et il finit toujours par se ruiner.
On suppose qu’à chaque fois qu’il mise 1$, il a une probabilité p de gagner 1$ (en plus de récupérer
le 1$ qu’il a misé) et une probabilité 1 − p de perdre son 1$. Le joueur mise 1$ à toutes les 30
secondes, jusqu’à ce qu’il soit complètement ruiné. On a observé les temps de jeu des 457 derniers
joueurs. Le temps moyen requis pour se ruiner était de 3h40m. Estimez p.
P
Numéro 4. En classe on a utilisé le critère basé sur ∞ n
n=0 Pii pour montrer que la marche aléatoire
sur Z est récurrente si p = 1/2 et non récurrente si p 6= 1/2. Avec l’aide de la loi des grands
nombres, donnez une démonstration alternative de la non récurrence de la marche aléatoire sur Z
lorsque p 6= 1/2. Suggestion : On écrit Xn pour dénoter la position au temps n. On suppose que
la marche démarre à l’origine. Donc X0 = 0. On peut alors exprimer Xn de la façon suivante :
Xn = η1 + η2 + · · · + ηn avec η1 , η2 , η3 , ... i.i.d. avec distribution donnée par P[ηj = −1] = 1 − p et
P[ηj = 1] = p. Quelle est l’espérance des ηj ? Qu’est-ce que la loi des grands nombres nous dit au
sujet de Xn /n ? Qu’est-ce qu’elle nous dit au sujet de Xn ?

Numéro 5. SupposonsPque η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. Poisson(1). Posons Y0 = 0
et, pour n ≥ 1, Yn = nk=1 (ηk − 1).
(a) Obtenez la fonction de masse de Yn et calculez sa moyenne et sa variance.
(b) Expliquez en quelques mots pourquoi la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace d’états Z.
(c) Obtenez une expression pour les probabilités de transition Pij .
(d) La chaı̂ne (Yn ; n ≥ 0) est-elle irréductible ? Est-elle apériodique ?
P
(e) La chaı̂ne (Yn ; n ≥ 0) est-elle récurrente ? Utilisez le critère basé sur ∞ n
n=0 P00 .

Numéro 6. Un rat se déplace dans un labyrinthe constitué de 9 cases carrées de dimension 1 × 1


disposées de façon à former un carré de dimension 3 × 3. En partant du coin supérieur gauche et
en allant de gauche à droite, ligne par ligne, les cases sont appelées case A, case B,. case C,...,
case I. Chaque case communique, au moyen de petites portes, avec les 2, 3 ou 4 cases qui lui sont
adjacentes. Lorsqu’il se trouve dans une case, le rat choisit une des portes accessibles, au hasard et
de façon uniforme. On suppose que le rat fait une transition par unité de temps et on pose Xn =
la case dans laquelle se trouve le rat après n transition. La suite (Xn ; n ≥ 0) est alors une chaı̂ne
de Markov à temps discret. Vérifiez qu’il s’agit d’une marche aléatoire sur un graphe simple et
connexe. Dessinez ce graphe. Calculez le degré de chaque sommet.

69
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 7. On considère la marche aléatoire (Xn ; n ≥ 0) sur le graphe suivant. L’espace des états
est l’ensemble des 13 sommets. À partir d’un sommet, on se déplace vers un sommet choisi au
hasard et de façon uniforme parmi nos voisins immédiats.

L’état situé en plein centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en
commençant par l’état situé à droite de A et en voyageant dans le sens anti-horaire, les états
B, C, D, E, F et G. Les 6 états en périphérie sont, en commençant par celui d’en haut et en voya-
geant dans le sens anti-horaire, les états H, I, J, K, L et M . On pose


 0 si Xn = A

Yn = 1 si Xn ∈ {B, C, D, E, F, G}



2 si Xn ∈ {H, I, J, K, L, M }.

La suite (Yn ; n ≥ 0) est-elle une chaı̂ne de Markov sur {0, 1, 2} ? Si oui, quelle est sa matrice
stochastique ? Si non, pourquoi ?

Numéro 8. Au casino de Charlevoix, la roulette compte 37 cases numérotées 0, 1, 2, 3,..., 36. La


case 0 est de couleur verte. Parmi les 36 autres cases, il y a 18 cases rouges et 18 cases noires.
On suppose qu’il s’agit d’une roulette honnête : lorsqu’on fait tourner la roulette, chacune des 37
cases a la même probabilité 1/37 de capturer la bille. Lorsqu’on mise 10$ sur la couleur rouge, la
probabilité de gagner est donc 18/37 et la probabilité de perdre est 19/37. Si la bille est capturée par
une case rouge, on gagne ; on récupère notre mise de 10$ et le casino nous donne 10$ additionnel.
Si la bille est capturée par une case noire ou par la case verte, on perd notre mise de 10$.

Un joueur se présente au casino de Charlevoix avec 100$. Il joue uniquement à la roulette et il mise
toujours 10$ sur le rouge. Il joue jusqu’à ce que sa fortune atteigne 200$ ou jusqu’à ce qu’il soit
ruiné, selon le cas.
(a) Calculez la probabilité que le joueur rentrera chez lui avec 200$.
(b) En supposant que le croupier fait tourner la roulette 30 fois par heure, combien d’heures en
moyenne notre joueur passera-t-il au casino ?
(c) Le joueur vient de rentrer chez lui. Calculez la probabilité que durant son séjour au casino
sa fortune maximale aura été de 170$.

70
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 9. Une particule se déplace sur le graphe binaire infini dessiné ci-dessous. L’ensemble
des états (ou sites) est l’ensemble S de tous les sommets du graphe. À chaque unité de temps, la
particule se déplace vers un de ses voisins, c’est-à-dire vers un des sites adjacents au site où elle
se trouve présentement. Notez que le site O n’a que deux voisins alors que tous les autres sites
ont exactement trois voisins. Lors d’une transition, les sites adjacents ont tous la même probabilité
d’être choisi.
(a) Obtenez la probabilité que partant du site C la particule visitera un jour le site O.
(b) Cochez la bonne case :
 L’état C est transitoire.
 L’état C est récurrent nul.
 L’état C est récurrent positif.

Numéro 10.
(a) Avec la notation de la section 3.3, calculez vm (50) et wm (50) dans le cas où m = 100 et
p = 0.48.
(b) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k pour laquelle la probabilité
vm (k) est le plus proche possible de 1/2.
(c) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k qui maximize l’espérance
wm (k).

71
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 11. On fixe m, un entier positif, et on fixe 0 < r < 1. On considère (Xn ; n ≥ 0), la marche
aléatoire symétrique sur {0, 1, 2, ..., m}, avec absorption à 0 et à m et avec ralentissement de taux r
partout ailleurs. Il s’agit de la chaı̂ne de Markov sur {0, 1, 2, ..., m} avec probabilités de transition
données par P00 = Pmm = 1 et, pour 0 < i < m,
 1−r
 2 si j = i − 1
Pij = r si j = i
 1−r
2 si j = i + 1

(a) Dessinez le graphe de communication. Quelles sont les classes de communication ? Quels
sont les états transitoires ? Quels sont les états récurrents ? Déterminez la période de chaque
état.
(b) Partant de l’état i, quelle est la probabilité d’absorption à l’état 0 ? À l’état m ?
(c) Si cette chaı̂ne de Markov démarre à un état i autre que l’état 0 ou l’état m, quel est la
distribution du temps passé à cet état i avant de faire une première vraie transition (c’est-
à-dire une transition vers un état autre que l’état i) ?
(d) Partant de l’état i, quelle est l’espérance du temps d’absorption

T{0,m} = min{n ≥ 0 : Xn ∈ {0, m}}.

Numéro 12. Dans le cas m > 0, obtenez la fonction de masse de la variable aléatoire Km de la
section 3.5, conditionnellement à X0 = 0. Dessinez le graphe de cette fonction de masse dans les
cas m = 1, m = 2, m = 3, m = 10.

Numéro 13. Considérons la marche aléatoire sur N0 = {0, 1, 2, 3, ...} avec p = 1/2. On pose
T = min{n ≥ 0 : Xn = 0}. On fixe m, un entier strictement plus grand que 0. On pose
T
X
Vm = 1{m} (Xn ).
n=0

La variable aléatoire Vm dénote donc le nombre total de visites à l’état m avant le temps T . Pour
k ≥ 0, calculez E[Vm | X0 = k].
Suggestions :
• Calculez d’abord E[Vm | X0 = m]. Pour y arriver, il suffit de voir que la distribution condi-
tionnelle de Vm sachant X0 = m est une loi géométrique sur les entiers positifs.
• Obtenez ensuite E[Vm | X0 = k] dans le cas où k > m.
• Enfin, obtenez E[Vm | X0 = k] dans le cas où 0 ≤ k < m.

Numéro 14. On considère la marche aléatoire (Xn ; n ≥ 0) sur Z, avec paramètre p > 1/2. On
pose
X∞
N= 1{0} (Xn ).
n=0

Autrement dit, N dénote le nombre total de visite à l’origine durant la vie entière de la marche
aléatoire. Pour chaque k ∈ Z, obtenez la distribution conditionnelle de N sachant X0 = k.

72
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 15. Une particule se déplace sur les 11 points du shéma ci-dessous. La particule démarre
au point A. À chaque unité de temps la particule se déplace vers un des deux points adjacents ;
elle va dans le sens horaire avec probabilité 3/5, dans le sens anti-horaire avec probabilité 2/5.
Si Xn dénote la position de la particule après n transitions, alors la suite de variables aléatoires
(Xn ; n ≥ 0) est une chaı̂ne de Markov.

(a) Il est clair que cette chaı̂ne de Markov est irréductible. Est-elle périodique ou apériodique ?
Si elle est périodique, donnez sa période. Si elle est apériodique, expliquez pourquoi.
(b) Obtenez l’espérance du temps que ça va prendre, en partant du point A, pour atteindre le
point B.

Numéro 16. On considère la marche aléatoire (Xn ; n ≥ 0) sur N0 , avec paramètre p = 1/2 et avec
réflexion instantannée à l’origine. Pour k ∈ N0 , on pose

Tk = min{n ≥ 0 : Xn = k}.

Calculez E[Tk |X0 = 0].

Numéro 17. Xavier se déplace sur Z selon une marche aléatoire (Xn ; n ≥ 0) issue du point 25 et
avec paramètre p = 2/3. Indépendamment de Xavier, Yvonne se déplace sur Z selon une marche
aléatoire (Yn ; n ≥ 0) issue du point 15 et avec paramètre p = 3/4. Calculez l’espérance du temps que
ça va prendre pour que Yvonne rattrape Xavier. Autrement dit, calculez l’espérance de la variable
aléatoire suivante :
T = min{n ≥ 0 : Xn = Yn }.

73
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 18. Soit (Xn ; n ≥ 0), la marche aléatoire symétrique sur N0 = {0, 1, 2, 3, ...}, avec absorp-
tion à l’état 0. On démarre cette marche aléatoire à l’état 1 et on considère la variable aléatoire

Z = max{Xn ; n ≥ 0}.

Par exemple, dans le schéma ci-dessous on a Z = 4.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

(a) Pour m ≥ 1, calculez P[Z ≥ m].


(b) À partir du résultat de la partie (a), obtenez E[Z].

74
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 4

Chaı̂nes de Markov à temps discret :


loi stationnaire et convergence

Dans le présent chapitre nous étudions le concept de loi stationnaire et nous montrons que sous
certaines conditions une chaı̂ne de Markov (Xn ; n ≥ 0) possède une et une seule loi stationnaire et
la distribution de Xn converge vers cette loi stationnaire peu importe l’état initial de la chaı̂ne.

4.1 Loi stationnaire


Le concept de loi stationnaire joue un rôle très important en théorie des chaı̂nes de Markov.

Définition. Soit P, une matrice stochastique sur l’espace d’états S. Une loi stationnaire pour P, ou
distribution stationnaire pour P, est une distribution de probabilité sur S, disons π = (πi ; i ∈ S), qui
satisfait l’équation matricielle πP = π. Autrement dit, la distribution de probabilité π = (πi ; i ∈ S)
est une loi stationnaire pour P si on a
X
πi Pij = πj pour tout j ∈ S. (4.1)
i∈S

Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et si π est une loi stationnaire
pour P, alors on dira aussi que π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0).

On a vu au chapitre 2 que si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et
avec loi initiale ν, alors la distribution de Xn est le vecteur L(Xn ) = νP n . Supposons que π est une
loi stationnaire pour P et supposons qu’on démarre notre chaı̂ne de Markov avec la distribution π.
On a alors L(Xn ) = πP n . En utilisant l’associativité du produit matriciel et en invoquant n fois
l’équation πP = π, on obtient

L(Xn ) = πP n = (πP) P n−1


= πP n−1 = (πP) P n−2
= πP n−2 = (πP) P n−3
..
.
= πP 2 = (πP) P
= πP = π.

75
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a donc le résultat suivant :

Théorème 1. Si π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0) et si L(X0 ) = π,
alors on a L(Xn ) = π pour tout n ≥ 0.

Une chaı̂ne de Markov peut posséder plusieurs lois stationnaires. Prenons le cas de la chaı̂ne de
Markov sur S = {0, 1} avec matrice stochastique
 
1 0
P= .
0 1

Il est facile de voir que dans ce cas toutes les distributions de probabilité sur S sont des lois
stationnaires pour P.
Considérons maintenant le cas des chaı̂nes de Markov irréductibles. C’est le cas qui nous intéresse
le plus dans les applications. Nous verrons plus loin que si une chaı̂ne de Markov est irréductible,
alors elle possède une loi stationnaire si et seulement si elle est récurrente positive. Dans ce cas,
cette loi stationnaire est unique et est donnée par
1
πi =
mi
où mi = E[Ti∗ | X0 = i] (voir la section 10 du chapitre 2). En particulier, une chaı̂ne de Markov
irréductible sur un espace d’états fini possède une et une seule loi stationnaire.
Pour trouver la loi stationnaire associée à une matrice stochastique irréductible P, il suffit de
trouver une distribution de probabilité π = (πi ; i ∈ S) qui satisfait le système d’équations linéaires
donné par l’équation (4.1). Considérons le cas où l’espace des états S est un ensemble de cardinal
m. L’équation (4.1) nous donne alors m équations linéaires avec m inconnues. Étant donné que les
sommes lignes de la matrice P sont toutes égales à 1, la me équation est forcément une combinaison
linéaire des m − 1 autres et le système d’équations
P (4.1) possèdera donc une infinité de solutions.
Si on ajoute à ces m − 1 équations la condition m i=1 πi = 1, alors on a un système de m équations
avec m inconnues et ce système possèdera une solution unique.
Exemple 1. Supposons que S = {1, 2, 3} et que la matrice stochastique P est donnée par
 
0 1 0
P =  1/4 1/4 1/2  .
0 3/4 1/4
P3
Si on écrit au long l’équation (4.1) avec j = 1 et avec j = 2 ainsi que l’équation i=1 πi = 1, on
obtient le système d’équations linéaires suivant :
1
4 π2 = π1
1 3
π1 + π2 + π3 = π2
4 4
π1 + π2 + π3 = 1

On résout facilement ce système d’équations linéaires et on obtient la solution suivante :


 
3 12 8
(π1 , π2 , π3 ) = , , .
23 23 23

76
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

En procédant comme dans l’exemple ci-dessus, on peut en principe trouver la loi stationnaire de
n’importe quelle chaı̂ne de Markov irréductible sur un espace d’états fini. Dans certains cas, on
peut exploiter la structure particulière de la matrice P pour trouver rapidement la loi stationnaire.
Ci-dessous on considère deux scénarios particuliers.

Matrices doublement stochastiques


Définition. Une matrice stochastique est dite doublement stochastique si ses sommes colonnes
sont toutes égales à 1. On dit aussi matrice bistochastique.

En d’autres mots, une matrice doublement stochastique est une matrice stochastique dont la trans-
posée est elle aussi une matrice stochastique. La notion de matrice doublement stochastique est
importante parce que d’une part on rencontre souvent ce type de matrice stochastique dans la
pratique et d’autre part on a le résultat suivant :

Théorème 2. Si P est une matrice doublement stochastique sur un espace d’états fini S, alors la
loi uniforme sur S est une loi stationnaire pour P.

Démonstration. Sans perte de généralité, supposons que S = {1, 2, 3, ..., m} pour un certain entier
positif m. Posons  
1 1 1 1
π = (π1 , π2 , π3 , ...πm ) = , , , ..., .
m m m m
Il faut montrer qu’avec ce choix P
de π on a bel et bien πP = π. Autrement dit, on doit montrer que
pour tout j ∈ {1, 2, ..., m} on a mi=1 πi Pij = πj . Fixons j ∈ {1, 2, ..., m}. On obtient

m m m
X X 1 1 X 1
πi Pij = Pij = Pij = = πj .
m m m
i=1 i=1 i=1

Pour l’avant dernière égalité, on a utiliser le fait que P est doublement stochastique.

Exemple 2. Considérons la marche aléatoire symétrique sur {0, 1, 2, 3, 4, 5} avec réflexion amortie
à 50% à chacune des deux frontières. La matrice stochastique associée à cette chaı̂ne de Markov est
la matrice suivante :  1 1 
2 2 0 0 0 0
 1
 2 0 12 0 0 0 

 
 0 1 0 1 0 0 
 2 2 
P= .
 0 0 12 0 12 0 
 
 1 1 
 0 0 0 2 0 2 
0 0 0 0 12 21
On observe que cette matrice stochastique est en fait doublement stochastique. Le théorème 2 nous
permet de conclure que la loi de probabilité π = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6) est stationnaire pour
cette marche aléatoire.

Exemple 3. On considère une jeu de cartes ordinaire. On place ce jeu de cartes sur la table, face
vers le bas. Les positions des cartes sont numérotées de 1 à 52, avec 1 pour la carte du dessus et
52 pour la carte du dessous. On mélange les cartes de la façon suivante. À chaque unité de temps,

77
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

on choisit un entier, disons l’entier k, au hasard et avec distribution uniforme sur l’ensemble des
entiers de 1 à 52, puis on prend la carte en position k et on la mets en position 1. Autrement dit,
on choisit une carte au hasard et on la place sur le dessus du paquet. On pose Xn = l’état du jeu
de cartes après n transitions. La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’espace des
états est l’ensemble des 52! permutations possibles des entiers 1 à 52. On vérifie facilement que la
matrice stochastique associée à cette chaı̂ne de Markov est une matrice carrée de dimension 52! par
52! avec les propriétés suivantes. Chaque ligne de cette matrice comprend 52 entrées qui sont égales
à 1/52. De même, chaque colonne de cette matrice comprend 52 entrées qui sont égales à 1/52.
Cette matrice est donc doublement stochastique et on conclut que la loi uniforme sur l’ensemble
des 52! permutations est une loi stationnaire pour cette chaı̂ne de Markov.

Marche aléatoire sur un graphe simple, connexe et fini


On reprend le scénario de la section 6 du chapitre 3. On a donc un graphe simple et connexe, disons
le graphe (S, A), et on considère la marche aléatoire sur ce graphe, c’est-à-dire la chaı̂ne de Markov
avec espace d’états S et avec probabilités de transition données par
(
1/degré(i) si j est un voisin de i
Pij =
0 sinon.

On suppose maintenant que S est un ensemble fini. On pose


X
Z= degré(i) = 2 × Cardinal(A)
i∈S

et on écrit Vi pour dénoter l’ensemble des états qui sont voisins de l’état i. Notez que le degré de
l’état i est simplement le cardinal de l’ensemble Vi et que la probabilité de transition Pij peut être
1
écrite sous la forme suivante : Pij = 1 (j). Rappelons qu’on utilise la notation 1A (x) pour
degré(i) Vi
dénoter la fonction indicatrice de l’ensemble A. Autrement dit, 1A (x) = 1 si x ∈ A et 1A (x) = 0 si
x∈ / A.

Théorème 3. Soit (Xn ; n ≥ 0), une marche aléatoire sur un graphe simple, connexe et fini. Soit
π, la distribution de probabilité sur S donnée par

degré(i)
πi = pour tout i ∈ S.
Z
Alors π est une loi stationnaire pour la chaı̂ne (Xn ; n ≥ 0).

Démonstration. Il suffit de vérifier que l’équation (4.1) est satisfaite pour tout j ∈ S. Fixons
j ∈ S. On obtient
X X  degré(i) 1

πi Pij = × 1V (j)
Z degré(i) i
i∈S i∈S
1 X 1 X degré(j)
= 1Vi (j) = 1Vj (i) = = πj .
Z Z Z
i∈S i∈S

Pour la troisième égalité, on a simplement utilisé le fait que j ∈ Vi si et seulement si i ∈ Vj .

78
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Exemple 4. Considérons la marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instan-
tannée aux frontières. Il s’agit d’une marche aléatoire sur un graphe simple, connexe et fini. On
a degré(0) = degré(m) = 1 et degré(i) = 2 pour tout i ∈ {1, 2, ..., m − 1}. On a Z = 2m. La loi
stationnaire est donc  
1 1 1 1 1 1
π= , , , , ..., , .
2m m m m m 2m

Exemple 5. Considérons l’exercice numéro 6 du chapitre 3. Il s’agit de la marche aléatoire sur le


graphe suivant :

A B C

D E F

G H I

Les sommets A, C, G et I sont de degré 2. Les sommets B, D, F et H sont de degré 3. Le sommet


E est de degré 4. On a Z = 24. La loi stationnaire est donc le vecteur
 
2 3 2 3 4 3 2 3 2
(πA , πB , πC , πD , πE , πF , πG , πH , πI ) = , , , , , , , , .
24 24 24 24 24 24 24 24 24

Exemple 6. La marche aléatoire récurrente positive sur N0


Nous terminons cette section avec un exemple de calcul de loi stationnaire pour une chaı̂ne de
Markov sur un espace d’états infini. Plus précisément, nous considérons le cas de la marche aléatoire
sur N0 avec paramètres 0 < p < 1/2 et 0 < r ≤ 1. Voici la matrice des probabilités de transition :
 
1−r r 0 0 0 ···
 1−p 0 p 0 0 ··· 
 
 0
 1 − p 0 p 0 · · · 

P= 0 0 1−p 0 p ··· 
 
 0
 0 0 1 − p 0 ···  
.. .. .. .. ..
. . . . .

Nous avons vu à la section 3.4 que cette marche aléatoire est une chaı̂ne de Markov irréductible
et récurrente positive. De plus, elle est apériodique si 0 < r < 1. On souhaite trouver P un vecteur
π = (π0 , π1 , π2 , ...) qui satisfait l’équation matricielle πP = π sujet à la contrainte ∞
k=0 πk = 1.

79
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Lorsqu’on écrit au long l’équation matricielle πP = π, on obtient les équations suivantes :

π0 (1 − r) + π1 (1 − p) = π0 (0)
π0 r + π2 (1 − p) = π1 (1)
π1 p + π3 (1 − p) = π2 (2)
π2 p + π4 (1 − p) = π3 (3)
π3 p + π3 (1 − p) = π4 (4)
.. ..
. .

À l’aide de l’équation (0), on peut exprimer π1 en termes de π0 . On obtient


1
π1 = rπ0 . (0∗ )
1−p

À l’aide des équations (0∗ ) et (1), on peut exprimer π2 en termes de π0 . On obtient


p
π2 = rπ0 . (1∗ )
(1 − p)2

À l’aide des équations (0∗ ), (1∗ ) et (2), on peut exprimer π3 en termes de π0 . On obtient

p2
π3 = rπ0 . (2∗ )
(1 − p)3
Bref, on obtient
pk−1
πk = rπ0 pour tout k ≥ 1. (4.2)
(1 − p)k
P∞
Combinée avec le fait que k=0 πk = 1, l’équation (4.2) nous donne

X ∞
X
1 = πk = π0 + πk
k=0 k=1

Xpk−1
= π0 + rπ0
(1 − p)k
k=1
∞  k
rπ0 X p
= π0 +
p 1−p
k=1
rπ0 p/(1 − p)
= π0 +
p 1 − (p/(1 − p))
 
r
= π0 1 + .
1 − 2p
On obtient donc
1 1 − 2p
π0 = r = .
1+ 1−2p 1 − 2p + r
Lorsqu’on insère ce résultat dans l’équation (4.2), on obtient finalement notre loi stationnaire :

1−2p
 1−2p+r si k = 0
πk =  k
 1−2p r p
si k ≥ 1.
1−2p+r p 1−p

80
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Dans le cas particulier où r = p, cette distribution prend la forme suivante.

πk = (1 − p∗ )k p∗ pour tout k ≥ 0,

avec
1 − 2p
p∗ = .
1−p
On reconnaı̂t la loi géométrique(p∗ ) sur {0, 1, 2, 3, ...}.

4.2 Le théorème du renouvellement


Nous présentons ici une version ≪ temps discret ≫ d’un théorème de la théorie des probabilités
appelé le théorème du renouvellement. Ce théorème sera utilisé dans la prochaine section pour
étudier la convergence des chaı̂nes de Markov à temps discret. Voici un exemple illustratif.

Exemple 7. On considère une séquence de lancers d’un dé. On pose S0 = 0 et, pour m ≥ 1,
Sm = V1 + V2 + · · · + Vm . Ici Vk dénote le résultat du k e lancer du dé. Pour n ≥ 1, on pose

pn = P [∪∞
m=1 {Sm = n}] = P [∃ m ≥ 1 : Sm = n] .

On souhaite évaluer la limite limn→∞ pn . L’interprétation suivante va nous aider à deviner la


réponse. On imagine un jeton que l’on déplace, selon les résultats de nos lancers du dé, sur un
échiquier linéaire infini c’est-à-dire une séquence de cases numérotées 1, 2, 3, 4,... comme dans le
schéma ci-dessous. Dans ce schéma, les petits disques noirs indiquent les cases où le jeton atterrit.
Ici on a illustré le cas où les résultats des cinq premiers lancers du dé sont, dans cet ordre, 2, 4, 1,
3 et 4 de sorte que (S1 , S2 , S3 , S4 , S5 ) = (2, 6, 7, 10, 14).

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Avec cette interprétation, pn est simplement la probabilité que le jeton atterrira sur la case numéro
n durant son voyage vers l’infini. Le raisonnement suivant nous permet de deviner la réponse à la
question posée. Ici les variables aléatoires V1 , V2 , V3 , ... sont i.i.d. avec loi uniforme sur l’ensemble
{1, 2, 3, 4, 5, 6}. L’espérance de cette loi est 7/2. La longueur moyenne des pas du jeton est donc
7/2. Après 2000 pas, la distance totale parcourue par le jeton sera donc environ 2000 × 27 = 7000.
Donc après 2000 pas le jeton sera aux alentours de la case numéro 7000 et il aura visité 2000 cases.
La proportion de cases visitées par le jeton est donc environ 2000/7000, c’est-à-dire 2/7. Il est donc
raisonnable de croire que
2
lim pn = . (4.3)
n→∞ 7
Quelques remarques au sujet de cet exemple.
1. Le raisonnement ci-dessus demeure valide si on utilise un dé non équilibré,
P à condition de
faire les ajustements suivants. La longueur moyenne des pas sera µ = 6ℓ=1 ℓ P[V1 = ℓ] plutôt
que 7/2 et la limite qui apparaı̂t à l’équation (4.3) sera 1/µ plutôt que 2/7. De plus, il n’est
pas nécessaire que les faces soient numérotées 1, 2, 3, 4, 5, 6 et il n’est pas nécessaire que le
dé utilisé soit un dé à 6 faces.

81
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

2. Le raisonnement ci-dessus demeure valide si, pour le premier pas, on utilise un dé différent
de celui utilisé pour tous les autres pas.
3. Le raisonnement ci-dessus ne tient pas toujours. Par exemple, si on utilise un dé équilibré
à 6 faces et si les valeurs de ces 6 faces sont les valeurs 2, 4, 6, 8, 10, 12 plutôt que 1, 2,
3, 4, 5, 6, alors limn→∞ pn n’existe pas. Dans ce cas on a p2n+1 = 0 pour tout n ≥ 0 et
limn→∞ p2n = 2/7.
À la lumière de l’exemple et des remarques ci-dessus, le résultat suivant n’est pas surprenant.
Théorème 4. [Le Théorème du renouvellement ; cas discret].
On considère des variables aléatoires indépendantes, disons U, V1 , V2 , V3 , .... On suppose que
(i) Les variables V1 , V2 , V3 , ..., sont i.i.d. à valeurs dans {1, 2, 3, ...}.
(ii) La variable aléatoire U est à valeurs dans {0, 1, 2, 3, ...}.
(iii) p.g.c.d.{n ≥ 1 : P[V1 = n] > 0} = 1.
On pose

S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m tel que U + Sm = n], pour tout n ≥ 1
µ = E[V1 ].

On admet la possibilité que µ = ∞. On a alors


1
lim pn = . (4.4)
n→∞ µ

Nous allons prendre ce résultat pour acquis. Une démontration sera présentée à la section 4.5.

4.3 Théorème de convergence


Il existe différentes façon d’énoncer le théorème de convergence pour les chaı̂nes de Markov à temps
discret et il existe différentes approches possibles pour démontrer le théorème. Nous utiliserons
l’approche basée sur le théorème du renouvellement présenté à la section précédente. Dans ce qui
suit, on suppose que (Xn ; n ≥ 0) est une chaı̂ne de Markov à temps discret sur l’espace d’états S
et avec matrice stochastique P. On rappelle que mj dénote l’espérance du temps de retour à l’état
j lorsqu’on démarre la chaı̂ne à l’état j.

Théorème 5. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive. Alors
(a) Pour tout i et j dans S on a
1
lim Pijn = . (4.5)
n→∞ mj
Pour la suite, on pose πj = 1/mj , pour tout j ∈ S.
(b) Le vecteur π = (πj ; j ∈ S) est une distribution de probabilité sur S.
(c) En fait, le vecteur π = (πj ; j ∈ S) est une loi stationnaire pour P.
(d) En fait, le vecteur π = (πj ; j ∈ S) est la seule loi stationnaire pour P.

82
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration de la partie (a). Fixons i et j dans S et posons

U (j) = min{n ≥ 0 : Xn = j}
(j)
V1 = min{n ≥ 1 : XU (j) +n = j}
(j)
V2 = min{n ≥ 1 : XU (j) +V (j) +n = j}
1
(j)
V3 = min{n ≥ 1 : XU (j) +V (j) +V (j) +n = j}
1 2
..
.

L’irréductibilité et la récurrence de notre chaı̂ne de Markov entraine que P[U (j) < ∞|X0 = i] = 1
(j)
et P[Vn < ∞|X0 = i] = 1 pour tout i et j dans S et pour tout n ≥ 1. L’apériodicité de notre
chaı̂ne de Markov entraine que la condition
(j)
pgcd{n ≥ 1 : P[V1 = n|X0 = i] > 0} = 1,

est satisfaite. On peut donc appliquer le théorème du renouvellement de la section précédente. On


(j) P (j)
obtient, avec Sm = m ℓ=1 Vℓ ,
h   i 1
lim P ∪∞ (j) (j)
m=1 U + S m = n X
0 = i = (j)
n→∞
E[V1 |X0 = i]

c’est-à-dire
1
lim P[Xn = j|X0 = i] = ,
n→∞ mj
c’est-à-dire
1
lim Pijn = .
n→∞ mj

Remarque. La démonstration ci-dessus montre que la partie (a) du théorème est valide aussi bien
dans le cas récurrent nul que dans le cas récurrent positif puisque le théorème du renouvellement
est valide même dans le cas où µ = ∞ (avec l’interprétation 1/µ = 1/∞ = 0). En fait il est facile
de voir que que l’équation (4.5) est valide aussi dans le cas transitoire.

Pour les parties (b), (c) et (d), on a besoin de l’hypothèse de récurrence positive.

PSi la chaı̂ne est récurrente positive, alors on a mj < ∞ et donc


Démonstration de la partie (b).
πj = 1/mj > 0. Pour montrer que j∈S πj = 1, on fixe un état i ∈ S et on utilise le résultat de la
partie (a) : X X X
πj = lim Pijn = lim Pijn = lim 1 = 1.
n→∞ n→∞ n→∞
j∈S j∈S j∈S

SiPS est un ensemble fini,Palors la somme ci-dessus est une somme finie et la deuxième égalité
( j∈S limn→∞ = limn→∞ j∈S ) est triviale. Dans le cas où S est un espace d’états infini, on peut
justifier la deuxième égalité en utilisant l’hypothèse de récurrence positive. Les détails techniques
seront présentés à la section 4.6.

83
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration de la partie (c). Il faut montrer Pque πP = π. Autrement dit, il faut montrer
que pour tout j ∈ S on a (πP)j = πj , c’est-à-dire i∈S πi Pij = πj . Voici comment y arriver. On
fixe un état k ∈ S et on utilise le résultat de la partie (a) :
X X  X X
n n n n+1
πi Pij = lim Pki Pij = lim Pki Pij = lim Pki Pij = lim Pkj = πj .
n→∞ n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S

À nouveau le point délicat est le passage de la somme à l’intérieure de la limite. C’est trivial si
S est un ensemble fini et c’est plus compliqué dans le cas où S est un ensemble infini. Les détails
techniques pour le cas où S est un ensemble infini seront présentés à la section 4.6.

Démonstration de la partie (d). Supposons que le vecteur π ∗ = (πj∗ ; j ∈ S) est aussi une loi
stationnaire pour P. On a alors π ∗ = π ∗ P. De là on conclut que π ∗ = π ∗ P n pour tout n ≥ 1. Donc
si on fixe un état j ∈ S, on a
X
πj∗ = (π ∗ P n )j = πi∗ Pijn pour tout n ≥ 1.
i∈S

On obtient donc
X X X X X
πj∗ = lim πi∗ Pijn = lim πi∗ Pijn = πi∗ lim Pijn = πi∗ πj = πj πi∗ = πj .
n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S i∈S

À nouveau le point délicat est la justification de la deuxième égalité. C’est trivial si S est fini et ça
plus compliqué dans le cas où S est infini. Les détails techniques pour le cas où S est un ensemble
infini seront présentés à la section 4.6.

Remarque 1. On a vu que toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états
fini est récurrente positive. On a donc le corollaire suivant :
Corollaire. Toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états fini possède
une et une seule loi stationnaire. Cette loi stationnaire est la loi π = (πj ; j ∈ S) avec πj = 1/mj .
Remarque 2. Le théorème 5 admet la réciproque suivante : Si une chaı̂ne de Markov irréductible
et apériodique possède un loi stationnaire, alors cette chaı̂ne de Markov est récurrente positive. La
démonstration, qui n’est pas très difficile, ne sera pas présentée ici.
Pour le prochain théorème, on utilisera la notation suivante :
n
X
Nj (n) = 1{j} (Xℓ ).
ℓ=0

La variable aléatoire Nj (n) est donc le nombre total de visites à l’état j du temps 0 au temps n.
Théorème 6. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive et
écrivons π = (πj ; j ∈ S) pour dénoter la loi stationnaire. Alors pour tout i et j dans S on a
 
Nj (n)
P lim = πj X0 = i = 1.
(4.6)
n→∞ n + 1

Autrement dit, peu importe où on démarre la chaı̂ne, la proportion de temps passé à l’état j durant
l’intervalle de temps de 0 à n converge vers πj quand n tend vers l’infini.

84
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration. Avec la notation de la démonstration du Théorème 5, la loi des grands nombres


nous donne " P #
(j)
U (j) + m V
ℓ=1 ℓ


P lim = mj X0 = i = 1.
m→∞ m
Par ailleurs, l’hypothèse de récurrence nous assure que
h i

P lim Nj (n) = ∞ X0 = i = 1.
n→∞

En combinant ces deux équations, on obtient


" PNj (n) (j) #
U (j) + ℓ=1 Vℓ

P lim = mj X0 = i = 1. (4.7)
n→∞ Nj (n)

En examinant le graphe de la trajectoire de notre chaı̂ne de Markov, on observe que


Nj (n) Nj (n)+1
X (j)
X (j)
(j) (j)
U + Vℓ ≤n<U + Vℓ .
ℓ=1 ℓ=1

On a donc PNj (n) (j) PNj (n)+1 (j)


U (j) + ℓ=1 Vℓ n U (j) + ℓ=1 Vℓ
≤ < . (4.8)
Nj (n) Nj (n) Nj (n)
L’équation (4.7) appliquée au terme de droite et au terme de gauche de l’équation (4.8) nous donne
 
n
P lim = mj X0 = i = 1,

n→∞ Nj (n)

donc  
Nj (n) 1
P lim = X0 = i = 1.
n→∞ n mj
Cette dernière équation est équivalente à l’équation (4.6). Ceci complète donc la démonstration du
Théorème 6.

Théorème 7. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive et


écrivons π = (πj ; j ∈ S) pour dénoter
P la loi stationnaire. Soit f , une fonction définie sur S et
à valeurs dans R. Supposons que j∈S |f (j)| πj < ∞. Alors, peu importe l’état initial i ∈ S, on a
n
1 X X
lim f (Xℓ ) = f (j) πj . (4.9)
n→∞ n + 1
ℓ=0 j∈S

Pn
Démonstration. Il suffit d’exprimer la somme ℓ=0 f (Xℓ ) comme une somme sur les états :
n
X X
f (Xℓ ) = f (j) Nj (n).
ℓ=0 j∈S

85
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On obtient donc
n
1 X 1 X
lim f (Xℓ ) = lim f (j) Nj (n)
n→∞ n + 1 n→∞ n + 1
ℓ=0 j∈S
X Nj (n)
= lim f (j)
n→∞ n+1
j∈S
 
X Nj (n)
= lim f (j)
n→∞ n+1
j∈S
X Nj (n) X
= f (j) lim = f (j) πj .
n→∞ n + 1
j∈S j∈S

Pour la dernière égalité, on a utilisé le Théorème 6. À nouveau le point délicat de cette démonstration
est la justification pour la troisième égalité ci-dessus, c’est-à-dire le passage de la limite à l’intérieur
de la somme. Dans le cas où S est un ensemble fini il n’y a pas de problème. Dans le cas où S est
un ensemble infini le passage de la limite à l’intérieur de la somme peut être justifié avec l’aide d’un
théorème d’analyse appelé le théorème de la convergence dominée.

Remarques.
1. Le côté droit de l’équation (4.9) peut-être interprété comme étant l’espérance de f (X ∗ ) où
X ∗ est une variable aléatoire à valeurs dans S et avec distribution π.
2. Le côté gauche de l’équation (4.9) peut être interprétée comme étant la limite (quand n tend
vers l’infini) du loyer moyen par unité de temps, en dollars, pour la période allant du temps
0 au temps n dans le scénario où à chaque visite à l’état j on doit payer un loyer égal à f (j)
dollars.
3. Sur le côté gauche de l’équation (4.9) on a une moyenne dans le temps alors que sur le côté
droit on a une moyenne sur l’espace des états. Le Théorème 7 nous dit que la moyenne dans
le temps converge vers la moyenne sur l’espace des états. Il s’agit d’un exemple de ce qu’on
appelle un théorème ergodique.

4.4 Quelques exemples


Exemple 8. Considérons le cas de la marche aléatoire sur un espace à seulement deux états,
disons l’espace S = {0, 1}. On peut alors écrire la matrice des probabilités de transition sous la
forme suivante :  
1−a a
P=
b 1−b
avec 0 ≤ a ≤ 1 et 0 ≤ b ≤ 1. En examinant le graphe de communication de cette chaı̂ne de Markov,
on note que la chaı̂ne est irréductible et apériodique si et seulement si on a 0 < a+b < 2. Supposons
pour la suite qu’on a 0 < a + b < 2. Le Théorème 5 nous assure qu’il existe une et une seule loi
stationnaire. On vérifie facilement que cette loi stationnaire est la suivante :
 
b a
π = (π0 , π1 ) = , . (4.10)
a+b a+b

86
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le Théorème 5 nous dit également que pour tout i et j dans S on a limn→∞ Pijn = πj . Dans le
présent scénario, ceci veut dire 
n = b
limn→∞ P00 a+b , 



n a
limn→∞ P01 = a+b , 
n = b
(4.11)
limn→∞ P10 a+b ,



n = a


limn→∞ P11 a+b .
Dans le présent scénario, on peut obtenir le résultat (4.11) et calculant explicitement les Pijn . En
effet, en procédant par induction sur n, on montre facilement que
b n a a n a
!
n a+b + (1 − (a + b)) a+b a+b − (1 − (a + b)) a+b
P =
b n b a n b
a+b − (1 − (a + b)) a+b a+b + (1 − (a + b)) a+b

On peut réécrire cette équation sous la forme suivante :


! a −a
!
b a
n a+b a+b n a+b a+b
P = b a
+ (1 − (a + b)) −b b
(4.12)
a+b a+b a+b a+b

Puisqu’on suppose que 0 < a + b < 2, on a −1 < 1 − (a + b) < 1 et donc

lim (1 − (a + b))n = 0.
n→∞

Donc, dans le cas irréductible et apériodique, l’équation (4.12) nous donne


!
b a
a+b a+b
lim P n = b a
n→∞
a+b a+b

c’est-à-dire
! ! !
n n n n b a
P00 P01 limn→∞ P00 limn→∞ P01 a+b a+b
lim n n
= n n
= b a
. (4.13)
n→∞ P10 P11 limn→∞ P10 limn→∞ P11 a+b a+b

L’équation (4.13) nous dit la même chose que l’équation (4.11).

Remarque. En examinant l’équation (4.12), on constate que non seulement on a limn→∞ Pijn = πj
pour tout i et j dans S mais en fait on a le résultat plus fort que voici :
n
Pij − πj ≤ (1 − (a + b))n pour tout i et j dans S et pour tout n ≥ 1.

Ce résultat nous dit que les Pijn convergent vers les πj à une vitesse géométrique. Il s’agit d’un cas
particulier du théorème suivant. La démonstration sera omise.

Théorème 8. Si P est une matrice stochastique irréductible et apériodique sur un espace d’états
fini et si π = (πj ; j ∈ S) dénote sa loi stationnaire, alors il existe des constantes c > 0 et 0 < ρ < 1
telles que
max Pijn − πj ≤ c ρn pour tout n ≥ 1.
i,j∈S

Exemple 9. Reprenons l’exemple 6 du présent chapitre c’est-à-dire la marche aléatoire sur N0 =


{0, 1, 2, 3, ...} avec paramètre 0 < p < 1/2 et avec taux de réflexion à l’origine 0 < r < 1. Cette

87
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

marche aléatoire est alors une chaı̂ne de Markov irréductible, apériodique et récurrente positive.
D’après notre Théorème 5, cette chaı̂ne de Markov possède une et une seule loi stationnaire. Pour
simplifier la discussion, considérons le cas où r = p. On a vu à l’exemple 6 que dans ce cas la loi
stationnaire est la loi π = (π0 , π1 , π2 , ...) donnée par

πk = (1 − p∗ )k p∗ pour tout k ≥ 0,

avec
1 − 2p
p∗ = .
1−p
1
Cette loi est appelée la loi géométrique(p∗ ) sur les entiers non négatifs. Son espérance est p∗ − 1 et
1−p∗
sa variance est Les théorèmes de la section précédentes nous permettent d’arriver à diverses
p2∗ .
conclusions, dont les suivantes :
• Partant de l’état k, le temps moyen de retour à l’état k est
 
1 1 1−p 1−p k
mk = = = .
πk (1 − p∗ )k p∗ 1 − 2p p
• Peu importe l’état initial i, la distribution de Xn converge, quand n → ∞, vers la loi
géométrique(p∗ ) sur les entiers non négatifs.

Exemple 10. On considère une chaı̂ne de Markov sur l’espace d’états S = N0 = {0, 1, 2, 3, ...}.
Voici la matrice des probabilités de transition :
 
1/2 1/2 0 0 0 0 ···
 1/3 1/3 1/3 0
 0 0 ···  
P =  1/4 1/4 1/4 1/4 0 0 · · ·  .
 
 1/5 1/5 1/5 1/5 1/5 0 · · · 
 
.. .. .. .. .. .. . .
. . . . . . .

En examinant le graphe de communication, on constate que cette chaı̂ne est irréductible et apé-
riodique. En comparant cette chaı̂ne avec la marche aléatoire récurrente positive sur N0 , on peut
montrer que notre chaı̂ne est récurrente positive. Voir l’exercice 17. Donc, d’après notre Théorème
5, cette chaı̂ne de Markov possède une loi stationnaire unique. Soit π = (π0 , π1 , π2 , π3 , ...), cette loi
stationnaire. On doit avoir πP = π. Cela nous donne les équations suivantes.
1 1 1 1
π0 + π1 + π2 + π3 + ... = π0 (4.14)
2 3 4 5
1 1 1 1
π0 + π1 + π2 + π3 + ... = π1 (4.15)
2 3 4 5
1 1 1
π1 + π2 + π3 + ... = π2 (4.16)
3 4 5
1 1
π2 + π3 + ... = π3 (4.17)
4 5
1
π3 + ... = π4 (4.18)
5
..
. .

On remarque que l’on peut exprimer π1 , π2 , π3 , ... en fonction de π0 . Les équations (4.14) et (4.15)
nous donne π1 = π0 . Ensuite (4.15) et (4.16) nous donne π2 = π1 − 12 π0 = 12 π0 . Si on poursuit dans

88
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

cette voie, on obtient π3 = 61 π0 , π4 = 24


1 1
π0 et π5 = 120 1
π0 . On semble donc avoir πn = n! π0 . On peut
le vérifier plus formellement en remarquant que notre système d’équations nous donne la relation
de récurrence
1
πn+1 = πn − πn−1 n ∈ {1, 2, 3, ...}
n+1
1
et puis en vérifiant que πn = n! π0
est bel et bien solution de cette relation de récurrence. Bref, on
a donc  π0 π0 
π = π0 , π0 , , , ... .
2! 3!
P∞ −1
Pour terminer, on utilise le fait que n=0 πn = 1 et on obtient π0 = e−1 . On a donc πn = en! . La
loi stationnaire est donc la loi de poisson de moyenne 1.

Exemple 11. On fixe k et ℓ, des entiers positifs. On fixe r, un entier tel que 1 ≤ r ≤ k + ℓ. On
considère deux urnes, disons l’urne A et l’urne B. L’urne A contient k boules et l’urne B en contient
ℓ. Parmi ces k + ℓ boules, il y a r boules rouges et (k + ℓ) − r boules blanches. À chaque unité de
temps on choisit au hasard une boule à partir de l’urne A et une boule à partir de l’urne B et on
les échange ; la boule tirée de l’urne A est déposée dans l’urne B et la boule tirée de l’urne B est
déposée dans l’urne A. Notez que dans chaque urne le nombre de boules ne change jamais ; l’urne
A contient toujours k boules et l’urne B en contient toujours ℓ. Ce modèle est appelé le modèle de
Bernoulli et Laplace pour les gaz incompressibles. On pose

Xn = le nombre de boules rouges dans l’urne A au temps n.

La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’étudiant peut vérifier les faits suivants :
(a) L’espace des états est l’ensemble des entiers i tels que max{0, r − ℓ} ≤ i ≤ min{k, r}.
(b) La chaı̂ne est irréductible.
(c) Sauf dans le cas où k = ℓ = r = 1, la chaı̂ne est apériodique.
(d) La chaı̂ne est récurrente positive.
(e) La loi stationnaire est la loi hypergéométrique(k, r, k + ℓ). Autrement dit, les πj de la loi
stationnaire sont donnés par
r  k+ℓ−r
j k−j
πj = k+ℓ
pour tout j ∈ S.
k

4.5 Annexe A : Démonstration du théorème de la section 4.2


Nous présentons ici une version simplifiée du théorème de la section 4.2.
Théorème 9. [Cas spécial du Théorème 4 du présent chapitre].
On fixe ℓ, un entier positif, et on considère des variables aléatoires i.i.d. à valeurs dans {1, 2, 3, ..., ℓ},
disons V1 , V2 , V3 , .... On suppose que p.g.c.d.{j ≥ 1 : P[V1 = j > 0} = 1. On pose

S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m ≥ 0 tel que Sm = n], pour tout n ≥ 0
µ = E[V1 ].

89
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a alors
1
lim pn = . (4.19)
n→∞ µ

Démonstration. On imagine que la suite (Sm ; m ≥ 0) représente la progression d’un jeton le


long de l’échiquier linéaire infini de l’exemple 7 de la section 4.2 avec la différence qu’on travaille
maintenant avec un dé à ℓ faces et ces ℓ faces ne sont pas nécessairement équiprobables. Fixons n,
un entier positif plus grand que ℓ. Puisqu’à chaque lancer de ce dé on avance d’au mons une case,
il est certain qu’un jour on va atteindre la section {n, n + 1, n + 2, n + 3, ...} de l’échiquier. Donc, si
An dénote l’événement “le jeton va se rendre au delà de la case numéro n − 1”, c’est-à-dire si on
pose
An = ∪∞
m=0 {Sm ≥ n}

alors on a P[An ] = 1. Par ailleurs, avant d’aller au-delà de la case n − 1, le jeton va visiter au moins
une des ℓ case situées juste à gauche de la case numéro n. Le schéma ci-dessous illustre le cas où
ℓ = 6.

n−7 n−6 n−5 n−4 n−3 n−2 n−1 n

Si on pose

Bn,1 = “le jeton visite la case n − 1”


Bn,2 = “le jeton visite la case n − 2 et fait ensuite un pas de longueur au moins 2”
Bn,3 = “le jeton visite la case n − 3 et fait ensuite un pas de longueur au moins 3”
..
.
Bn,ℓ = “le jeton visite la case n − ℓ et fait ensuite un pas de longueur au moins ℓ”

alors on a
Bn,1 ∪ Bn,2 ∪ · · · ∪ Bn,ℓ = An .
Combiné avec le fait que P[An ] = 1 et le fait que les événements Bn,1 , Bn,2 , ..., Bn,ℓ sont mutuelle-
ment exclusifs, on obtient
P[Bn,1 ] + P[Bn,2 ] + · · · + P[Bn,ℓ ] = 1. (4.20)
Pour 1 ≤ j ≤ ℓ, on a

P[Bn,j ]
= P[( le jeton visite la case n − j ) ∩ ( le jeton fait ensuite un pas de longueur au moins j )]
= P[ le jeton visite la case n − j ]
×P[ le prochain pas est de longueur au moins j | le jeton vient de visiter la case n − j ]
= pn−j P[V1 ≥ j].

L’équation (4.20) nous donne donc

pn−1 P[V1 ≥ 1] + pn−2 P[V1 ≥ 2] + · · · + pn−ℓ P[V1 ≥ ℓ] = 1 (4.21)

90
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

En supposant que cette limite existe, posons

L = lim pn .
n→∞

Si on fait tendre n vers l’infini dans l’équation (4.21), on obtient

L P[V1 ≥ 1] + L P[V1 ≥ 2] + · · · + L P[V1 ≥ ℓ] = 1,

c’est-à-dire
L (P[V1 ≥ 1] + P[V1 ≥ 2] + · · · + P[V1 ≥ ℓ]) = 1.
La somme qui apparait ci-dessus est simplement l’espérance de V1 , c’est-à-dire µ. On a donc L µ = 1,
c’est-à-dire L = 1/µ.
Remarque. La démonstration ci-dessus est incomplète. Nous avons montré que si limn→∞ pn existe,
alors limn→∞ pn = 1/µ. Pour compléter la démonstration, il faudrait montrer que cette limite existe
bel et bien. C’est là qu’on utiliserait l’hypothèse à l’effet que p.g.c.d.{j ≥ 1 : P[V1 = j > 0} = 1.

4.6 Annexe B : Démonstrations des théorèmes de la section 4.3


La prochaine version du présent document contiendra les détails techniques qui ont été omis dans
les démonstrations des théorèmes de la section 4.3. Ces détails sont disponibles sur demande.

91
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

4.7 Les exercices du chapitre 4


Numéro 1. On considère une chaı̂ne de Markov (Xn ; n ≥ 0) sur l’ensemble S = {a, b, c}, avec loi
initiale ν = (1/4, 1/2, 1/4) et avec matrice stochastique
 
1/3 1/3 1/3
P =  1/2 1/4 1/4 
3/4 1/8 1/8

Obtenez la loi stationnaire de cette chaı̂ne de Markov.

Numéro 2. On fixe m, un entier positif, et on considère une chaı̂ne de Markov qui évolue de la
façon suivante sur l’espace S = {0, 1, 2, ..., m} :
• Si au temps n on est à l’état 0, alors au temps n + 1 on sera à l’état m.
• Si au temps n on est à l’état 0 < i ≤ m, alors au temps n + 1 on sera à un état choisi avec
distribution uniforme sur l’ensemble {0, 1, ..., i − 1}.
Donnez la matrice des probabilités de transition P. Dans le cas où m = 3, obtenez la loi stationnaire
π = (π0 , π1 , π2 , π3 ).

Numéro 3. On considère une puce qui se déplace sur les six sommets d’un hexagone régulier. À
chaque unité de temps, la puce fait un saut vers un des deux sommets adjacents au sommet sur
lequel elle se trouve. Elle va dans le sens horaire avec probabilité p et dans le sens anti-horaire avec
probabilité 1 − p. On suppose que 0 < p < 1. Les six sommets sont étiquetés 1, 2, 3, 4, 5 et 6 (en
allant dans le sens horaire). Au temps 0 on choisit un des sommets selon le résultat du lancer d’un
dé et on place la puce sur le sommet choisi. Obtenez la probabilité qu’après 37 sauts la puce sera
au sommet numéro 4.

Numéro 4. Montrez que la loi binomiale(m, 1/2) est une loi stationnaire pour le modèle de Eh-
renfest avec m boules.

Numéro 5. On considère la marche aléatoire sur le graphe suivant :

Nous avons rencontré cette marche aléatoire dans les exercices du chapitre 3. L’état situé en plein
centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en commençant par l’état situé
à droite de A et en voyageant dans le sens anti-horaire, les états B, C, D, E, F et G. Les 6 états en
périphérie sont, en commençant par celui d’en haut et en voyageant dans le sens anti-horaire, les
états H, I, J, K, L et M .

92
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) Obtenez la loi stationnaire.


(b) Dans ce problème, les points B, C, D, E, F et G sont à un pas du point A et les points
H, I, J, K, L et M sont à deux pas du point A. À la longue, on est en moyenne à quelle
distance du point A.

Numéro 6. Une particule se déplace sur m points placés sur un cercle. (Imaginez que ces m points
sont situés sur le cercle de rayon 1 aux angles k × 2π m , k = 0, 1, 2, ..., m − 1). À chaque unité de
temps, la particule fait un pas dans le sens anti-horaire avec probabilité a, elle reste sur place avec
probabilité b et elle fait un pas dans le sens horaire avec probabilité c. On suppose que a, b et c
sont positifs et que a + b + c = 1. On pose Xn = la position de la particule au temps n.
(a) Expliquez pourquoi la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov.
(b) La chaı̂ne est-elle irréductible ? Expliquez.
(c) La chaı̂ne est-elle apériodique ? Expliquez.
(d) Obtenez la loi stationnaire.

Numéro 7. On reprend le scénario de l’exercice numéro 14 du chapitre 2. Donc, pour le centre-ville


de Vancouver, on fait les hypothèses suivantes :
(i) Si il a plu hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.75.
(ii) Si il a fait beau hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.55.
(iii) Si il a plu hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est 0.25.
(iv) Si il a fait beau hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est
0.15.
D’après ces hypothèses, il pleut en moyenne combien de jours par année à Vancouver ?

Numéro 8. On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec


 −2/i
 e si j = i + 1
Pij = 1 − e−2/i si j = 1

0 sinon

(i) Montrez que cette chaı̂ne est irréductible et apériodique.


(ii) Montrez que cette chaı̂ne est récurrente positive.
On a vu au numéro 16(c) du chapitre 2 que cette chaı̂ne de Markov est irréductible, apériodique et
récurrente positive. Obtenez sa loi stationnaire.

Numéro 9. On reprend l’exercice numéro 5 du chapitre 2. Il s’agit d’une version élémentaire du


jeu des serpents et des échelles. L’échiquier est de dimension 3 par 3. Il y a donc 9 cases numérotées
de 1 à 9. Il y a deux échelles : une qui va de la case 2 à la case 7 et une qui va de la case 3 à la
case 5. Il y a deux serpents : un qui va de la case 6 à la case 1 et un qui va de la case 8 à la case
4. On joue avec une pièce de monnaie au lieu d’un dé. Avec Pile, on avance de une case, avec Face
on avance de deux cases. Partant de la case 0, ça va prendre en moyenne combien de lancers de la
pièce de monnaie pour atteindre la case 9 ?

93
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 10. On considère un jeu ordinaire de 52 cartes. On suppose que le jeu est neuf ; les cartes
sont dans l’ordre usuel des jeux de carte neufs (d’abord les piques de as à roi, puis les coeurs de
as à roi, puis les trèfles de as à roi, et enfin les carreaux de as à roi). On mélange les cartes selon
la méthode suivante. On choisit un nombre au hasard et de façon uniforme parmi les nombres 1 à
52. Si le nombre choisi est le nombre k, alors on prend la carte en position k et on la place sur le
dessus du paquet c’est-à-dire en position 1. Si on fait une transition par seconde, combien de temps
ça prendra, en moyenne, pour que le jeu de carte revienne à son état initial ?

Numéro 11. Pour la pièce A, la probabilité de pile est 9/10. Pour la pièce B, la probabilité de pile
est 5/10. Au départ, je choisis une pièce au hasard. Je lance cette pièce jusqu’à ce que j’obtienne
le côté face. Je change alors de pièce et je lance ma nouvelle pièce jusqu’à ce que j’obtienne le côté
face. Dès que j’obtiens face, je change de pièce. Et ainsi de suite. À la longue, quelle proportion des
lancers utilisent la pièce A ?

Numéro 12. On fixe 0 < p < 1 et on considère la chaı̂ne de Markov qui évolue de la façon
suivante sur l’espace S = {a, b, c, d}. À chaque unité de temps, on lance une pièce de monnaie avec
probabilité de pile égale à p. Si on obtient le côté face, alors on reste où on est. Si on obtient le
côté pile, alors on se déplace vers un des 3 autres états, chacun avec la même probabilité.
(a) Obtenez P, la matrice des probabilités de transition de cette chaı̂ne de Markov.
(b) Obtenez la loi stationnaire
(c) [Difficile]. Calculez explicitement la matrice P n et vérifiez que P n converge bel et bien vers
la matrice dont chacune des lignes est la loi stationnaire.

Numéro 13. On fixe m, un entier positif. On considère une séquence de lancers d’un dé. On écrit
Sn pour dénoter le total des n premiers lancers et on écrit pm (n) pour dénoter la probabilité que Sn
est un multiple de m. Obtenez limn→∞ pm (n). Suggestion : examinez la chaı̂ne de Markov définie
par Xn = le reste de la division de Sn par m.

Numéro 14. On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, 5} avec matrice des probabilités
de transition donnée par  
0 1/5 4/5 0 0
 0 0 0 1/2 1/2 
 
P=  0 0 0 1/4 3/4 

 1 0 0 0 0 
1 0 0 0 0
Calculez directement les mj = E[Tj∗ | X0 = j] et déduisez-en la loi stationnaire.

Numéro 15. On considère une chaı̂ne de Markov irréductible et apériodique sur l’espace d’états
S = {A, B, C, D}. Supposons que
• le temps moyen entre deux visites successives à l’état A est 3,
• le temps moyen entre deux visites successives à l’état B est 4,
• le temps moyen entre deux visites successives à l’état C est 6.
Quel est le temps moyen entre deux visites successives à l’état D ?

Numéro 16. Un consultant en statistique a des clients à Montréal, à Ottawa et à Québec. Il passe
toutes ses nuits dans l’une ou l’autre de ces trois villes. Il se déplace de ville en ville selon une
chaı̂ne de Markov avec les règles suivantes :

94
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

• Si un jour il est à Ottawa, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 1/2 qu’il restera à Ottawa.
• Si un jour il est à Montréal, alors il y a probabilité 1/8 qu’il sera à Ottawa le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 3/4 qu’il restera à Montréal.
• Si un jour il est à Québec, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Ottawa le lendemain et probabilité 1/2 qu’il sera à Québec.
À Ottawa le consultant paie 135$ pour une nuit à l’hôtel. À Montréal il paie 170$ et à Québec il
paie 110$. À la longue il paie en moyenne combien par nuit ?

Numéro 17. On considère la marche aléatoire sur le graphe connexe suivant :

A C D

E F G

(i) Obtenez P[X3 = F | X0 = B].


(ii) Si (πA , πB , πC , πD , πE , πF , πG ) dénote la loi stationnaire, alors que vaut πG ?

Numéro 18. Voici la matrice stochastique d’une chaı̂ne de Markov sur l’ensemble S = {1, 2, 3, 4, 5} :
 
0 1/2 1/2 0 0
 1/3 0 2/3 0 0 
 
P=  1/4 1/4 0 1/4 1/4 

 0 0 2/3 0 1/3 
0 0 1/2 1/2 0

Obtenez la loi stationnaire.

Numéro 19. On considère le modèle de Bernoulli et Laplace décrit à l’exemple 11, section 4.4.
(a) Obtenez la matrice des probabilités de transition de cette chaı̂ne de Markov dans le cas où
l’urne A contient 7 boules, l’urne B contient 10 boules et seulement 5 de ces 17 boules sont
rouges.
(b) Obtenez les probabilités de transition Pij dans le cas général. Notez qu’on peut avoir Pij > 0
seulement si j ∈ {i − 1, i, i + 1}. Il suffit donc de calculer les probabilités Pi,i−1 , Pii et Pi,i+1 .

Numéro 20. [Difficile mais joli]. On considère la chaı̂ne de Markov sur S = {0, 1, 2, 3, ...} avec
P0,0 = 3/4 et P0,1 = 1/4 et, pour i ≥ 1,
   
1 1 1 1
Pi,i+1 = 1− et Pi,i−1 = 1+ .
2 i+2 2 i+2

Obtenez la loi stationnaire de cette chaı̂ne de Markov.

95
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

96
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 5

Processus de branchement

5.1 Introduction
On suppose que ξn,ℓ , n ≥ 0, ℓ ≥ 1, sont des variables aléatoires à valeurs dans N0 = {0, 1, 2, ...},
indépendantes et identiquement distribuées. On pose pj = P[ξn,ℓ = j] et on écrit p = (p0 , p1 , p2 , ...).
On fixe k ∈ N0 , on pose X0 = k et on définit X1 , X2 , X3 , ... de façon itérative à l’aide de l’équation
Xn
X
Xn+1 = ξn,ℓ n ≥ 0. (5.1)
ℓ=1

Définition. La suite (Xn ; n ≥ 0) est appelée un processus de branchement de Galton et Watson


avec distribution de progéniture p = (p0 , p1 , p2 , ...) et avec k individus à la génération 0. La variable
aléatoire ξn,ℓ représente le nombre d’enfants de l’individu numéro ℓ de la ne génération. La variable
Xn représente le nombre total d’individus présents à la génération n.
Remarque. Ce modèle fut introduit en 1875 par Francis Galton (1822-1911) et Henry William
Watson (1827-1903). Galton s’intéressait au problème de la survie des noms de famille en Angleterre.
En avril 1873 il publia le problème suivant dans le magazine Educational Times :

PROBLEM 4001: A large nation, of whom we will only concern ourselves


with adult males, N in number, and who each bear separate surnames
colonise a district. Their law of population is such that, in each
generation, a0 per cent of the adult males have no male children who
reach adult life; a1 have one such male child; a2 have two; and so on
up to a5 who have five. Find (1) what proportion of their surnames
will have become extinct after r generations; and (2) how many
instances there will be of the surname being held by m persons.

Watson proposa une solution et, en 1875, Galton et Watson publièrent ensemble un article intitulé
On the probability of extinction of family names dans le Journal of the Anthropological Institute of
Great Britain and Ireland. En réalité, le mathématicien français Irénée-Jules Bienaymé (1796-1878)
avait étudié ce modèle dès 1845. C’est pourquoi on dit parfois “le processus de branchement de
Bienaymé-Galton-Watson”.
Le processus de Galton et Watson est une chaı̂ne de Markov à temps discret. L’espace des états est
l’ensemble des entiers non négatifs N0 . La matrice des probabilités de transitions est donnée par la
proposition suivante. Rappelons d’abord le concept de convolution de distributions de probabilité.

97
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Rappel. Si u = (u0 , u1 , u2 , ...) et v = (v0 , v1 , v2 , ...) sont des distributions de probabilité sur N0 ,
alors la convolution de u et v est la distribution de probabilité sur N0 , disons w = (w0 , w1 , w2 , ...),
donnée par
X k
wk = ui vk−i k ≥ 0.
i=0
La convolution
P de u et v est parfois dénotée u ⋆ v. On peut donc écrire w = u ⋆ v. On a donc
(u ⋆ v)k = ki=0 ui vk−i . Le concept de convolution est important à cause du résultat suivant : si X
et Y sont des variables aléatoires indépendantes, avec distributions u et v respectivement, alors la
distribution de la variable aléatoire X + Y est la convolution u ⋆ v. Il s’ensuit que si X1 , X2 , ..., Xm
sont desPvariables aléatoires i.i.d. avec distribution u = (u0 , u1 , u2 , ...), alors la distribution de la
somme m i=1 Xi est la convolution u ⋆ u ⋆ u ⋆ · · · ⋆ u. Cette convolution est parfois notée u
⋆m et elle

est appelée la convolution d’odre m de la distribution de probabilité u (avec elle-même). Notez que
la convolution d’odre 1 de la loi u est simplement la loi u et la convolution d’odre 0 de la loi u est
simplement la distribution concentrée à l’état 0.

Proposition 1. Le processus de branchement de Galton et Watson, avec distribution de progéniture


p = (p0 , p1 , p2 , ...) et avec k individus à la génération 0, est une chaı̂ne de Markov à temps discret sur
l’espace d’états N0 . Sa loi initiale est la distribution de probabilité concentrée à l’état k. Sa matrice
de probabilités de transition est la matrice P = (Pij ; i ≥ 0, j ≥ 0) dont la ie ligne (Pij ; j ≥ 0) est
la convolution d’odre i de la distribution de progéniture p = (p0 , p1 , p2 , ...).
Démonstration. Il est clair que (Xn ; n ≥ 0) est une chaı̂ne de Markov avec espace d’états N0 et
avec loi initiale concentrée à l’état k. Les probabilités de transition sont données par
"X #
Xn

Pij = P[Xn+1 = j|Xn = i] = P ξn,ℓ = j Xn = i = P[ξn,1 + ξn,2 + · · · + ξn,i = j].

ℓ=1

Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,i étant i.i.d. avec distribution p, il suit que la distribution de
ξn,1 + ξn,2 + · · · + ξn,i est la convolution d’ordre i de la distribution de progéniture p = (p0 , p1 , p2 , ...).

Dans ce qui suit, on s’intéresse surtout au cas où il y a un seul individu à la génération 0. Les
questions concernant le cas général peuvent facilement se ramener à ce cas spécial ; s’il y a k
individus à la génération 0, avec k > 1, alors le processus de branchement de Galton et Watson
peut être vu comme étant la superposition de k processus de branchement de Galton et Watson
indépendants les uns des autres et ayant chacun exactement un individu à la génération 0.

Le prochain résultat concerne la structure de communication du processus de Galton et Watson.

Proposition 2. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...).
(a) L’état 0 est absorbant.
(b) Si p1 = 1, alors tous les états sont absorbants.
(c) Si p1 < 1, alors tous les états autres que l’état 0 sont transitoires.

Démonstration.
(a) Si on a 0 individu à la génération n, alors il est clair qu’on aura 0 individu à la génération
suivante. Autrement dit, P00 = 1. L’état 0 est donc un état absorbant.

98
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(b) Si p1 = 1, c’est-à-dire si p = (0, 1, 0, 0, 0, ...), alors les individus de notre population ont
toujours exactement 1 enfant. Il s’ensuit que la taille de la population est constante ! Donc
on a Pii = 1 pour tout i ∈ N0 . Les états sont donc tous absorbants !
(c) Nous allons considérer séparément le cas où p1 < 1 et p0 > 0 et le cas où p1 < 1 et p0 = 0.

Le cas où p1 < 1 et p0 > 0. Dans ce cas on obtient, pour tout i ≥ 1, P[X1 = 0|X0 = i] =
pi0 > 0. Or l’état 0 est absorbant. Donc, partant de l’état i, on a une probabilité positive de
ne plus jamais revenir à l’état i. L’état i est donc transitoire.

Le cas où p1 < 1 et p0 = 0. Dans ce cas, la taille de la population ne peut jamais


diminuer. De plus, si on a i ≥ 1 individus au temps n, alors on a une probabilité pi1 d’avoir
à nouveau i individus au temps n + 1 (c’est le cas où chacun des i individus de la génération
n a exactement 1 enfant) et une probabilité 1 − pi1 > 0 d’avoir plus que i individus à la
génération n + 1 (c’est la cas où au moins un des i individus de la génération n a plus que
1 enfant). Donc, la distribution du nombre total de visites à l’état i, sachant qu’on démarre
à l’état i, est la loi géométrique avec probabilité de succès 1 − pi1 > 0. Il suit que l’état i est
transitoire.

Génération 0

Génération 1

Génération 2

Génération 3

Génération 4

Figure 1 : Processus de Galton et Watson

Exemple 1. On considère une population d’amibes dans une expérience en laboratoire. Au temps
0 notre population compte seulement 3 amibes. Après une unité de temps, indépendamment les
unes des autres, chaque amibe a une probabilité 0.45 de mourir et une probabilité 0.55 de se
diviser en 2 nouvelles amibes. Si on pose Xn = “le nombre d’amibes au temps n”, alors la suite
(Xn ; n ≥ 0) est un processus de branchement de Galton et Watson avec distribution de progéniture
p = (0.45, 0, 0.55, 0, 0, 0, ...).

99
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

5.2 L’espérance et la variance de Xn


Définition. L’espérance de la distribution de progéniture est dénotée µ. On a donc

X
µ= jpj .
j=0

Définition. La variance de la distribution de progéniture est dénotée σ 2 . On a donc



X
σ2 = (j − µ)2 pj .
j=0

Remarque. La moyenne µ est toujours bien définie mais elle peut être infinie. Dans le cas où
µ = ∞, on dit que la variance n’existe pas.
Proposition 3. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ. Alors

E[Xn |X0 = 1] = µn . (5.2)

Démonstration. Par définition, on a E[X1 |X0 = 1] = E[ξ0,1 ] = µ. Fixons n ≥ 1. On obtient



X
E[Xn+1 |X0 = 1] = E[Xn+1 |X0 = 1, Xn = j] P[Xn = j|X0 = 1]
j=0

X
= E[Xn+1 |Xn = j] P[Xn = j|X0 = 1]
j=0

X
= E[ξn,1 + ξn,2 + · · · + ξn,j ] P[Xn = j|X0 = 1].
j=0

Pour la première égalité, on a simplement conditionné sur Xn . Pour la deuxième égalité, on a utilisé
la propriété de Markov. Enfin, pour la troisième égalité on a utilisé le fait que si Xn = j, alors
l’équation (5.1) nous donne Xn+1 = ξn,1 + ξn,2 + · · · + ξn,j . Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,j
étant i.i.d. avec moyenne µ, on a E[ξn,1 + ξn,2 + · · · + ξn,j ] = jµ. L’équation précédente nous donne
donc

X
E[Xn+1 |X0 = 1] = jµ P[Xn = j|X0 = 1]
j=0

X
= µ j P[Xn = j|X0 = 1] = µ E[Xn |X0 = 1].
j=0

On a donc

E[X1 |X0 = 1] = µ
et E[Xn+1 |X0 = 1] = µ E[Xn |X0 = 1] pour tout n ≥ 1.

On obtient alors l’équation (5.2) par itération.

100
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Proposition 4. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ < ∞ et de variance σ 2 . Alors


 nσ 2 si µ = 1
Var[Xn |X0 = 1] = µn−1 (µn − 1) 2 (5.3)

 σ si µ 6= 1.
µ−1

Démonstration. Par définition, on a Var[X1 |X0 = 1] = Var[ξ0,1 ] = σ 2 . Fixons n ≥ 1. La formule


de calcul de variance par conditionnement nous donne

Var[Xn+1 |X0 = 1] = E[Var[Xn+1 |X0 = 1, Xn ]|X0 = 1] + Var[E[Xn+1 |X0 = 1, Xn ]|X0 = 1]


= E[Var[Xn+1 |Xn ]|X0 = 1] + Var[E[Xn+1 |Xn ]|X0 = 1]
= E[Xn σ 2 |X0 = 1] + Var[Xn µ|X0 = 1]
= σ 2 E[Xn |X0 = 1] + µ2 Var[Xn |X0 = 1]
= σ 2 µn + µ2 Var[Xn |X0 = 1].

Pour la dernière égalité on a utilisé la Proposition 3. On obtient ainsi

Var[X1 |X0 = 1] = σ 2
Var[X2 |X0 = 1] = σ 2 µ (1 + µ)

Var[X3 |X0 = 1] = σ 2 µ2 1 + µ + µ2

Var[X4 |X0 = 1] = σ 2 µ3 1 + µ + µ2 + µ3
..
.

La formule générale est donc



Var[Xn |X0 = 1] = σ 2 µn−1 1 + µ + µ2 + · · · + µn−1 (5.4)
 
Si µ = 1, on a µn−1 1 + µ + µ2 + · · · + µn−1 = n. Si µ 6= 1, on a µn−1 1 + µ + µ2 + · · · + µn−1 =
µn−1 (µn − 1)/(µ − 1). L’équation (5.4) est donc équivalente à l’équation (5.3).
Retour à l’exemple 1. Calculons l’espérance, disons µ10 , et l’écart-type, disons σ10 , de la taille
de la population après 10 unités de temps. Avec p = (9/20, 0, 11/20, 0, 0, ...) on obtient µ = 11/10
et σ 2 = 99/100. Les propositions 3 et 4 nous donnent donc

E[X10 |X0 = 1] = 2.594 et Var[X10 |X0 = 1] = 37.2038.

On en déduit que

E[X10 |X0 = 3] = 3 × 2.5937 = 7.781 et Var[X10 |X0 = 3] = 3 × 37.2038 = 111.61.

On obtient donc
µ10 = 7.781 et σ10 = 10.565.

101
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

5.3 La fonction génératrice des probabilités


La fonction génératrice des probabilités (f.g.p.) est un outil semblable à la fonction génératrice des
moments. Elle est particulièrement utile lorsqu’on travaille avec des variables aléatoires à valeurs
dans l’ensemble des entiers non négatifs N0 . La présente section vise deux objectifs. D’abord nous
présentons les principales propriétés de la f.g.p. dans le cas général. Puis nous utilisons ces résultats
dans le cadre du processus de Galton et Watson.

Définition. Soit N , une variable aléatoire à valeurs dans N0 = {0, 1, 2, ...} et avec fonction de
masse pk = P[N = k]. La fonction génératrice des probabilités de la variable aléatoire N , ou de la
distribution de probabilité p = (p0 , p1 , p2 , ...), est la fonction dénotée ϕ(s) et définie par

X ∞
X
ϕ(s) = E[sN ] = sk P[N = k] = s k pk .
k=0 k=0

La proposition suivante regroupe les principales propriétés élémentaires de la fonction génératrice


des probabilités. Ces propriétés sont des conséquences immédiates de la théorie des séries de puis-
sances et du fait que les pk sont non négatifs et de somme unité. Ces propriétés sont valides pour
la fonction génératrice des probabilités de n’importe quelle distribution de probabilité sur N0 .

Proposition 5. Soit p = (p0 , p1 , p2 , ...), une distribution de probabilité sur N0 , avec fonction
génératrice des probabilités ϕ(s) et avec moyenne µ. Donc

X ∞
X
ϕ(s) = s j pj et µ= jpj .
j=0 j=0

(a) On a toujours ϕ(0) = p0 .


(b) On a toujours ϕ(1) = 1.
(c) [−1, 1] ⊂ Dϕ , où Dϕ dénote lePdomaine de la fonction ϕ, c’est-à-dire
∞ j
Dϕ = {s ∈ R tel que la série j=0 s pj converge}.
(d) La fonction ϕ(s) est continue sur (−1, 1), continue à droite au point s = −1 et continue à
gauche au point s = 1.
(e) Toutes les dérivées
P∞ jde la fonction ϕ(s) existent sur (−1, 1). On les obtient en dérivant la
série ϕ(s) = j=0 s pj terme à terme.
(f) Les dérivées de la fonction ϕ(s) sont non négatives en tout point s ∈ [0, 1).
(g) On a µ = lim ϕ′ (s). Cette limite est parfois notée ϕ′ (1− ).
s↑1
(h) Si p0 < 1, alors ϕ′ (s) > 0 pour tout 0 < s < 1.
(i) Si p0 + p1 < 1, alors ϕ′′ (s) > 0 pour tout 0 < s < 1.

Quelques explications.
• Les parties (a) et (b) sont élémentaires.
• Les parties (c), (d) et (e) sont des conséquences du fait que si |s| ≤ 1, alors

X ∞ ∞
j X X
s pj = |s|j pj ≤ pj = 1 < ∞.
j=0 j=0 j=0

102
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

P
Ceci montre que la série ∞ j
j=0 s pj converge absolument en tout point s ∈ [−1, 1]. Pour voir
que ceci entraı̂ne les points (c), (d) et (e) de la proposition, l’étudiant devrait revoir la partir
du cours Analyse I qui porte sur les séries de puissances.
• Pour le point (f), on note d’abord qu’en vertu du point (e) on a, pour tout s ∈ (−1, 1),

ϕ′ (s) = p1 + 2p2 s + 3p3 s2 + 4p4 s3 + · · · (5.5)


′′ 2 3
ϕ (s) = 2p2 + 6p3 s + 12p4 s + 20p5 s + · · · (5.6)
′′′ 2
ϕ (s) = 6p3 + 24p4 s + 60p5 s + · · ·
etc.

Puisque leurs coefficients sont tous non négatifs, ces séries de puissances prennent seulement
des valeurs non négatives lorsqu’on les évalue en un point s ∈ [0, 1).
• Le point (g). Lorsqu’on prends la limite s ↑ 1 dans l’équation (5.5), on obtient

lim ϕ′ (s) = lim p1 + 2p2 s + 3p3 s2 + 4p4 s3 + · · · = p1 + 2p2 + 3p3 + 4p4 + · · · = µ.
s↑1 s↑1

Pour justifier le passage de “limite de la somme” à “somme des limites”, l’étudiant devrait
revoir la partie du cours Analyse I portant sur les séries de puissances.
• Pour le point (h), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.5), on obtient ϕ′ (s) ≥ 0. De plus, si p0 < 1 alors on a pj > 0 pour au moins une valeur
j ≥ 1 ; dans ce cas on obtient ϕ′ (s) > 0 pour tout 0 < s < 1.
• Pour le point (i), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.6), on obtient ϕ′′ (s) ≥ 0. De plus, si p0 + p1 < 1 alors on a pj > 0 pour au moins une
valeur j ≥ 2 ; dans ce cas on obtient ϕ′′ (s) > 0 pour tout 0 < s < 1.

L’étudiant est familier avec le fait que la fonction génératrice des moments d’une somme de variables
aléatoires indépendantes est égale au produit des fonctions génératrices des moments de ces variables
aléatoires. La proposition suivante nous dit qu’il en est de même pour la fonction génératrice des
probabilités.
Proposition 6. Si X et Y sont des variables aléatoires indépendantes et à valeurs dans N0 , alors
la f.g.p. de la variable aléatoire X + Y est égale au produit des f.g.p. de X et de Y . Il en est de
même pour toute somme d’un nombre fini de variables aléatoires indépendantes et à valeurs dans
l’ensemble des entiers non négatifs N0 .
Démonstration. Posons T = X + Y . Sous les hypothèses énoncées ci-dessus, on obtient

ϕT (s) = E[sT ] = E[sX+Y ] = E[sX sY ] = E[sX ] E[sY ] = ϕX (s) ϕY (s).

L’égalité E[sX sY ] = E[sX ] E[sY ] vient du fait que l’espérance d’un produit de variables aléatoires
indépendantes est égale au produit de leurs espérances. Ici les variables aléatoires sX et sY sont
indépendantes puisque X et Y sont indépendantes.

Retour à l’exemple 1. Voici la f.g.p. de la distribution de progéniture de l’exemple 1 :


9 11 2
ϕ(s) = E[sξ0,1 ] = s0 P[ξ0,1 = 0] + s2 P[ξ0,1 = 2] = + s
20 20

103
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Retour aux processus de branchement de Galton et Watson.


Le théorème suivant est fondamental pour l’étude des processus de branchement.
Théorème 1. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). Soit ϕ(s), la f.g.p. de la distribution de progéniture. Alors,
conditionnellement à X0 = 1, la f.g.p. de Xn est égale à la fonction ϕ(s) composée avec elle-même
n fois. Autrement dit, si on pose
ϕn (s) = E[sXn |X0 = 1],
alors on a, pour tout s ∈ [−1, 1],

ϕn (s) = (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(s) = ϕ(ϕ(ϕ(ϕ(ϕ(ϕ (s)))))).


| {z } | {z }
n fois n fois

Corollaire.

P[Xn = 0 | X0 = 1] = ϕn (0) = (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(0) = ϕ(ϕ(ϕ(ϕ(ϕ(ϕ (0)))))).


| {z } | {z }
n fois n fois
Démonstration. On procède comme dans la démonstration de la proposition 3.

ϕn+1 (s) = E[sXn+1 |X0 = 1]



X
= E[sXn+1 |X0 = 1, Xn = j] P[Xn = j|X0 = 1]
j=0

X
= E[sXn+1 |Xn = j] P[Xn = j|X0 = 1]
j=0

X
= E[sξn,1 +ξn,2 +···ξn,j ] P[Xn = j|X0 = 1]
j=0

X
= ϕξn,1 + ξn,2 + · · · ξn,j (s) P[Xn = j|X0 = 1]
j=0

∞ j
!
X Y
= ϕξn,ℓ (s) P[Xn = j|X0 = 1]
j=0 ℓ=1

X
= (ϕ(s))j P[Xn = j|X0 = 1]
j=0

= E[(ϕ(s))Xn |X0 = 1] = ϕn (ϕ(s)).

On obtient le résultat désiré par itération.

Démonstration du Corollaire. Le corollaire est une conséquence immédiate du Théorème 1 et


de la partie (a) de la Proposition 5.

104
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

5.4 La probabilité de disparition de la population


Lorsqu’on est en présence d’un processus de branchement de Galton et Watson, une question
fondamentale se pose : est-ce que la population va disparaı̂tre ou est-ce qu’elle va survivre pour
toujours ? Posons

[
D= {Xn = 0}.
n=0
La réalisation de cet événement D signifie la disparition de la population. On s’intéresse à la
probabilité de disparition de la population.

Définition. Soit (Xn ; n ≥ 0), un processus de Galton et Watson. La probabilité de disparition est
notée θ et est définie par l’équation

θ = P[D|X0 = 1] = P [ ∪∞
n=0 {Xn = 0} | X0 = 1] .

Le résultat suivant nous dit qu’il est suffisant de considérer le cas où X0 = 1.

Proposition 7. Pour tout k ∈ N0 on a P[D|X0 = k] = (P[D|X0 = 1])k c’est-à-dire

P[D|X0 = k] = θ k .

Démonstration. Supposons qu’on a k individus au temps 0, disons les individus I1 , I2 , ..., Ik .


Alors, la population au temps n peut-être vue comme étant composée de k sous-populations : les
descendants de l’individu I1 , les descendants de l’individu I2 ,..., les descendants de l’individu Ik . Ces
k sous-populations se comportent indépendamment les unes des autres. Chaque sous-population
est un processus de Galton et Watson avec un seul individu au temps 0. Donc pour chaque sous-
population la propabilité de disparition est θ. La probabilité que la population entière disparaisse
est égale au produit des probabilités de disparition de chacune des sous-populations. On a donc
P[D|X0 = k] = θ k .
Proposition 8.
θ = lim P [Xn = 0|X0 = 1]
n→∞

Démonstration. C’est une simple conséquence de la propriété de continuité des probabilités. En


effet, puisque {X0 = 0} ⊂ {X1 = 0} ⊂ {X2 = 0} ⊂ {X3 = 0} ⊂ · · · , on obtient

θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = lim P[Xn = 0|X0 = 1].
n→∞

Proposition 9. h i
θ = P lim Xn = 0|X0 = 1
n→∞

Démonstration. Puisque la suite (Xn ; n ≥ 0) est à valeurs dans N0 et puisque l’état 0 est absor-
bant, on a n o
∪∞n=0 {X n = 0} = ω ∈ Ω : lim X n (ω) = 0 .
n→∞
On a donc

θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = P[ lim Xn = 0 | X0 = 1].
n→∞

105
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le résultat suivant est fondamental. Il nous dit que si on exclut le cas trivial où p1 = 1 alors
ou bien la population disparaı̂t (c’est-à-dire limn→∞ Xn = 0), ou bien elle explose (c’est-à-dire
limn→∞ Xn = ∞).

Théorème 2. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). Supposons que p1 < 1. Alors on a

P[ lim Xn = 0|X0 = 1] = θ,
n→∞

P[ lim Xn = ∞|X0 = 1] = 1 − θ.
n→∞

Démonstration. On a vu à la Proposition 2 que si p1 < 1, alors tous les états autres que 0 sont
transitoires. Ceci implique que pour tout k ≥ 1, la chaı̂ne visitera l’ensemble {1, 2, 3, ..., k} seulement
un nombre fini de fois. Comme l’état 0 est absorbant, il suit que ou bien on aura limn→∞ Xn = 0,
ou bien on aura limn→∞ Xn = ∞. Donc

P[ lim Xn = 0|X0 = 1] + P[ lim Xn = ∞|X0 = 1] = 1.


n→∞ n→∞

Combiné avec la Proposition 9, cette dernière équation nous donne la conclusion souhaitée.

Le théorème suivant est le principal résultat du présent chapitre. Il nous donne une recette pour
calculer θ, la probabilité de disparition d’un processus de Galton et Watson. La partie (a) peut
être utilisée pour calculer une approximation de θ. La partie (b) peut être utilisée pour calculer la
valeur exacte de θ.

Théorème 3. Soit (Xn ; n ≥ 0), un processus de Galton et Watson avec distribution de progéniture
p = (p0 , p1 , p2 , ...). Soit ϕ(s), la f.g.p. de la distribution de progéniture. Soit ϕn (s), la f.g.p. de la
distribution conditionnelle de Xn sachant que X0 = 1. Soit θ, la probabilité de disparition de la
population.
(a) On a toujours θ = lim ϕn (0) = limn→∞ (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(0).
n→∞ | {z }
n fois
(b) La probabilité de disparition θ est la plus petite solution non négative de l’équation s = ϕ(s).

Démonstration de la partie (a). La partie (a) est une conséquence immédiate de la Proposition
8 et du Corollaire du Théorème 1.
Démonstration de la partie (b). À partir du résultat de la partie (a) on obtient ϕ(θ) =
ϕ (limn→∞ ϕn (0)). La fonction ϕ(s) étant continue, on a ϕ(limn→∞ sn ) = limn→∞ ϕ(sn ) pour toute
suite convergente sn avec sn ∈ [0, 1]. En particulier on obtient
 
ϕ(θ) = ϕ lim ϕn (0) = lim ϕ(ϕn (0)) = lim ϕn+1 (0) = θ.
n→∞ n→∞ n→∞

Ceci montre que θ est solution de l’équation s = ϕ(s). Pour une démonstration alternative, voir
l’exercice 14.
La probabilité de disparition θ est donc une solution de l’équation s = ϕ(s). Etant une probabilité,
ce θ est une solution non négative de l’équation s = ϕ(s). Il reste à montrer que c’est la plus petite
solution non négative de l’équation s = ϕ(s). Nous allons considérer les 4 cas exhaustifs suivants.

106
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le cas où p0 = 0 : Si p0 = 0, alors les individus de notre population ont toujours au moins un
enfant de sorte que la population ne disparaı̂t jamais. On a donc θ = 0. Notre θ est donc bel et
bien la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où p0 = 1 : Si p0 = 1, alors avec probabilité 1 la population disparaı̂t dès la génération
1. On a donc θ = 1. Par ailleurs, si p0 = 1 alors on a ϕ(s) = 1 pour tout s et la seule solution de
l’équation s = ϕ(s) est la solution s = 1. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ ≤ 1 : D’après la Proposition 5, les conditions suivantes sont satisfaites :
(i) ϕ(0) = p0 ∈ (0, 1),
(ii) ϕ(1) = 1,
(iii) lims↑1 ϕ′ (s) = µ,
(iv) ϕ′ (s) > 0 pour tout s ∈ (0, 1),
(v) ϕ′′ (s) = 0 pour tout s ∈ (0, 1) si p0 + p1 = 1.
(vi) ϕ′′ (s) > 0 pour tout s ∈ (0, 1) si p0 + p1 < 1.
Lorsque µ ≤ 1, ces conditions entraı̂nent que ϕ(s) > s pour tout s ∈ [0, 1). L’équation s = ϕ(s)
possède donc une seule solution sur l’intervalle [0, 1], la solution s = 1. Notre θ est donc bel et bien
la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ > 1 : Lorsque µ > 1, les conditions (i) à (vi) énoncées ci-dessus
entraı̂nent que l’équation s = ϕ(s) possède exactement deux solutions sur l’intervalle [0, 1] : la
solution s = 1 et une solution s∗ ∈ (0, 1). Il nous reste à montrer que ce s∗ est notre probabilité
de disparition θ. À la partie (a) du théorème, on a montré que θ = limn→∞ ϕn (0). En examinant
le graphe de la fonction ϕ(s), présenté à la page suivante, on constate que la suite (ϕn (0); n ≥ 0)
converge vers s∗ . On conclut que s∗ = θ. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).

107
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

p0

p0 ϕ(p0) θ

Figure 2. La f.g.p. du processus de Galton et Watson


dans le cas où 0 < p0 < 1 et µ > 1.

108
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le cas où p1 = 1 n’est pas très intéressant puisque dans ce cas il n’y a rien d’aléatoire et tous les
états sont absorbants. Pour le dernier théorème de la présente section, on considère seulement le
cas où p1 < 1.

Théorème 4. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). On suppose que p1 < 1.
(a) Si µ < 1, alors θ = 1.
(b) Si µ = 1, alors θ = 1.
(c) Si µ > 1, alors θ < 1.

Démonstration. Ce théorème est une conséquence du Théorème 3. Il suffit d’examiner le graphe


de la fonction génératrice des probabilités ϕ(s) tout en se rappelant que µ est la pente de la tangente
du graphe de cette fonction à s = 1.

Le Théorème 4 motive la définition suivante :

Définition. On considère une processus de branchement de Galton et Watson. On suppose que µ


dénote la moyenne de la distribution de progéniture. On suppose que p1 < 1.
• Le cas où µ < 1 est appelé le cas sous-critique.
• Le cas où µ = 1 est appelé le cas critique.
• Le cas où µ > 1 est appelé le cas sur-critique.

Retour à l’exemple 1. Dans notre exemple, on a µ > 1. Le Théorème 4 nous assure que θ < 1.
Calculons ce θ.
Calcul de θ via la partie (a) du Théorème 3. Avec le logiciel R on obtient

varphi <- function(n)


{
s <- 0
for(j in 1:n)
{s <- (9 + 11* s^2)/20}
round(s,4)
}

> varphi(20)
[1] 0.8023
> varphi(40)
[1] 0.8164
> varphi(60)
[1] 0.8080
> varphi(80)
[1] 0.8182
> varphi(100)
[1] 0.8182

On conclut que θ ≈ 0.8182.

109
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Calcul de θ via la partie (b) du Théorème 3. L’équation ϕ(s) = s nous donne


9 11 2
+ s =s
20 20
c’est-à-dire
11 s2 − 20 s + 9 = 0.
Les racines de cette équation quadratique sont les valeurs s1 = 9/11 et s2 = 1. La partie (b) du
Théorème 3 nous permet de conclure que la probabilité de disparition est θ = 9/11. Notez que
9/11 = 0.818181... de sorte que les deux approches donnent bel et bien la même réponse.
Conclusion. On a obtenu
P[D | X0 = 1] = θ = 9/11.
Dans notre exemple on s’intéresse à la probabilité de disparition de notre population d’amibes
sachant qu’on démarre au temps 0 avec 3 amibes. On obtient don

P[D | X0 = 3] = θ 3 = (9/11)3 = 0.5477.

5.5 Quelques généralisations


Dans le présent chapitre, notre étude s’est limitée au processus de branchement de Galton et Wat-
son. Il existe plusieurs façons de généraliser le processus de Galton et Watson. Nous mentionnons
ici quatre généralisations possibles. Il y en a plusieurs autres.

5.5.1 Processus de Galton et Watson avec distribution de progéniture qui évolue


dans le temps
Dans tout ce que nous avons fait jusqu’à maintenant nous avons supposé que la distribution de
progéniture est la même à chaque génération. Il est facile d’imaginer des scénarios où cette distri-
bution évolue dans le temps. Par exemple, la distribution de progéniture au temps n, c’est-à-dire la
distribution de progéniture pour les individus de la génération n, pourrait être une loi de Poisson
de moyenne νn . On pourrait spécifier une expression appropriée pour ce νn selon le scénario qu’on
souhaite modéliser.

5.5.2 Processus de Galton et Watson avec immigration


On peut supposer qu’à chaque génération un certain nombre d’immigrants se joignent à notre
population. Posons Yn = le nombre d’immigrants qui se joignent à notre population à la génération
n. Un modèle simple consiste à supposer que les variables aléatoires Y1 , Y2 , Y3 , ... sont i.i.d. et que
ces variables sont indépendantes des variables ξn,ℓ , n ≥ 0, ℓ ≥ 1. On pourrait aussi imaginer des
modèles plus complexes où l’immigration dépend de la taille de la population.

5.5.3 Processus de Galton et Watson avec deux types d’individus


Le modèle suivant a été étudié de façon approfondie et est présenté en détails dans plusieurs livres.
On suppose qu’il y a 2 types d’individus dans notre population, disons les rouges et les bleus. Les

110
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

individus rouges peuvent avoir des enfants rouges et des enfants bleus. Les individus bleus peuvent
avoir des enfants rouges et des enfants bleus. On pose
R
ξnℓ = le nombre d’enfants rouges du ℓe individu rouge de la génération n
B
ξnℓ = le nombre d’enfants bleus du ℓe individu rouge de la génération n
R
ηnℓ = le nombre d’enfants rouges du ℓe individu bleu de la génération n
B
ηnℓ = le nombre d’enfants bleus du ℓe individu bleu de la génération n
R , ξ B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution sur N2 .
On suppose que les couples (ξn,ℓ n,ℓ 0
De même on suppose que les couples (ηn,ℓ R , η B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution
n,ℓ
sur N20 . De plus, on suppose que la famille de couples aléatoires ((ξn,ℓ R , ξ B ), n ≥ 0, ℓ ≥ 1) est
n,ℓ
indépendante de la famille de couples aléatoires ((ηn,ℓR , η B ), n ≥ 0, ℓ ≥ 1). La plupart des résultats
n,ℓ
obtenus dans le présent chapitre ont des versions analogues pour le processus de Galton et Watson
à deux types.

5.5.4 Processus de Galton et Watson à temps continu


Plus loin, nous étudierons brièvement une version à temps continu du processus de Galton et
Watson. Dans la version la plus simple de ce processus de Galton et Watson à temps continu, au
lieu de vivre pendant une unité de temps, les individus vivent pendant un temps aléatoire. Les
durées de vie des individus sont des variables aléatoires qu’on suppose i.i.d. avec loi exponentielle
de paramètre λ.

111
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

5.6 Les exercices du chapitre 5


Numéro 1. Considérons le processus de branchement de Galton et Watson avec distribution de
progéniture donnée par p = (1/4, 1/4, 1/2, 0, 0, ...). On suppose qu’on démarre avec 1 individu.
(a) Quelle est la probabilité qu’on aura exactement 7 individus à la troisième génération ?
Réponse : 1/64.
(b) Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Quelle est l’espérance du nombre d’individus qui auront vécus durant les générations 0 à
10 ?
(d) Calculez la probabilité de disparition θ.

Numéro 2. Considérons le processus de branchement de Galton et Watson avec distribution de


progéniture donnée par p = (1/2, 1/4, 1/4, 0, 0, ...). On suppose qu’on démarre avec 1 individu.
(a) Quelle est la probabilité qu’on aura exactement 7 individus à la troisième génération ?
Réponse : 1/4096.
(b) Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Quelle est l’espérance du nombre d’individus qui auront vécus durant les générations 0 à
10 ?
(d) Calculez la probabilité de disparition θ.

Numéro 3. Considérons le processus de branchement de Galton et Watson dont la distribution de


progéniture est la loi uniforme sur l’ensemble {0, 1, 2, 3}. On suppose qu’on démarre avec un seul
individu.
(a) Dessinez le graphe de la f.g.p. de la distribution de progéniture sur le domaine [0, 1].
(b) Calculez la probabilité de disparition θ.
(c) Calculez la probabilité que la population disparaı̂tra à la génération 3. Autrement dit, cal-
culez P[{X1 > 0} ∩ {X2 > 0} ∩ {X3 = 0} | X0 = 1].

Numéro 4. Considérons le processus de branchement de Galton et Watson dont la distribution de


progéniture est la loi binomiale(3, β). Autrement dit, on suppose que p = (p0 , p1 , p2 , p3 , ...) avec
  j
3
jβ (1 − β)3−j si j ∈ {0, 1, 2, 3}
pj =
0 si j ≥ 4.

On suppose également qu’on démarre avec un seul individu.


(a) Supposons que β = 1/2. Quelle est la probabilité qu’on aura exactement 7 individus à
la troisième génération ? Autrement dit, calculez P[X3 = 7 | X0 = 1]. Un calcul exact est
possible mais ça prend une patience de moine du Moyen-Âge. Avec l’aide du logiciel R,
évaluez la probabilité P[X3 = 7 | X0 = 1] par la méthode Monte-Carlo.
(b) Supposons que β = 1/2. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que β = 1/2. Quelle est l’espérance du nombre total d’individus qui auront vécu
durant les générations 0 à 10 ?
(d) Supposons que β = 1/2. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre β.

112
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 5. Considérons le processus de branchement de Galton et Watson dont la distribution


de progéniture est la loi géométrique de paramètre β sur N = {0, 1, 2, 3, ...}. Autrement dit, on
suppose que p = (p0 , p1 , p2 , p3 , ...) avec pj = (1 − β)j β. On suppose également qu’on démarre avec
un seul individu.
(a) Supposons que β = 1/3. Quelle est la probabilité qu’on aura exactement 7 individus à
la troisième génération ? Un calcul exact est possible mais plutôt difficile. Évaluez cette
probabilité par simulation Monte-Carlo.
(b) Supposons que β = 1/3. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que β = 1/3. Quelle est l’espérance du nombre total d’individus qui auront vécu
durant les générations 0 à 10 ?
(d) Supposons que β = 1/3. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre β.

Numéro 6. Considérons le processus de branchement de Galton et Watson dont la distribution de


progéniture est la loi de Poisson de paramètre ν sur N = {0, 1, 2, 3, ...}. Autrement dit, on suppose
j
que p = (p0 , p1 , p2 , p3 , ...) avec pj = e−ν νj! . On suppose également qu’on démarre avec 4 individus.
(a) Supposons que ν = 4/3. Quelle est la probabilité qu’on aura exactement 7 individus à la
troisième génération ? Un calcul exact serait long et difficile. Écrivez un programme R qui
vous permettra de calculer une approximation Monte-Carlo de cette probabilité.
(b) Supposons que ν = 4/3. Quelle est l’espérance du nombre d’individus à la génération 10 ?
(c) Supposons que ν = 4/3. Quelle est l’espérance du nombre total d’individus qui auront vécu
durant les générations 0 à 10 ?
(d) Supposons que ν = 4/3. Calculez la probabilité de disparition θ.
(e) Calculez la probabilité de disparition θ en fonction du paramètre ν.

Numéro 7. On suppose que Y est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
1 
ϕ(s) = 1 + 2s + 3s2 + 4s3 + 5s4 + 6s5 pour tout s ∈ R.
21
(a) Calculez E[Y ].
(b) Obtenez la distribution (c’est-à-dire la fonction de masse) de Y .
(c) On considère le processus de Galton et Watson dont la distribution de progéniture est la
distribution de la variable aléatoire Y ci-dessus. Calculez la probabilité de disparition θ avec
une précision de cinq décimales.

Numéro 8. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. En général il n’y a pas d’expression simple pour la distribution de Xn
sachant X0 = 1. Voici un cas particulier où il est relativement facile d’obtenir cette distribution
avec les outils du présent chapitre : On suppose que la distribution de progéniture est la distribution
p = (p0 , p1 , p2 , ...) donnée par pk = 1/2k+1 pour tout k ≥ 1.
(a) Obtenez l’espérance µ de la distribution de progéniture.
(b) Obtenez la probabilité de disparition θ de ce processus de Galton et Watson.
(c) Obtenez la f.g.p. ϕ(s) de la distribution de progéniture.

113
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(d) Obtenez la f.g.p. ϕn (s) de la distribution conditionnelle de Xn sachant X0 = 1. Indice : À


partir du résultat de la partie (c), obtenez ϕ2 (s), ϕ3 (s), ϕ4 (s) et devinez ensuite la forme
générale pour ϕn (s).
(e) Obtenez la distribution conditionnelle de Xn sachant X0 = 1. Indice : Développez en série de
1
puissance la fonction ϕn (s) obtenue à la partie (d). Utilisez le fait que 1−r = 1+r+r 2 +r 3 +· · ·
pour tout −1 < r < 1.
(f) Obtenez la distribution de la variable aléatoire

T = min{n ≥ 0 : Xn = 0}.

Numéro 9. Obtenez une expression (en termes de p0 et p2 ) pour la probabilité de disparition


θ d’un processus de Galton et Watson dans le cas où la distribution de progéniture satisfait les
conditions suivantes :
p0 + p1 + p2 = 1 et p2 > p0 > 0.

Numéro 10. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. Dans le cas sous-critique, obtenez une expression (en termes du paramètre
µ) pour l’espérance du nombre total d’individus qui auront vécu, de la génération 0 jusqu’à la
disparition de la population.

Numéro 11. La Figure 2 nous donne le graphe de la f.g.p. d’un processus de Galton et Watson
dans le cas où 0 < p0 < 1 et µ > 1. Dans chacun des cas suivants, dessinez le graphe de cette
fonction et déterminez si on a θ = 0 ou 0 < θ < 1 ou θ = 1.
(a) p0 = 1.
(b) 0 < p0 < 1 et p0 + p1 = 1.
(c) 0 < p0 < 1, 0 < p0 + p1 < 1 et µ < 1.
(d) 0 < p0 < 1 et µ = 1.
(e) p1 = 1.
(f) p0 = 0 et p1 < 1.

Numéro 12. On considère un processus de Galton et Watson. Comme d’habitude, on écrit ϕ(s)
pour dénoter la f.g.p. de la distribution de progéniture et on écrit µ et σ 2 pour dénoter la moyenne et
la variance de cette distribution. Pour simplifier le problème, on suppose que le rayon de convergence
de la série de puissances qui définit ϕ(s) est strictement plus grand que 1. Sous ces condition on a
µ = ϕ′ (1). Voir la partie (g) de la Proposition 5. Montrez que σ 2 = ϕ′ (1) + ϕ′′ (1) − (ϕ′ (1))2 .

Numéro 13. On suppose que X est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
 √
2
 1− s1−s si − 1 < s < 1
ϕ(s) = 1 si s = 1

−1 si s = −1.

(a) Dessinez le graphe de cette f.g.p.


(b) Calculez E[X].

114
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(c) La version générale du théorème du binôme de Newton permet d’obtenir le résultat suivant :

√ x x2 x3 5x4 7x5 21x6


1+x=1+ − + − + − + ··· (5.7)
2 8 16 128 256 1024

À partir de l’équation (5.7), obtenez le développement en série de Taylor de la fonction ϕ(s)


(autour du point s = 0).
(d) À partir du résultat de la partie (c), concluez que X est une variables aléatoire à valeurs
dans l’ensemble des entiers positifs impairs et obtenez les probabilités suivantes :

P[X = 1], P[X = 3], P[X = 5], P[X = 7], P[X = 9].

Numéro 14. Voici une autre façon de démontrer que la probabilité de disparition θ est solution
de l’équation s = ϕ(s). On écrit d’abord

X
θ = P[D | X0 = 1] = P[D | X0 = 1, X1 = j] P[X1 = j | X0 = 1].
j=0

Complétez cette démonstration.

115
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

116
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 6

Processus de Poisson

Le présent chapitre est une introduction aux processus de Poisson. Nous ferons d’abord quelques
rappels au sujet de trois distributions de probabilité qui jouent un rôle essentiel dans l’étude des
processus de Poisson : la loi exponentielle, la loi gamma et la loi de Poisson.

6.1 La loi exponentielle


Fixons λ > 0. La loi exponentielle avec paramètre λ est la loi continue avec densité donnée par
 −λt
λe si t ≥ 0
f (t) =
0 si t < 0

Il s’agit bel et bien d’une densité de probabilité puisqu’on a


Z ∞ Z ∞
f (t) ≥ 0 ∀t ∈ R et f (t) dt = λ e−λt dt = 1.
−∞ 0

On écrit T ∼ exponentielle(λ) pour signifier que T est une variable aléatoire avec loi exponentielle
avec paramètre λ. Dans les applications en science et génie, la loi exponentielle est souvent utilisée
pour modéliser des durées de vie, les temps entre les arrivées successives de clients dans des modèles
de files d’attente, etc.

Trois calculs élémentaires

Un calcul élémentaire nous donne


Z ∞ Z ∞ Z ∞
1
E[T n ] = tn fT (t)dt = tn λe−λt dt = un e−u du = n!/λn .
−∞ 0 λn 0

En particulier, on obtient
1 1
E[T ] = et Var[T ] = 2
λ λ
La fonction de répartition de la loi exponentielle seR calcule facilement. Pour t < 0 on a FT (t) =
t
P[T ≤ t] = 0 et pour t ≥ 0 on a FT (t) = P[T ≤ t] = 0 λe−λu du = 1 − e−λt . Donc

1 − e−λt si t ≥ 0
FT (t) =
0 si t < 0.

117
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Un autre calcul élémentaire permet d’obtenir la fonction génératrice des moments de la loi expo-
nentielle. Pour u ≥ λ, on obtient
Z ∞ Z ∞
uT ut −λt
MT (u) = E[e ] = e λe dt = λ e−(λ−u)t dt = ∞.
0 0
Pour u < λ on obtient
Z ∞ Z ∞
uT ut −λt λ
MT (u) = E[e ]= e λe dt = λ e−(λ−u)t dt = .
0 0 λ−u
On a donc 
λ
 si u < λ
MT (u) = λ−u

∞ si u ≥ λ.

Trois théorèmes importants

Si N ∼ géométrique(p), avec 0 < p < 1, alors un calcul élémentaire montre que pour tout choix
d’entiers non négatifs k et ℓ on a
P[N > k + ℓ|N > ℓ] = P[N > k].
Pour des raisons évidentes cette propriété est appelée propriété d’absence de mémoire. Notez que
l’équation précédente est équivalente à l’équation suivante :
P[N > k + ℓ] = P[N > ℓ] P[N > k].
En fait, on peut montrer que la loi géométrique est la seule distribution sur les entiers non négatifs
possédant cette propriété d’absence de mémoire. Le théorème suivant nous dit que la loi exponen-
tielle possède une propriété d’absence de mémoire analogue à celle de la loi géométrique :

Théorème 1. Soit T , une variable aléatoire à valeurs dans l’intervalle (0, ∞), l’ensemble des
nombres réels positifs. Alors T est une variable aléatoire exponentielle si et seulement si pour
tout nombre réel t > 0 et tout nombre réel s > 0 on a
P[T > t + s] = P[T > t] P[T > s].

Démonstration : Si T suit la loi exponentielle(λ), alors un calcul élémentaire nous donne


Z ∞   ∞
λe−λv dv = −e−λv = e−λu

P[T > u] =
u u

pour tout nombre réel u > 0. On a donc


P[T > t + s] = e−λ(t+s) = e−λt e−λs = P[T > t] P[T > s]
pour tout nombre réel t > 0 et tout nombre réel s > 0. Donc la loi exponentielle possède la
propriété d’absence de mémoire. Supposons maintenant que T soit une variable aléatoire à valeurs
dans (0, ∞) et satisfaisant la condition
P[T > t + s] = P[T > t] P[T > s]
pour tout choix de réels positifs t et s. Pour 0 ≤ t < ∞, posons
φ(t) = P[T > t] = 1 − FT (t).
Cette fonction φ satisfait alors les conditions suivantes :

118
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) φ(0) = 1.
(b) 0 < φ(t) < 1 pour tout t > 0 ;
(c) φ est décroissante (0 ≤ t1 < t2 < ∞ ⇒ φ(t1 ) ≥ φ(t2 )) ;
(d) φ est continue à droite (pour tout t ≥ 0, limu↓t φ(u) = φ(t)) ;
(e) φ(u + v) = φ(u) × φ(v) pout tout u ≥ 0 et tout v ≥ 0.

Si m et n sont des entiers positifs, alors la condition (e) nous donne

φ(m/n) = φ(1/n + 1/n + · · · + 1/n) = (φ(1/n))m .


| {z }
m fois
De même,
φ(1) = φ(1/n + 1/n + · · · + 1/n) = (φ(1/n))n
| {z }
n fois
de sorte que φ(1/n) = (φ(1))1/n . Si on insère ça dans l’équation antérieure, on obtient
 m
φ(m/n) = (φ(1/n))m = (φ(1))1/n = (φ(1))m/n .

Autrement dit, on a φ(t) = (φ(1))t pour tout nombre rationnel t ≥ 0. La continuité à droite de la
fonction φ(t) nous donne donc

φ(t) = (φ(1))t pour tout t ≥ 0.

Si on pose λ = log(1/φ(1)), alors on a 0 < λ < ∞, on a φ(1) = e−λ et on obtient


 t
φ(t) = (φ(1))t = e−λ = e−λt pour tout t ≥ 0.

La fonction de répartition de T est donc donnée par



1 − e−λt si t ≥ 0
FT (t) =
0 si t < 0.

Ceci montre que T ∼ exponentielle(λ).

L’analogie entre la loi géométrique et la loi exponentielle est également illustrée par le calcul suivant.
Ce calcul montre qu’on peut voir la loi exponentielle comme un cas limite de la loi géométrique.
Fixons λ > 0 et pour chaque entier positif n tel que λ/n < 1, considérons une variable aléatoire
Wn avec loi géométrique avec paramètre pn = λ/n. Posons Tn = Wn /n. Pour t ≥ 0 on obtient

FTn (t) = P[Tn ≤ t] = P[Wn /n ≤ t] = P[Wn ≤ tn]


[tn] [tn]
X X
= P[Wn = k] = (1 − λ/n)k−1 λ/n = 1 − (1 − λ/n)[tn]
k=1 k=1

La fonction de répartition de Tn est donc donnée par



1 − (1 − λ/n)[tn] si t ≥ 0
FTn (t) =
0 si t < 0.

119
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Lorsqu’on prend la limite n → ∞ on obtient la fonction de répartition de la loi exponentielle(λ)


puisque  
lim 1 − (1 − λ/n)[tn] = 1 − lim (1 − λ/n)[tn] = 1 − e−λt .
n→∞ n→∞

En d’autre mots, Wn /n converge en loi vers la loi exponentielle avec paramètre λ. On a donc
démontré le résultat suivant :

Théorème 2. Si pour n = 1, 2, 3, ... on a Wn ∼ géométrique(pn ) avec, pour un certain λ > 0,


pn = λ/n pour tout n > λ, alors
Wn L
−→ T
n
où T ∼ exponentielle(λ).

On peut aussi démontrer le théorème 2 via la fonction génératrice des moments. Pour terminer
cette section, voici un résultat élémentaire, mais très important, concernant la loi exponentielle.

Théorème 3. Si V1 , V2 , ..., Vm sont des variables aléatoires indépendantes, si Vi ∼ exponentielle(λi )


pour chaque i ∈ {1, 2, ..., m} et si W = min{V1 , V2 , ..., Vm }, alors W ∼ exponentielle(λ), avec
λ = λ1 + λ2 + · · · + λm .

Démonstration : Pour w > 0 on a

P[W ≤ w] = P[min{V1 , V2 , ..., Vm } ≤ w] = 1 − P[min{V1 , V2 , ..., Vm } > w]


= 1 − P[(V1 > w) ∩ (V2 > w) ∩ · · · ∩ (Vm > w)]
Ym Ym
= 1− P[Vj > w] = 1 − e−λj w = 1 − e−(λ1 +λ2 +···λm )w
j=1 j=1

Ceci montre que W ∼ exponentielle(λ), avec λ = λ1 + λ2 + · · · + λm .

6.2 La loi gamma


La fonction gamma
La fonction gamma de Euler, dénotée Γ(α), est définie, pour les α > 0, par l’équation
Z ∞
Γ(α) = uα−1 e−u du.
0

Il est facile de montrer que l’intégrale ci-dessus est bien définie et que 0 < Γ(α) < ∞ pour tout
0 < α < ∞. Parmi les principales propriétés de cette fonction, notons les suivantes :
1. La fonction gamma est continue et différentiable.
2. Pour tout α > 0, on a Γ(α + 1) = αΓ(α).
3. Pour n = 1, 2, 3, . . . , on a Γ(n) = (n − 1)!.

4. Γ(1/2) = π

(2n)! π
5. Pour n = 1, 2, 3, . . . , on a Γ((2n + 1)/2) = .
22n n!

120
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

La loi gamma
Fixons α > 0 et λ > 0. La loi gamma avec paramètre α > 0 et λ > 0 est la loi continue avec densité
donnée par  α
 λ tα−1 e−λt si t > 0
f (t) = Γ(α)

0 si t ≤ 0
Il s’agit bel et bien d’une densité de probabilité. En effet, d’une part on a f (t) ≥ 0 pour tout t ∈ R
et d’autre part on a
Z ∞ Z ∞ α Z ∞
λ α−1 −λt 1
f (t)dt = t e dt = (λt)α−1 e−λt λdt
−∞ 0 Γ(α) Γ(α) 0

Z ∞
1 Γ(α)
= uα−1 e−u du = =1
Γ(α) 0 Γ(α)
On écrit T ∼ gamma(α, λ) pour indiquer que T est une variable aléatoire dont la distribution
est la loi gamma avec paramètres α et λ. Si α = 1, alors cette loi est tout simplement la loi
exponentielle(λ) étudiée à la section précédente. En effet, pour tout λ > 0,

gamma(1, λ) = exponentielle(λ).

Si T est une variable aléatoire de loi gamma(α, λ), un calcul élémentaire donne
Z ∞ Z ∞
n n λα α−1 −λt
E[T ] = t fT (t)dt = tn t e dt
−∞ 0 Γ(α)
Z ∞
1 Γ(n + α)
= n
(λt)(n+α)−1 e−λt λdt = .
Γ(α) λ 0 Γ(α)λn
En particulier, on obtient
α α
E[T ] = et Var[T ] = 2
λ λ
On peut aussi calculer la fonction génératrice des moments de la loi gamma. Si T ∼ gamma(α, λ),
alors pour u ≥ λ on obtient MT (u) = ∞ et pour u < λ on obtient
Z ∞
λα α−1 −λt
MT (u) = E[euT ] = eut t e dt
0 Γ(α)
Z ∞
λα
= tα−1 e−(λ−u)t dt
Γ(α) 0
Z ∞
λα
= ((λ − u)t)α−1 e−(λ−u)t (λ − u) dt
(λ − u)α Γ(α) 0
Z ∞
λα
= v α−1 e−v dv
(λ − u)α Γ(α) 0
 α
λα λ
= Γ(α) = .
(λ − u)α Γ(α) λ−u
On a donc   α
 λ
 si u < λ
MT (u) = λ−u

 ∞ si u ≥ λ

121
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

La loi gamma possède une propriété d’additivité analogue à celle de la loi binomiale :

Théorème 4. Supposons que U et V sont des variables aléatoires indépendantes. Supposons que
la distribution de U est la loi gamma (α1 , λ) et que la distribution de V est la loi gamma (α2 , λ).
Posons S = U + V . Alors la distribution de la variable aléatoire S est la loi gamma (α1 + α2 , λ).
Plus généralement, si T1 , T2 , . . . , Tk sont des variables aléatoires mutuellement indépendantes et si,
pour j = 1, 2, . . . , k, la distribution de Tj est la loi gamma (αj , λ), alors la distribution de la variable
P P
aléatoire S = kj=1 Tj est la loi gamma (α, λ), avec α = kj=1 αj .

Puisque la loi gamma(1, λ) est simplement la loi exponentielle(λ), le corollaire suivant est une
conséquence immédiate du théorème précédent :

Corollaire. Si T1 , T2 , . . . , Tk sont des variables aléatoires i.i.d. avec loi exponentielle(λ) et si S =


T1 + T2 + · · · + Tk , alors S est une variable aléatoire avec loi gamma(k, λ).

Démonstration du théorème. Sous les hypothèses du théorème, on a

MS (u) = E[euS ] = E[eu(T1 +T2 +···+Tk ) ]

= E[euT1 euT2 · · · euTk ] = E[euT1 ] E[euT2 ] · · · E[euTk ]

= MT1 (u) MT2 (u) · · · MTk (u)


 α1  α2  αk
λ λ λ
= ···
λ−u λ−u λ−u
 α1 +α2 +···+αk
λ
=
λ−u

On reconnait ici la fonction génératrice des moments de la loi gamma(α, λ), avec α = α1 + α2 +
· · · + αk . On conclut que S ∼ gamma(α, λ) avec α = α1 + α2 + · · · + αk .

Le théorème suivant est un résultat qui concerne la loi exponentielle. Toutefois, sa démonstration
fait appel à la loi gamma. C’est pourquoi il est inclus dans la présente section.

Théorème 5. On suppose que


(a) Les variables aléatoires T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ).
(b) La variable aléatoire G suit la loi géométrique(p).
(c) La variable aléatoire G est indépendantes des variables aléatoires T1 , T2 , T3 , ...
P
Alors la variable aléatoire Gj=1 Tj suit la loi exponentielle(λp).

P
Démonstration. Posons V = G j=1 Tj . Pour démontrer le théorème, il suffit de calculer la fonction
de répartition de la variable aléatoire V et de constater qu’il s’agit de la fonction de répartition de
la loi exponentielle(λp). Pour v ≤ 0 on obtient FV (v) = P[V ≤ v] = 0. Fixons v > 0. On obtient

122
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

 
XG
FV (v) = P[V ≤ v] = P  Tj ≤ v 
j=1
 

X G
X

= P Tj ≤ v G = n P[G = n]
n=1 j=1
 
X∞ X n
= P Tj ≤ v  P[G = n]
n=1 j=1
∞ Z v
X
= fn (s) ds (1 − p)n−1 p
n=1 0
∞ Z v
X λn
= sn−1 e−λs ds (1 − p)n−1 p
n=1 0
(n − 1)!
Z v ∞
!
−λs
X (λ(1 − p)s)n−1
= λpe ds
0 (n − 1)!
n=1
Z v Z v
−λs λ(1−p)s
= λpe e ds = λpe−λps ds = 1 − e−λpv .
0 0

Il s’agit bel et bien de la fonction de répartition de la loi exponentielle(λp).


Pn Notez que ci-dessus
on a écrit fn (s) pour dénoter la densité de probabilité de la variable j=1 Tj , puis on a utilisé le
corollaire du Théorème 4 pour conclure que cette densité fn (s) est la loi gamma(n, λ).

6.3 La loi de Poisson


Fixons ν, un nombre réel positif. La loi de Poisson avec paramètre ν est la loi discrète avec fonction
de masse donnée par 
k
 e−ν ν

si k ∈ {0, 1, 2, 3, . . .}
p(k) = k!


0 si k ∈
/ {0, 1, 2, 3, . . .}
Il s’agit bel et bien d’une distribution de probabilité sur l’ensemble desP
entiers non négatifs puisque
d’une part on a p(k) > 0 pour tout k ∈ {0, 1, 2, 3, . . .} et d’autre part ∞ −ν k
k=0 e ν /k! = 1.

Les moments factoriels de la loi de Poisson sont faciles à calculer. Si X est une variable aléatoire
avec loi de Poisson de paramètre ν et si m est un entier positif, alors le me moment factoriel de X
est donnée par

E[X(X − 1)(X − 2) · · · (X − (m − 1))]



X e−ν ν k
= k(k − 1)(k − 2) · · · (k − (m − 1))
k!
k=0

123
Claude Bélisle
Université Laval
STT-4700
Hiver 2021


X e−ν ν k
= k(k − 1)(k − 2) · · · (k − (m − 1))
k!
k=m
∞ ∞
−ν m
X ν k−m X νℓ
= e ν = e−ν ν m = e−ν ν m eν = ν m .
(k − m)! ℓ!
k=m ℓ=0

En particulier, on obtient
E[X] = ν
et
Var[X] = E[X 2 ] − (E[X])2
= E[X(X − 1)] + E[X] − (E[X])2
= E[X(X − 1)] − E[X](E[X] − 1)
= ν 2 − ν(ν − 1) = ν

On a donc démontré le théorème suivant ainsi que son corollaire :

Théorème 6. Si X ∼ Poisson(ν), alors E[X(X − 1)(X − 2) · · · (X − (m − 1))] = ν m .

Corollaire. Si X ∼ Poisson(ν), alors E[X] = Var[X] = ν.

Lien entre la loi de Poisson et la loi binomiale


Fixons ν > 0, et pour chaque entier positif n tel que ν/n < 1, considérons Xn , une variable aléatoire
avec loi binomiale(n, pn ), avec pn = ν/n. Si k est un entier non négatif alors
 
n
lim P[Xn = k] = lim pkn (1 − pn )n−k
n→∞ n→∞ k
n!  ν k  ν n−k
= lim 1−
n→∞ (n − k)!k! n n
  k
ν n ν n(n − 1) · · · (n − (k − 1)) 1 k
−ν ν
= lim 1 −  = e
n→∞ n k! nk 1− ν
k k!
n
La dernière égalité vient a été obtenue en utilisant le fait que
 ν n
• lim 1 − = e−ν ,
n→∞ n
n(n − 1)(n − 2) · · · (n − (k − 1))
• lim = 1,
n→∞ nk
 ν k
• lim 1 − = 1.
n→∞ n
On a donc démontré le théorème suivant :

Théorème 7. Pour tout nombre réel ν > 0 et tout entier k ≥ 0,


    
n ν k ν n−k νk
lim 1− = e−ν .
n→∞ k n n k!

124
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

En pratique, ce résultat nous dit que si n est grand et si p est petit, alors on peut approximer la
loi binomiale(n, p) par la loi de Poisson avec paramètre ν = np :

binomiale(n, p) ≈ Poisson(np).

L’approximation est très bonne lorsque n ≥ 50 et np < 10.

La loi de Poisson possède une propriété d’additivité semblable à la propriété d’additivité de la loi
binomiale :

Théorème 8. Si X et Y sont des variables aléatoires indépendantes et si X ∼ Poisson(ν1 ) et Y ∼


Poisson(ν2 ), alors X + Y ∼ Poisson(ν1 + ν2 ).

Démonstration. Sous les hypothèses du théorème, il est clair que l’ensemble des valeurs possibles
de la variable aléatoire X + Y est l’ensemble N0 = {0, 1, 2, ...}. Fixons n ∈ N0 . Alors
n
X
P[X + Y = n] = P[(X = k) ∩ (Y = n − k)]
k=0
Xn
= P[X = k] P[Y = n − k]
k=0
n
X ν1k −ν2 ν2n−k
= e−ν1 e
k! (n − k)!
k=0
n  
−(ν1 +ν2 ) 1 n k n−k
X
= e ν ν
n! k 1 2
k=0
(ν1 + ν2 )n
= e−(ν1 +ν2 )
n!
On reconnaı̂t ici la fonction de masse de la loi de Poisson de paramètre ν1 + ν2 . On conclut que
X + Y ∼ Poisson(ν1 + ν2 ). Notez que pour la dernière égalité ci-dessus on a simplement utilisé le
théorème du binôme.

Lien entre la loi de Poisson et la loi exponentielle :


Il existe un lien très fondamental entre la loi de Poisson et la loi exponentielle. Ce lien sera présenté
à la section suivante.

6.4 Processus de Poisson


Considérons T1 , T2 , T3 , . . . , des
P variables aléatoires satisfaisant la condition P[Tj > 0] = 1. Posons
S0 = 0 et, pour n ≥ 1, Sn = nj=1 Tj . Finalement, pour t ≥ 0, posons

N (t) = max{n ≥ 0 : Sn ≤ t}.

125
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Autrement dit, 

 0 si 0 ≤ t < S1



 1 si S1 ≤ t < S2

 2
 si S2 ≤ t < S3
N (t) = ..

 .



 k si Sk ≤ t < Sk+1

 .
 .
.
Si S1 , S2 , S3 ,... représente les temps où surviennent certains événements, alors N (t) représente
le nombre total d’événements qui sont survenus durant l’intervalle de temps [0, t]. Ceci justifie la
définition suivante.

Définition d’un processus de dénombrement.


Pn aléatoires satisfaisant P[Tj > 0] = 1 pour tout j ≥ 1. Posons
Considérons T1 , T2 , T3 , ... des variables
S0 = 0 et, pour n ≥ 1, posons Sn = j=1 Tj . Enfin, pour t ≥ 0, posons N (t) = max{n ≥ 0 : Sn ≤ t}.
Le processus aléatoire (N (t); t ≥ 0) est appelé un processus de dénombrement.

Dans certaines applications, les variables aléatoires T1 , T2 , T3 , ... représentent les durées de vie de
composantes électroniques qu’on utilise les unes après les autres. Supposons par exemple qu’on dis-
pose d’une grande quantité de piles électriques, disons la pile 1, la pile 2, la pile 3, etc. et supposons
qu’on utilise ces piles de façon séquentielle dans un certain système électronique. Donc, au temps 0,
on installe la pile 1. Cette pile dure T1 unités de temps, après quoi elle doit être jetée et remplacée
par la pile 2. Celle-ci dure T2 unités de temps, après quoi elle doit être jetée et remplacée par la
pile 3. Et ainsi de suite. La variable aléatoire N (t) représente alors le nombre de changements de
pile qui ont été effectués durant l’intervalle de temps [0, t]. Dans d’autres applications, les variables
aléatoires T1 , T2 , T3 , ... représentent les temps d’attentes entre les arrivées successives de clients dans
une file d’attente. La variable aléatoire N (t) représente alors le nombre de clients qui sont arrivés
durant l’intervalle de temps [0, t]. Dans l’étude des processus de dénombrement, les variables T1 ,
T2 , T3 ,... sont donc souvent appelées les durées de vie du processus (N (t); t ≥ 0), ou encore les
temps d’attente du processus (N (t); t ≥ 0).

Le cas particulier où les durées de vie sont indépendantes et identiquement distribuées est par-
ticulièrement facile à analyser. Prenons l’exemple des piles électriques du paragraphe précédent
et supposons que les durées de vie T1 , T2 , T3 ,... sont des variables aléatoires indépendantes et
identiquement distribuées. Lorsqu’on installe une nouvelle pile dans le système, on dit qu’il y a
renouvellement du système parce que c’est comme si le système recommençait à neuf. La variable
aléatoire N (t) représente alors le nombre de renouvellements du système durant l’intervalle de
temps [0, t], d’où la définition suivante.

Définition d’un processus de renouvellement.


Un processus de renouvellement est un processus de dénombrement pour lequel les durées de vie
sont des variables aléatoires indépendantes et identiquement distribuées.

L’exemple le plus important d’un processus de renouvellement est le processus de Poisson. En voici
la définition la plus simple :

Définition 1. [Première définition d’un processus de Poisson].


Un processus de Poisson avec intensité λ est un processus de renouvellement pour lequel la distri-
bution des durées de vie est la loi exponentielle(λ).

126
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

La terminologie processus de Poisson est justifiée par le résultat suivant.

Théorème 9. Si (N (t); t ≥ 0) est un processus renouvellement avec distribution de durée de vie


exponentielle(λ), alors on a N (t) ∼ Poisson(λt) pour tout t ≥ 0.

Démonstration. La démonstration repose sur les deux observations suivantes :


(1) Pour tout nombre réel t ≥ 0 et pour tout entier n ≥ 0, on a N (t) ≥ n si et seulement si
Sn ≤ t. On obtient donc
P[N (t) ≥ n] = P[Sn ≤ t].
(2) Si les durées de vie T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ), alors on a

Sn ∼ gamma(n, λ).

Voici maintenant les détails de la démonstration. Pour tout entier n ≥ 0,

P[N (t) = n] = P[N (t) ≥ n] − P[N (t) ≥ n + 1]

= P[Sn ≤ t] − P[Sn+1 ≤ t]
Z t Z t n+1
λn n−1 −λs λ
= s e ds − sn e−λs ds
0 (n − 1)! 0 n!
Z t 
λn n−1 −λs λn+1 n −λs
= s e − s e ds
0 (n − 1)! n!
   n 
λ n −λs s=t
Z t
d λn n −λs −λt (λt)
n
= s e ds = s e = e .
0 ds n! n! n!

s=0

Ceci montre que N (t) ∼ Poisson(λt).

En utilisant la propriété d’absence de mémoire de la loi exponentielle, on peut généraliser le


théorème précédent et montrer que si (N (t); t ≥ 0) est un processus de Poisson avec intensité
λ, alors
(a) pour tout choix de nombres réels 0 ≤ s ≤ t < ∞, on a

N (t) − N (s) ∼ Poisson(λ(t − s))

(b) pour tout entier positif n et pour tout choix de nombres réels 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤
sn ≤ tn < ∞, les variables aléatoires

N (t1 ) − N (s1 ), N (t2 ) − N (s2 ), . . . , N (tn ) − N (sn )

sont mutuellement indépendantes.

Nous allons maintenant voir que l’inverse est aussi vrai. Soit (N (t); t ≥ 0), un processus de
dénombrement satisfaisant les conditions (a) et (b) données ci-dessus. Calculons la distribution
du temps du premier renouvellement, T1 = min{t > 0 : N (t) = 1}. Pour t > 0 on a

(λt)0
P[T1 > t] = P[N (t) = 0] = e−λt = e−λt
0!

127
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a donc 
1 − e−λt si t ≥ 0
FT1 (t) =
0 si t < 0.
Ceci montre que T1 ∼ exponentielle(λ). De façon similaire, on peut montrer que chacune des
variables
Tk = min{t > 0 : N (t) = k} − min{t > 0 : N (t) = k − 1}
suit la loi exponentielle(λ) et que ces variables T1 , T2 , T3 , ... sont indépendantes les unes des autres.
Donc, si (N (t); t ≥ 0) est un processus de dénombrement satisfaisant les conditions (a) et (b), alors
(N (t); t ≥ 0) est un processus de Poisson avec intensité λ.

Notons en passant que si (Xt ; t ≥ 0) est un processus aléatoire, alors la variable aléatoire Xv − Xu
s’appelle l’accroissement du processus (Xt ; t ≥ 0) sur l’intervalle (u, v]. On dit que (Xt ; t ≥ 0) est un
processus à accroissements stationnaires lorsque la distribution de l’accroissement sur un intervalle
dépend seulement de la longueur de l’intervalle, c’est-à-dire lorsque

L(Xt+s − Xt ) = L(Xs − X0 ) pour tout t ≥ 0.

On dit que (Xt ; t ≥ 0) est un processus à accroissements indépendants lorsque les accroissements
correspondants à des intervalles disjoints sont des variables aléatoires indépendantes, c’est-à-dire
lorsque pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞, les variables aléatoires

X(t1 ) − X(s1 ), X(t2 ) − X(s2 ), . . . , X(tn ) − X(sn )

sont des variables mutuellement indépendantes. La condition (b) ci-dessus nous dit donc que
(N (t); t ≥ 0) est un processus à accroissements indépendants. La condition (a), quant à elle, nous
dit, entre autres choses, que (N (t); t ≥ 0) est un processus à accroissements stationnaires. La
première définition de processus de Poisson, donnée ci-dessus, est donc équivalente à la définition
suivante.

Définition 2. [Deuxième définition de processus de Poisson].


Un processus de Poisson avec intensité λ est un processus de dénombrements, disons (N (t); t ≥ 0),
avec accroissements stationnaires et indépendants, et avec N (t) − N (s) ∼ Poisson(λ(t − s)) pour
tout 0 ≤ s ≤ t < ∞.

Pour résumer, nous avons démontré le résultat suivant :

Théorème 10. Le processus aléatoire (Nt ; t ≥ 0) est une processus de Poisson avec intensité λ au
sens de la définition 1 si et seulement si c’est un processus de Poisson avec intensité λ au sens de
la définition 2.

128
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

6.5 La loi de (S1, S2, ..., Sn) sachant N (t) = n


Soit (N (t); t ≥ 0), un processus de Poisson avec intensité λ. Fixons t > 0 et calculons la loi
conditionnelle de S1 sachant que N (t) = 1. Pour 0 ≤ s ≤ t, on obtient
P[S1 ≤ s|N (t) = 1] = P[N (s) ≥ 1|N (t) = 1] = P[N (s) = 1|N (t) = 1]
P[(N (s) = 1) ∩ (N (t) = 1)]
=
P[N (t) = 1]
P[(N (s) = 1) ∩ (N (t) − N (s) = 0)]
=
P[N (t) = 1]
P[N (s) = 1] P[N (t) − N (s) = 0]
=
P[N (t) = 1]
−λs
 −λ(t−s) 
e λs e s
= −λt
= .
e λt t
La fonction de répartition de S1 sachant N (t) = 1 est donc

 0 si s < 0
F (s) = s/t si 0 ≤ s ≤ t

1 si s > t
La densité de S1 sachant N (t) = 1 est donc

1/t si 0 ≤ s ≤ t
f (s) =
0 sinon
Autrement dit, la loi conditionnelle de S1 sachant N (t) = 1 est la loi uniforme sur l’intervalle [0, t].

Maintenant, calculons la loi conditionnelle du couple (S1 , S2 ) sachant que N (t) = 2. Notons d’abord
que lorsque N (t) = 2, l’ensemble des valeurs possibles du couple (S1 , S2 ) est l’ensemble {(s1 , s2 ) ∈
R2 : 0 ≤ s1 ≤ s2 ≤ t}. Calculons la fonction de répartition conjointe de (S1 , S2 ) sachant N (t) = 2
en un point (s1 , s2 ) satisfaisant 0 ≤ s1 ≤ s2 ≤ t. On obtient
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 )|N (t) = 2]
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 ) ∩ (N (t) = 2)]
=
P[N (t) = 2]
P[(N (s1 ) = 1) ∩ (N (s2 ) − N (s1 ) = 1) ∩ (N (t) − N (s2 ) = 0)]
=
P[N (t) = 2]
P[(N (s1 ) = 2) ∩ (N (s2 ) − N (s1 ) = 0) ∩ (N (t) − N (s2 ) = 0)]
+
P[N (t) = 2]
P[N (s1 ) = 1] P[N (s2 ) − N (s1 ) = 1] P[N (t) − N (s2 ) = 0]
=
P[N (t) = 2]
P[N (s1 ) = 2] P[N (s2 ) − N (s1 ) = 0] P[N (t) − N (s2 ) = 0]
+
P[N (t) = 2]
−λs
 −λ(s −s )  −λ(t−s ) 
e 1 λs1 e 2 1 λ(s − s ) e 2
2 1
= −λt 2
e (λt) /2!
  
e 1 (λs1 ) /2! e−λ(s2 −s1 ) e−λ(t−s2 )
−λs 2
+
e−λt (λt)2 /2!
2s1 (s2 − s1 ) s21
= + 2.
t2 t

129
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

La densité conjointe conditionnelle de (S1 , S2 ) sachant N (t) = 2 est donc donnée par
  
 ∂2 2s1 (s2 − s1 ) s21
 + 2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) = ∂s2 ∂s1 t2 t

 0 sinon

On obtient donc 
2/t2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) =
0 sinon
Cette distribution de probabilité est aussi la loi conjointe des statistiques d’ordre d’un échantillon
de taille 2 issu de la loi uniforme sur l’intervalle [0, t]. Autrement dit, si U1 et U2 sont des variables
aléatoires indépendantes et identiquement distribuées, avec loi uniforme sur [0, t] et si U(1) et U(2)
dénote les statistiques d’ordre du couple (U1 , U2 ), c’est-à-dire

U(1) = min{U1 , U2 } et U(2) = max{U1 , U2 },

alors la densité conjointe du couple (U(1) , U(2) ) est donnée par



2/t2 si 0 ≤ u ≤ v ≤ t
f (u, v) =
0 sinon

Le calcul précédent nous donne donc

L((S1 , S2 )|N (t) = 2) = L(U(1) , U(2) )

Le théorème suivant est la version générale de ce résultat :

Théorème 11. Soit (Nt ; t ≥ 0), un processus de Poisson avec intensité λ. La densité conditionnelle
de (S1 , S2 , ..., Sn ) sachant Nt = n est donnée par

n!/tn si 0 ≤ s1 ≤ s2 ≤ · · · ≤ sn ≤ t
f (s1 , s2 , ..., sn ) =
0 sinon

Autrement dit,
L((S1 , S2 , ..., Sn )|Nt = n) = L(U(1) , U(2) , ..., U(n) )
où U(1) , U(2) , ..., U(n) dénotent les statistiques d’ordre d’un échantillon aléatoire de taille n issu de
la loi uniforme sur [0, t].

Simulation d’un processus de Poisson.


Pour simuler un processus de Poisson avec intensité λ, il suffit de simuler des variables aléatoires
T1 , T2 , T3 , ... i.i.d. avec loi exponentielle(λ). Le théorème précédent nous donne une méthode alterna-
tive. Supposons qu’on veuille simuler un processus de Poisson avec intensité λ sur l’intervalle [0, t].
On simule d’abord une variable N ∼ Poisson(λt). Puis, sachant N = n, on simule U1 , U2 , ..., Un i.i.d.
avec distribution uniforme sur [0, t]. Les statistique d’ordre U(1) , U(2) , ..., U(n) jouent maintenant le
rôle de nos temps de renouvellement S1 , S2 , ..., Sn .

130
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

6.6 Superposition et décomposition


Le résultat suivant nous dit que lorsqu’on superpose des processus de Poisson indépendants les uns
des autres, on obtient un processus de Poisson :

Théorème 12. Fixons λ1 , λ2 , ..., λm , des nombres réels strictement plus grands que 0, et posons
λ = λ1 + λ2 + · · · + λm . Supposons que, pour chaque j ∈ {1, 2, ..., m}, le processus (Nj (t); t ≥ 0)
est un processus de Poisson avec intensité λj et supposons que ces m processus de Poisson sont
indépendants les uns des autres. Pour chaque t ≥ 0, posons

N (t) = N1 (t) + N2 (t) + · · · + Nm (t).

Alors (N (t); t ≥ 0) est un processus de Poisson avec intensité λ.

Première démonstration du Théorème 12.


Pour démontrer ce théorème, il suffit de vérifier que les temps d’attente du processus de dénombre-
ment (N (t); t ≥ 0) sont des variables aléatoires indépendantes et identiquement distribuées, avec
distribution exponentielle(λ). Posons

T1 = le temps du premier événement du processus (N (t); t ≥ 0).


(j)
T1 = le temps du premier événement du processus (Nj (t); t ≥ 0).
(1) (2) (m) (j)
On a alors T1 = min{T1 , T1 , ..., T1 } et T1 ∼ exponentielle(λj ). De plus, puisque les proces-
(1) (2) (m)
sus (Nj (t); t ≥ 0) sont indépendants les uns des autres, les variables aléatoires T1 , T1 , ..., T1
sont indépendantes les unes des autres. Le Théorème 3 nous permet donc de conclure que T1 ∼
exponentielle(λ), avec λ = λ1 + λ2 + · · · + λm . Maintenant, pour k = 2, 3, ... posons Tk = le temps
entre le (k − 1)e événement et le k e événement du processus (N (t); t ≥ 0). En utilisant la propriété
d’absence de mémoire de la loi exponentielle et en procédant comme pour T1 , on peut montrer
que les variables T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec distribution
exponentielle(λ). Donc, d’après la Définition 1 de la section 4, (N (t); t ≥ 0) est bel et bien un
processus de Poisson avec intensité λ.

Remarques.
• Avec le scénario du Théorème 12, on dit que ce processus (N (t); t ≥ 0) est la superposition
des processus (Nj (t); t ≥ 0), j = 1, 2, ..., m.
• Pour la démonstration ci-dessus, nous sommes passés par notre première définition de pro-
cessus de Poisson. Nous aurions pu passer par la deuxième définition.

Deuxième démonstration du Théorème 12.


Fixons 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤P· · · ≤ sn ≤ tn < ∞ et considérons les accroissements N (ti ) − N (si ),
i = 1, 2, ..., n. Puisque N (t) = m
j=1 Nj (t), on a

131
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

m
X
N (t1 ) − N (s1 ) = (Nj (t1 ) − Nj (s1 )) ,
j=1
Xm
N (t2 ) − N (s2 ) = (Nj (t2 ) − Nj (s2 )) ,
j=1
m
X
N (t3 ) − N (s3 ) = (Nj (t3 ) − Nj (s3 )) ,
j=1
..
.
m
X
N (tn ) − N (sn ) = (Nj (tn ) − Nj (sn )) .
j=1

Puisque les n intervalles (s1 , t1 ], (s2 , t2 ], ..., (sn , tn ] sont disjoints deux à deux et puisque les m
processus (Nj (t); t ≥ 0), j = 1, 2, ..., m sont indépendants les uns des autres, les nm accroissements
qui apparaissent sur le côté droit des équations ci-dessus sont indépendants les uns des autres. On
conclut que les n accroissements

N (t1 ) − N (s1 ), N (t2 ) − N (s2 ), N (t3 ) − N (s3 ), ··· N (tn ) − N (sn )

sont indépendants les uns des autres. De plus, puisqu’on a Nj (t) − Nj (s) ∼ Poisson(λj (t − s)), la
propriété d’additivité de la loi de Poisson nous permet de conclure que N (t) − N (s) suit la loi de
Poisson avec paramètre λ(t − s), avec λ = λ1 + λ2 + · · · + λm . Le processus (N (t); t ≥ 0) est donc
bel et bien un processus de Poisson d’intensité λ = λ1 + λ2 + · · · + λm , au sens de la Définition 2.

On peut aussi décomposer un processus de Poisson d’intensité λ en plusieurs processus de Poisson


indépendants les uns des autres :

Théorème 13. Fixons m, un entier positif, et fixons (p1 , p2 , ..., pm ), un vecteur satisfaisant 0 <
pj < 1 pour tout j et p1 + p2 + · · · + pm = 1. Fixons λ > 0 et considérons un processus de Poisson
avec intensité λ, disons (N (t); t ≥ 0). Supposons que
(1) il y a m types d’événements dans le processus (N (t); t ≥ 0) ;
(2) à chaque fois que survient un événement, on a une probabilité p1 que ce soit un événement
de type 1, une probabilité p2 que ce soit un événement de type 2, une probabilité p3 que ce
soit un événement de type 3, etc. ;
(3) les attributions de types sont indépendantes les unes des autres et sont indépendantes des
durées de vie T1 , T2 , T3 , ...
Pour chaque j ∈ {1, 2, ..., m}, dénotons par (Nj (t); t ≥ 0) le processus de dénombrement des
événements de type j. Alors
(i) (Nj (t); t ≥ 0) est un processus de Poisson avec intensité(λpj ) ;
(ii) les processus (Nj (t); t ≥ 0) sont indépendants les uns des autres.

132
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration de la partie (i). L’énoncé (i) est facile à démontrer. Fixons j ∈ {1, 2, ..., m} et
(j)
considérons le processus (Nj (t); t ≥ 0). Le temps du premier événement de ce processus, disons T1
peut s’écrire sous la forme
Gj
(j)
X
T1 = Tk
k=1

où T1 , T2 , T3 , ... sont les temps d’attente du processus (N (t); t ≥ 0) et où Gj dénote le nombre
d’événements qu’il faudra observer pour obtenir notre premier événement de type j. Les va-
riables T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λ), et
la variable Gj est géométrique(pj ) sur {1, 2, 3, ...} et est indépendante des variables T1 , T2 , T3 , ...
(j)
Le Théorème 5 de la section 2 nous permet de conclure que T1 ∼ exponentielle(λpj ). Grâce
à la propriété d’absence de mémoire de la loi exponentielle, on peut montrer que les variables
(j) (j) (j)
T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λpj ). Le
processus (Nj (t); t ≥ 0) est donc bel et bien un processus de Poisson avec intensité λpj .

Démonstration de la partie (ii). La démonstration de l’énoncé (ii) est un peu plus délicate.
Pour fixer les idées et simplifier la notation, considérons le cas où m = 3. On a donc trois types
d’événements et chaque fois qu’un événement survient on a une probabilité p1 que ce soit un
événement de type 1, une probabilité p2 que ce soit un événement de type 2 et une probabilité
p3 que ce soit un événement de type 3. On suppose que 0 < pj < 1 pour j = 1, 2, 3 et que
p1 + p2 + p3 = 1. D’après la partie (i), les processus aléatoires

(N1 (t); t ≥ 0), (N2 (t); t ≥ 0), (N3 (t); t ≥ 0)

sont des processus de Poisson avec intensités respectives λp1 , λp2 et λp3 . On souhaite démontrer que
ces trois processus aléatoires sont indépendants. Autrement dit, on souhaite démontrer que pour
tout choix d’entiers positifs ℓ, m et n et pour tout choix de nombres réels positifs u1 < u2 < · · · < uℓ ,
v1 < v2 < · · · < vm et w1 < w2 < · · · < wn , les trois vecteurs aléatoires

(N1 (u1 ), N1 (u2 ), ..., N1 (uℓ )), (N2 (v1 ), N2 (v2 ), ..., N2 (vm )), (N3 (w1 ), N3 (w3 ), ..., N3 (wn ))

sont indépendants. Nous allons démontrer le cas spécial suivant : pour tout t > 0 les variables
aléatoire N1 (t), N2 (t) et N3 (t) sont indépendantes. À première vue cet objectif semble être beaucoup
plus modeste que l’objectif souhaité ci-dessus. Mais en fait ce cas spécial capture l’essentiel de notre
problème et, bien que nous omettrons les détails, il n’est pas très difficile de passer du cas spécial
au cas général.

Fixons t > 0 et calculons la fonction de masse conjointe des variables aléatoires N1 (t), N2 (t) et
N3 (t). Pour tout choix d’entiers non négatifs i, j et k, on obtient

P[(N1 (t), N2 (t), N3 (t)) = (i, j, k)]


= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k)]
= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) ∩ (N (t) = i + j + k)]
= P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) | N (t) = i + j + k] P[N (t) = i + j + k]

133
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(i + j + k)! i j k −λt (λt)i+j+k


= p1 p2 p3 e
i! j! k! (i + j + k)!
(λtp1 )i (λtp2 )j (λtp3 )k
= e−λt
i! j! k!
 i
 j
 k

−λtp1 (λtp1 ) −λtp2 (λtp2 ) −λtp3 (λtp3 )
= e e e
i! j! k!

= P[N1 (t) = i] P[N2 (t) = j] P[N3 (t) = k].

Pour la dernière égalité, on a utilisé le résultat de la partie (i). On a donc montré que la fonction de
masse conjointe des variables aléatoires N1 (t), N2 (t) et N3 (t) est égale au produit de leurs fonctions
de masse marginales. Les variables aléatoires N1 (t), N2 (t) et N3 (t) sont donc indépendantes.

Remarques.
(a) Dans le scénario du Théorème 13, chacun des processus de Poisson (Nj (t); t ≥ 0) est appelé
un amincissement du processus N (t); t ≥ 0).
(b) Dans la démonstration ci-dessus on a utilisé le fait que

(i + j + k)! i j k
P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) | N (t) = i + j + k] = p1 p2 p3 .
i! j! k!
Il s’agit d’une probabilité multinomiale. En effet, la distribution conjointe des variables
aléatoires N1 (t), N2 (t) et N3 (t) sachant que N (t) = i + j + k est la loi multinomiale(i + j +
k, (p1 , p2 , p3 )).

6.7 Processus de Poisson non homogène


Le processus de Poisson est souvent un modèle adéquat lorsqu’on modélise des phénomènes ho-
mogènes dans le temps. Cependant, il y a beaucoup de phénomènes pour lesquels l’intensité varie
dans le temps. Si on essaie, par exemple, de modéliser les arrivées des appels dans un centre d’ur-
gence 9-1-1, il se peut très bien que l’intensité soit de 5 appels par heure durant le jour, 10 appels
par heure durant la soirée et 2 appels par heure durant le milieu de la nuit. On pourrait donc
utiliser un processus de Poisson avec intensité λjour = 5 appels par heure, avec intensité λsoirée = 10
appels par heure et avec intensité λnuit = 2 appels par heure. On peut même introduire le concept
de processus de Poisson avec une intensité λ qui dépend du temps t, qu’on note λ(t) et qu’on ap-
pelle la fonction intensité. Si la fonction λ(t) est une constante alors on a un processus de Poisson
ordinaire. Sinon, on dit que le processus de Poisson est non homogène.

Définition d’un processus de Poisson non homogène


Un processus de Poisson avec fonction intensité λ(t) est un processus de dénombrements, disons
(N (t); 0 ≤ t < ∞), avec accroissements indépendants et avec N (t) − N (s) ∼ Poisson(m(t) − m(s))
pour tout 0 ≤ s ≤ t < ∞ où m(t) est la fonction de moyenne définie par
Z t
m(t) = λ(u) du.
0

134
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On suppose bien
R t sûr que la fonction intensité λ(t) est une fonction non négative. On suppose
également que 0 λ(u) du < ∞ pour tout t > 0.
Exemple. On suppose que (N (t); t ≥ 0) est un processus de Poisson avec fonction intensité donnée
par λ(t) = 2 + t e−t . Calculez la probabilité qu’il y aura au moins 4 événements durant l’intervalle
de temps (1, 3].
Solution. La probabilité demandée est la probabilité P[N (3) − N (1) ≥ 4]. D’abord on note que la
distribution de l’accroissement N (3) − N (1) est la loi de Poisson avec moyenne
Z 3 Z 3
E[N (3) − N (1)] = m(3) − m(1) = λ(t) dt = (2 + t e−t )dt ≈ 4.53661.
1 1

On obtient ensuite

P[N (3) − N (1) ≥ 4] = 1 − P[N (3) − N (1) ≤ 3]


= 1 − (0.01071 + 0.04859 + 0.11021 + 0.16666) ≈ 0.6638.

Simulation d’un processus de Poisson non homogène.


Voici comment on peut simuler un processus de Poisson non homogène sur, disons, l’intervalle
R[0,toto ]. D’abord on simule une variable aléatoire, disons N , avec loi de Poisson de moyenne m(to ) =
0 λ(s) ds. Disons qu’on obtient N = n. Ensuite on choisit n points i.i.d. avec distribution uniforme
sur la surface sous le graphe de la fonction intensité entre le point t = 0 et le point t = to . Enfin,
on projette ces n points sur l’axe du temps. On peut montrer que les n projections ainsi obtenues
constituent un processus de Poisson non homogène avec fonction intensité λ(t).

6.8 Processus de Poisson composé


Le scénario suivant motive la définition de processus de Poisson composé. On suppose que les
arrivées de clients à un poste d’essence peu achalandé surviennent comme un processus de Poisson,
disons (N (t); t ≥ 0), avec une intensité de λ clients par heure. Si Yj dénote la quantité d’essence,
en litres, acheté par le j e client, alors Y1 + Y2 + · · · + YN (t) dénote le nombre total de litres d’essence
vendus durant l’intervalle de temps [0, t]. Le cas spécial où les variables aléatoires Y1 , Y2 , Y3 , ... sont
indépendantes et identiquement distribuées et sont indépendantes du processus (N (t); t ≥ 0) est
particulièrement important.
Définition de processus de Poisson composé
Supposons que les conditions suivantes sont satisfaites :
• (N (t); t ≥ 0) est un processus de Poisson avec intensité λ.
• Y1 , Y2 , Y3 , ... sont des variables aléatoires indépendantes et identiquement distribuées, avec
distribution F .
• La suite aléatoire (Y1 , Y2 , Y3 , ...) et le processus (N (t); t ≥ 0) sont indépendants.
Alors, le processus aléatoire (X(t); t ≥ 0), avec X(t) défini par
N (t)
X
X(t) = Yj ,
j=1

est appelé un processus de Poisson composé, avec intensité λ et avec distribution de gain F .

135
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Voici quelques propriétés élémentaires faciles à vérifier.


1. Les accroissements du processus (X(t); t ≥ 0) sont stationnaires.
2. Les accroissements du processus (X(t); t ≥ 0) sont indépendants.
3. Si F est la loi de probabilité concentrée au point 1, alors le processus (X(t); t ≥ 0) est
simplement le processus de Poisson (N (t); t ≥ 0).
4. Si F est une loi de Bernoulli, alors le processus (X(t); t ≥ 0) est simplement un amincissement
du processus de Poisson (N (t); t ≥ 0).
5. Si µ et σ 2 dénote la moyenne et la variance de la loi F , alors

E[X(t)] = λtµ
Var[X(t)] = λt(σ 2 + µ2 )

Le dernier point s’obtient par conditionnement sur N (t). Pour l’espérance, on obtient

E[X(t)] = E[E[X(t)|N (t)]] = E[µN (t)] = µE[N (t)] = µλt.

Pour la variance, on obtient

Var[X(t)] = E[Var[X(t)|N (t)]] + Var[E[X(t)|N (t)]]


= E[σ 2 N (t)] + Var[µN (t)]
= σ 2 λt + µ2 λt = λt(µ2 + σ 2 ).

Pour les calculs précédents, on a utilisé le fait que


 
n
X
E[X(t)|N (t) = n] = E  Yj  = nµ
j=1
 
n
X
Var[X(t)|N (t) = n] = Var  Yj  = nσ 2 .
j=1

On peut également montrer que


X(t) − µλt L
p −→ N (0, 1) quand t → ∞.
2 2
λt(µ + σ )

6.9 Troisième définition de processus de Poisson


Nous allons maintenant présenter une troisième définition pour le processus de Poisson et nous
allons montrer que cette troisième définition est équivalente aux deux définitions données à la
section 4. Mais d’abord, nous devons introduire le concept de petit ordre et la notation o(t).

La notation o(t) : Supposons que g(u) soit une fonction définie sur (0, ∞) et à valeurs dans R.
On dit que la fonction g(u) est un petit ordre de u lorsque u tend vers 0, et on écrit

g(u) = o(u) quand u → 0,

si on a
g(u)
lim = 0.
u↓0 u

136
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Intuitivement, cette condition signifir que lorsque u tend vers 0, g(u) tend vers 0 plus rapidement
que u. Par exemple, la fonction g(u) = u2 est un petit ordre de u quand u → 0 puisque

u2
lim = lim u = 0.
u↓0 u u↓0

Par ailleurs, bien que limu→0 sin(u) = 0, la fonction g(u) = sin(u) n’est pas un petit ordre de u
quand u → 0 puisque
sin(u)
lim = 1.
u↓0 u
On utilise la notation o(u) pour représenter n’importe quelle fonction g(u) qui satisfait la condition
limu→0 g(u)/u = 0. Lorsque la notation o(u) est utilisé à plusieurs reprises dans une même équation
ou dans une série d’équations, les différents o(u) ne représentent pas nécessairement la même
quantité.

Considérons maintenant un processus de Poisson (N (t); t ≥ 0) avec intensité λ. Fixons t, un nombre


réel positif, et fixons k, un entier non négatif. Alors quelques calculs élémentaires nous donnent les
résultats suivants :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λh + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λh + o(h) quand h → 0.
(c) P[N (t + h) − N (t) ≥ 2|N (t) = k] = o(h) quand h → 0.
Par exemple, le point (a) s’obtient de la façon suivante :

P[N (t + h) − N (t) = 0|N (t) = k] = P[N (t + h) − N (t) = 0]


= e−λh = 1 − λh + e−λh − 1 + λh = 1 − λh + g(h)

avec g(h) = e−λh − 1 + λh. La première égalité vient du fait que les accroissements du processus de
Poisson sont indépendants. La deuxième égalité vient du fait que N (t + h)− N (t) ∼ Poisson(λh). Il
ne reste plus qu’à vérifier que cette fonction g(h) est un petit ordre de h lorsque h → 0, c’est-à-dire

e−λh − 1 + λh
lim = 0.
h→0 h
On y arrive facilement en appliquant la règle de l’Hospital. Les point (b) et (c) s’obtiennent de
façon semblable.

Nous allons maintenant démontrer le résultat suivant : si (N (t); t ≥ 0) est un processus de


dénombrement satisfaisant les conditions (a), (b) et (c), alors (N (t); t ≥ 0) est un processus de
Poisson avec intensité λ. Notons d’abord qu’il est intuitivement clair que si (N (t); t ≥ 0) satisfait
les conditions (a), (b) et (c), alors (N (t); t ≥ 0) est un processus à accroissements stationnaires
indépendants. D’après la Définition 2 de la section 4, pour montrer que (N (t); t ≥ 0) est un proces-
sus de Poisson, il ne reste plus qu’à montrer que N (t) ∼ Poisson(λt) pour tout t ≥ 0. Pour t ≥ 0
et pour n = 0, 1, 2, ..., posons
fn (t) = P[N (t) = n].
Il faut montrer que
(λt)n
fn (t) = e−λt .
n!

137
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Considérons d’abord la fonction f0 (t). À l’aide de (a), on obtient

f0 (t + h) = P[N (t + h) = 0]
= P[N (t) = 0] P[N (t + h) − N (t) = 0|N (t) = 0]
= f0 (t) (1 − λh + o(h))

On a donc  
f0 (t + h) − f0 (t) o(h)
= f0 (t) −λ +
h h
et lorsqu’on prend la limite quand h → 0 on obtient

f0′ (t) = −λf0 (t).

Avec la condition initiale f0 (0) = P[N (0) = 0] = 1, la solution de cette équation différentielle est
f0 (t) = e−λt . On a donc
P[N (t) = 0] = e−λt .
Maintenant, considérons la fonction f1 (t). À l’aide de (a) et (b), on obtient

f1 (t + h) = P[N (t + h) = 1]
= P[N (t) = 0] P[N (t + h) − N (t) = 1|N (t) = 0]
+ P[N (t) = 1] P[N (t + h) − N (t) = 0|N (t) = 1]
= f0 (t) (λh + o(h)) + f1 (t) (1 − λh + o(h)) .

On a donc    
f1 (t + h) − f1 (t) o(h) o(h)
= e−λt λ+ + f1 (t) −λ +
h h h
et lorsqu’on prend la limite quand h → 0 on obtient

f1′ (t) = −λf1 (t) + λe−λt .

Avec la condition initiale f1 (0) = P[N (0) = 1] = 0, la solution de cette équation différentielle est
f1 (t) = λte−λt . On a donc
P[N (t) = 1] = λte−λt .
On peut continuer de la même façon avec les fonctions f2 (t), f3 (t), f4 (t), ... et on obtient alors

(λt)k
P[N (t) = k] = e−λt
k!
Ceci montre que
N (t) ∼ Poisson(λt) pour tout t ≥ 0.
Nous avons donc démontré que la définition suivante de processus de Poisson est équivalente aux
deux définitions données à la section 4.

138
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Définition 3. [Troisième définition de processus de Poisson].


Un processus de Poisson avec intensité λ est un processus de dénombrements, disons (N (t); t ≥ 0),
qui satisfait les conditions suivantes :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λh + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λh + o(h) quand h → 0.
(c) P[N (t + h) − N (t) ≥ 2|N (t) = k] = o(h) quand h → 0.

L’approche utilisé dans la présente section présente certains avantages. Par exemple, on peut mon-
trer qu’un processus de dénombrement (N (t); t ≥ 0) est un processus de Poisson avec fonction
intensité λ(t) si et seulement si les trois conditions suivantes sont satisfaites :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λ(t)h + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λ(t)h + o(h) quand h → 0.
(c) P[N (t + h) − N (t) ≥ 2|N (t) = k] = o(h) quand h → 0.

6.10 Processus de renouvellement


6.10.1 Introduction
Rappelons les trois définitions données au début de la section 4 du présent chapitre :

Définition d’un processus de dénombrement :


Considérons des variables aléatoires T1 , T2 , T3 , ..., appelées durées de vie
Pet satisfaisant P[0 < Tj <
∞] = 1 pour tout j ≥ 1. Posons S0 = 0 et, pour n ≥ 1, posons Sn = nj=1 Tj . Enfin, pour t ≥ 0,
posons Nt = max{n ≥ 0 : Sn ≤ t}. Le processus aléatoire (Nt ; t ≥ 0) s’appelle alors un processus
dénombrement.

Définition d’un processus de renouvellement :


Un processus de renouvellement est un processus de dénombrement pour lequel les durées de vie
T1 , T2 P
, T3 , ... sont des variables aléatoires indépendantes et identiquement distribuées. Les temps
Sn = nj=1 Tj s’appellent alors les temps de renouvellement.

Définition d’un processus de Poisson :


Un processus de Poisson avec intensité λ est un processus de renouvellement dont la distribution
des durées de vie est la loi exponentielle(λ).

Dans les sections précédentes, nous avons étudié en détails le cas particulier des processus de
Poisson. Dans la présente section nous étudions le cas général des processus de renouvellement. Il
s’avère que plusieurs résultats obtenus pour les processus de Poisson sont également valides, sous
une forme appropriée, pour les processus de renouvellement. Voici la notation et les hypothèses qui
seront utilisées dans la présente section :

• Les durées de vie T1 , T2 , T3 , ... sont des variables aléatoires i.i.d. avec P[0 < Tk < ∞] = 1.
• µ et σ 2 dénotent la moyenne et la variance de la distribution des durées de vie.
• F (t) dénote la fonction de répartition de la distribution des durées de vie.
P
• S0 = 0 et, pour n ≥ 1, Sn = nj=1 Tj .
• Pour t ≥ 0, Nt = max{n ≥ 0 : Sn ≤ t}.

139
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Les notations N (t) et Nt signifient la même chose et seront toutes les deux utilisées. Le nombre
total de renouvellements durant la vie entière du processus est parfois dénoté N∞ ou N (∞). On a
donc
N∞ = lim Nt .
t→∞

Voici d’abord un résultat élémentaire. Ce résultat nous dit qu’avec un processus de renouvellement
on ne peut jamais avoir une infinité de renouvellements à l’intérieur d’un intervalle de temps fini et
on a toujours un nombre infini de renouvellements durant la vie entière du processus, c’est-à-dire
durant l’intervalle de temps [0, ∞).
Théorème 14 : Si (Nt ; t ≥ 0) est un processus de renouvellement, alors
(a) P[Nt = ∞] = 0 pour tout 0 ≤ t < ∞ ;
(b) P[N∞ = ∞] = 1.

Démonstration. Considérons d’abord le point (a). D’après la loi forte des grands nombres, on a

P[ lim Sn /n = µ] = 1.
n→∞

On a donc P[limn→∞ Sn = ∞] = 1. Donc, si on fixe un réel t ≥ 0, alors on a

P[∩∞
n=1 (Sn ≤ t)] = 0,

c’est-à-dire P[Nt = ∞] = 0. Considérons maintenant le point (b). Pour que le nombre total de
renouvellements soit fini, il faut qu’au moins une des durées de vie soit infini. On obtient donc

P[N∞ < ∞] = P[Tn = ∞ pour au moins un n ≥ 1]


= P[∪∞
n=1 (Tn = ∞)]
X∞
≤ P[Tn = ∞] = 0.
n=1

On a donc P[N∞ = ∞] = 1. Ceci complète la démonstration du théorème 14.

6.10.2 La fonction de moyenne


La fonction de moyenne du processus de renouvellement (Nt ; t ≥ 0) est la fonction m(t) définie par

m(t) = E[Nt ].

Nous verrons ci-dessous que la fonction de moyenne peut être exprimée en termes des fonctions
de répartition des temps de renouvellement. La fonction de répartition de Sn , le temps du ne
renouvellement, sera dénotée Fn (t). Donc, pour t ≥ 0,

Fn (t) = P[Sn ≤ t] = P[T1 + T2 + · · · + Tn ≤ t].

Ces fonctions de répartitions peuvent être calculées à partir de la fonction de répartition des durées
de vie. Par exemple, si la fonction de répartition des durées de vie possède une densité, disons f (t),
alors la densité de probabilité de la variable aléatoire Sn peut être calculée avec l’aide de la formule
de convolution.

140
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Exemple. Supposons que la distribution des durée de vie est la loi gamma(α, λ). Alors la distri-
bution de la variable aléatoire Sn est la loi gamma(nα, λ).

Théorème 15 :

X
m(t) = Fn (t).
n=1

Démonstration. Rappelons queP si M est une variable aléatoire à valeurs dans l’ensemble des
entiers non négatifs, alors E[M ] = ∞ m=1 P[M ≥ m]. Rappelons aussi qu’on a Nt ≥ n si et seulement
si Sn ≤ t. On obtient donc

X ∞
X ∞
X
m(t) = E[N (t)] = P[Nt ≥ n] = P[Sn ≤ t] = Fn (t).
n=1 n=1 n=1

Ceci complète la démonstration du théorème 15.

La partie (a) du théorème 14 nous dit que P[Nt < ∞] = 1. Il est donc raisonnable de penser que
E[Nt ] < ∞, c’est-à-dire m(t) < ∞. Toutefois, il faut être prudent ! Une variable aléatoire N peut
avoir une espérance infini même si elle satisfait la condition P[0 < N < ∞] = 1. Le théorème
suivant n’est donc pas complètement trivial.

Théorème 16. Pour tout 0 ≤ t < ∞,


m(t) < ∞.

Démonstration. Fixons t ≥ 0. Considérons le cas où t est tel que F (t) < 1. On a alors
Fn (t) = P[Sn ≤ t]
≤ P[∩nj=1 (Tj ≤ t)]
Yn
= P[Tj ≤ t] = (F (t))n .
j=1

L’inégalité ci-dessus vient du fait que si Sn ≤ t, alors les variables T1 , T2 , ..., Tn sont toutes plus
petites où égales à t. Le théorème 15 nous permet de conclure :

X ∞
X
m(t) = Fn (t) ≤ (F (t))n < ∞.
n=1 n=1

Ceci complète la démonstration dans le cas où t est tel que F (t) < 1. Dans le cas où t est tel que
F (t) = 1, la démonstration est un peu plus délicate et elle sera omise.

Voici deux exemples où la fonction de moyenne m(t) est facile à calculer.
Exemple 1. Si (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors m(t) = λt. Ici, la
durée de vie moyenne est µ = 1/λ. On a donc m(t) = t/µ.

Exemple 2. Considérons un processus de renouvellement (Nt ; t ≥ 0) avec densité de durée de vie


donnée par 
t e−t si t ≥ 0
f (t) =
0 si t < 0.

141
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Il s’agit de la loi gamma(2, 1). On a donc Sn ∼ gamma(2n, 1), c’est-à-dire



2n−1
 t

e−t si t ≥ 0
fn (t) = (2n − 1)!

 0 si t < 0.

La fonction de moyenne est donc


∞ ∞ Z t
X X s2n−1
m(t) = Fn (t) = e−s ds
(2n − 1)!
n=1 n=1 0
Z ∞
! Z t s 
t X s2n−1
−s e − e−s
= e ds = e−s ds
0 n=1
(2n − 1)! 0 2
t e−2t − 1
= + .
2 4

Il est clair que si deux processus de renouvellement ont la même distribution de durée de vie, alors
ils ont la même fonction de moyenne. L’inverse est vrai. Avec l’aide de la transformée de Laplace,
on peut montrer que si deux processus de renouvellement ont la même fonction de moyenne, alors
ils ont la même distribution de durée de vie. Un processus de renouvellement est donc caractérisé
par sa fonction de moyenne. On a donc le théorème suivant.

Théorème 17. Soit (N1 (t); t ≥ 0), un processus de renouvellement avec distribution de durée de
vie F1 (t) et avec fonction de moyenne m1 (t). Soit (N2 (t); t ≥ 0), un processus de renouvellement
avec distribution de durée de vie F2 (t) et avec fonction de moyenne m2 (t). Alors

F1 (t) = F2 (t) ∀t ≥ 0 si et seulement si m1 (t) = m2 (t) ∀t ≥ 0.

Exemple 3. La fonction de moyenne d’un processus de renouvellement est m(t) = 7t. Obtenez la
probabilité d’avoir exactement 10 renouvellements durant l’intervalle de temps (3, 5].

Solution. On sait que la fonction de moyenne d’un processus de Poisson avec intensité λ = 7
est précisément la fonction m(t) = 7t. Le théorème 17 nous permet donc de conclure que notre
processus de renouvellement est en fait un processus de Poisson avec intensité λ = 7. Le nombre
d’évènements durant l’intervalle de temps (3, 5] suit donc la loi de Poisson avec moyenne 2λ = 14.
La probabilité demandée est donc e−14 1410 /10!.

Nous terminons la présente section avec un autre résultat au sujet de la fonction de moyenne m(t).
La démonstration sera omise.

Théorème 18.
Si (N (t); t ≥ 0) est un processus de renouvellement avec durée de vie moyenne µ, alors

m(t) 1
lim = .
t→∞ t µ

142
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Dans le cas d’un processus de Poisson, le Théorème 18 est trivial. En effet, si (N (t); t ≥ 0) est un
processus de Poisson avec intensité λ, alors m(t) = λt, donc m(t)/t = λ, donc limt→∞ m(t)/t = λ.
Or dans le cas d’un processus de Poisson avec intensité λ, les durées de vie sont exponentielle(λ)
de sorte que µ = 1/λ, c’est-à-dire λ = 1/µ. Donc pour un processus de Poisson avec intensité λ on
a bel et bien limt→∞ m(t)/t = 1/µ.

Exercice. Vérifiez que pour le processus de renouvellement de l’exemple 2 de la présente section


on a bel et bien limt→∞ m(t)/t = 1/µ.

6.10.3 Loi des grands nombres


Voici d’abord quelques rappels.

La loi faible des grands nombres :


Si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes et identiquement distribuées avec moyenne
µ, alors
n
1X P
Vj −→ µ.
n
j=1

Autrement dit, pour tout ǫ > 0 on a


 
n
1 X
lim P  Vj − µ > ǫ = 0.
n→∞ n j=1

P
La notation −→ se lit “converge en probabilité”. Dans le cas où la variance des Vj est finie, la loi
faible des grands nombres se démontre facilement à l’aide de l’inégalité de Chebyshev.

La loi forte des grands nombres :


Si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes et identiquement distribuées avec moyenne
µ, alors
n
1X p.s.
Vj −→ µ.
n
j=1

Autrement dit, on a  
n
1 X
P  lim Vj = µ = 1.
n→∞ n
j=1
p.s.
La notation −→ se lit “converge presque sûrement”, ou encore “converge avec probabilité 1”. Dans
le cas où E[V14 ] < ∞, on peut démontrer la loi forte des grands nombres avec l’aide de l’inégalité de
Chebyshev et du lemme de Borel et Cantelli. Dans le cas général, la démonstration de la loi forte
des grands nombres est beaucoup plus difficile.

Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires

N (1), N (2) − N (1), N (3) − N (2), N (4) − N (3), ...

143
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

sont indépendantes et identiquement distribuées avec moyenne λ et la loi forte des grands nombres
nous donne donc
n
N (n) 1X p.s.
= (N (j) − N (j − 1)) −→ λ.
n n
j=1

Si [t] dénote la partie entière de t, alors on peut écrire

[t] N ([t]) N ([t]) N (t) N ([t] + 1) N ([t] + 1) [t] + 1


= ≤ ≤ =
t [t] t t t [t] + 1 t

En vertu de la limite précédente, le rapport N ([t])/[t] et le rapport N ([t] + 1)/([t] + 1) convergent


tous les deux vers λ avec probabilité 1. D’autre part, il est facile de voir que le rapport [t]/t et
([t] + 1)/t convergent tous les deux vers 1. On a donc le résultat suivant :

Théorème 19 : La loi des grands nombres pour les processus de Poisson.


Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors

N (t) p.s.
−→ λ. (6.1)
t

Avec le processus de Poisson, la moyenne de la distribution des durées de vie est simplement
µ = 1/λ. Le résultat (6.1) peut donc s’écrire sous la forme suivante :

N (t) p.s. 1
−→ . (6.2)
t µ

Le résultat suivant nous dit que l’équation (6.2) est valide pour tous les processus de renouvellement.

Théorème 20 : La loi des grands nombres pour les processus de renouvellement.


Si (N (t); t ≥ 0) est un processus de renouvellement avec durée de vie moyenne µ, alors

N (t) p.s. 1
−→ . (6.3)
t µ

Démonstration. Pour tout t ≥ 0 on a

SN (t) ≤ t ≤ SN (t)+1 .

On obtient donc
SN (t) t SN (t)+1 SN (t)+1 N (t) + 1
≤ ≤ = (6.4)
N (t) N (t) N (t) N (t) + 1 N (t)
La loi forte des grands nombres appliquée aux durées de vie T1 , T2 , T3 , ... nous donne
Sn p.s.
−→ µ lorsque n → ∞
n
et la partie (b) du théorème de la section 10.1 nous dit que
p.s.
N (t) −→ ∞ lorsque t → ∞.

144
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a donc
N (t) + 1 p.s.
−→ 1,
N (t)
SN (t) p.s.
−→ µ
N (t)
SN (t)+1 p.s.
−→ µ
N (t) + 1

L’équation (6.4) nous donne donc


t p.s.
−→ µ
N (t)
ou, de façon équivalente,
N (t) p.s. 1
−→ .
t µ
Ceci complète la démonstration de la loi des grands nombres pour les processus de renouvellement.

Remarque. Puisque la convergence presque sûre entraine la convergence en probabilité, le résultat


précédent entraı̂ne le r esultat suivant :

N (t) P 1
−→ .
t µ

6.10.4 Théorème limite central


Le théorème limite central nous dit que si V1 , V2 , V3 , ... sont des variables aléatoires indépendantes
et identiquement distribuées avec moyenne µ et variance σ 2 , alors
Pn
j=1 Vj − nµ L
√ −→ N (0, 1).
σ n

Autrement dit, pour tout z ∈ R on a


" Pn #
j=1 Vj − nµ
lim P √ ≤ z = Φ(z)
n→∞ σ n

où Φ(z) dénote la fonction de répartition de la loi N (0, 1), c’est-à-dire


Z z
1 2
Φ(z) = √ e−u /2 du.
−∞ 2π

Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires

N (1), N (2) − N (1), N (3) − N (2), N (4) − N (3), ...

sont indépendantes et identiquement distribuées avec moyenne λ et avec variance λ. Le théorème


limite central nous donne donc
Pn
N (n) − nλ j=1 (N (j) − N (j − 1)) − nλ L
√ = √ −→ N (0, 1).
nλ nλ

145
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Comme à la section 10.3, on peut montrer que la limite précédente est également valide avec n
remplacé par t. On a donc le résultat suivant :

Théorème 21 : Le théorème limite central pour les processus de Poisson.


Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors

N (t) − tλ L
√ −→ N (0, 1). (6.5)

Tout comme la loi des grands nombres, le théorème limite central pour les processus de Poisson se
généralise aux processus de renouvellement.

Théorème 22 : Le théorème limite central pour les processus de renouvellement.


Si (N (t); t ≥ 0) est un processus de renouvellement dont la moyenne et l’écart-type de la distribution
des durées de vie sont µ et σ, respectivement, alors

N (t) − t/µ L
p −→ N (0, 1). (6.6)
tσ 2 /µ3

Remarque. Avec le processus de Poisson, la moyenne et la variance de la distribution des durées


de vie sont, respectivement, µ = 1/λ et σ 2 = 1/λ2 . Le résultat (6.5) est donc bel et bien un cas
particulier du résultat (6.6).

Aperçu de la démonstration :
On fixe x ∈ R. On doit montrer que
" #
N (t) − t/µ
lim P p ≤ x = Φ(x)
t→∞ tσ 2 /µ3
p
Or si t est très grand et si m dénote la partie entière de t/µ + x tσ 2 /µ3 , alors on a

" #  
N (t) − t/µ t p
2 3
P p ≤x = P N (t) ≤ + x tσ /µ
tσ 2 /µ3 µ
≈ P [N (t) < m]
= P[Sm > t]
 
Sm − mµ t − mµ
= P √ > √
σ m σ m
 
Sm − mµ t − mµ
= 1−P √ ≤ √
σ m σ m
 
t − mµ
≈ 1−Φ √
σ m
≈ 1 − Φ(−x) = Φ(x).

Pour l’avant-dernière approximation, on a utilisé le théorème limite central classique (qui nous dit

que (Sm − mµ)/σ m suit, à peu près, la loi N (0, 1)). Pour la dernière approximation, on a utilisé

146
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

p
le fait que m ≈ t/µ + x tσ 2 /µ3 et on a obtenu
 p 
t − t/µ + x tσ 2 /µ3 µ
t − mµ −x
√ ≈ q =p √ ≈ −x
σ m p
1 + xσ/ tµ
σ t/µ + x tσ 2 /µ3

Pour obtenir une démonstration rigoureuse, il suffirait de justifier les approximations précédentes
pour obtenir " #
N (t) − t/µ
lim P p ≤ x = Φ(x).
t→∞ tσ 2 /µ3
Ceci complète l’aperçu de la démonstration.

L
En général, lorsqu’on a Wn −→ W , on ne peut pas prendre la variance de chaque côté et conclure
que Var[Wn ] → Var[W ]. Mais dans le cas du théorème limite central pour les processus de renou-
vellement, on peut justifier ce calcul. On obtient alors
" #
N (t) − t/µ
Var p →1
tσ 2 /µ3

Après quelques simplifications, on obtient le résultat suivant.

Théorème 23. Si (N (t); t ≥ 0) est un processus de renouvellement dont la moyenne et l’écart-type


de la distribution des durées de vie sont respectivement µ et σ, alors

Var[N (t)] σ2
lim = 3.
t→∞ t µ

6.10.5 La durée de vie en cours au temps t


Considérons un processus de renouvellement, disons (N (t); t ≥ 0), avec distribution de durée de vie
F . Comme d’habitude, µ et σ dénotent la moyenne et l’écart-type de cette distribution F . Comme
d’habitude, T1 , T2 , T3 ,... dénotent les durées de vie. On a donc E[Tn+1 ] = µ pour tout n ≥ 0. Le
théorème suivant peut donc sembler surprenant.

Théorème 24.
lim E[TN (t)+1 ] = µ + (σ 2 /µ). (6.7)
t→∞

Ce résultat est parfois appelé le paradoxe de l’échantillonnage. Imaginez par exemple un pro-
cessus de renouvellement où les variables T1 , T2 , T3 , ... représentent les durées de vie d’ampoules
électriques qui sont utilisées séquen-tiellement dans une lampe. La variable TN (t)+1 représente alors
la durée de vie de l’ampoule en service au temps t. Les variables T1 , T2 , T3 , ... sont indépendantes
et identiquement distribuées avec moyenne µ mais pourtant le théorème précédent nous dit que
E[TN (t)+1 ] ≈ µ + (σ 2 /µ).

On peut même obtenir la distribution limite de la variable TN (t)+1 . Par exemple, dans le cas où la
distribution des durées de vie est une loi continue avec densité fT (t), on a le résultat suivant :

147
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Théorème 25. Pour tout v > 0,


Z v
1
lim P[TN (t)+1 ≤ v] = ufT (u)du.
t→∞ µ 0

Autrement dit, on a
L
TN (t)+1 −→ V (6.8)
où V est une variable aléatoire avec densité
vfT (v)
fV (v) = . (6.9)
µ

L’équation (6.8) suggère


L
E[TN (t)+1 ] −→ E[V ].
Si on calcule E[V ], on obtient
Z ∞
E[V ] = vfV (v)dv
Z0 ∞
vfT (v)
= v dv
0 µ
Z
1 ∞ 2
= v fT (v)dv
µ 0
E[T 2 ] µ2 + σ 2
= = = µ + (σ 2 /µ).
µ µ

L’équation (6.7) est donc cohérente avec l’équation (6.8).

Pour comprendre ce qui se passe, examinons un cas simple. Supposons que la distribution des durées
de vie d’un certain type de piles électriques est la loi discrète suivante :

P[Tj = 2] = 2/3 et P[Tj = 5] = 1/3.

Autrement dit, la fonction de masse des durées de vie est



 2/3 si t = 2
pT (t) = 1/3 si t = 5

0 si t ∈
/ {2, 5}

La moyenne et la variance de cette distribution de durée de vie sont

µ=3 et σ 2 = 2.

Donc on utilise nos piles de façon séquentielle et à chaque renouvellement on a une probabilité 2/3
de choisir une pile qui durera 2 heures et une probabilité 1/3 de choisir une pile qui durera 5 heures.
Parmi les 300 premières piles, il y en aura environ 200 qui dureront 2 heures et environ 100 qui
dureront 5 heures. La durée de vie totale des 300 premières piles sera donc d’environ 900 heures,
dont 400 heures couvertes par des piles qui durent 2 heures et 500 heures par des piles qui durent
5 heures. À la longue, la proportion du temps couvert par des piles qui durent 2 heures est donc

148
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

de 4/9 alors que la proportion du temps couvert par des piles qui durent 5 heures est de 5/9. On
conclut donc que pour t très grand, la durée de vie de la pile en service au temps t est une variable
aléatoire dont la fonction de masse est environ

 4/9 si v = 2
pV (v) = 5/9 si v = 5

0 si v ∈
/ {2, 5}

La moyenne de cette fonction de masse est µV = 11/3. On note que

σ2
µV = 11/3 = 3 + 2/3 = µ + .
µ

Ceci est cohérent avec l’équation (6.7). On note également que

4 2 (2/3) 2 pT (2)
pV (2) = = =
9 3 µ
5 5 (1/3) 5 pT (5)
pV (5) = = = ,
9 3 µ
c’est-à-dire
v pT (v)
pV (v) = .
µ
Ceci est la version discrète de l’équation (6.9).

Remarque. Si F est une distribution de probabilité sur les réels positifs, avec densité f (t) et avec
moyenne 0 < µ < ∞, alors la distribution de probabilité avec densité f˜(t) = tfµ(t) est dénotée F̃ et
est appelée la transformation de F par biais de longueur.

149
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

6.11 Les exercices du chapitre 6


Numéro 1. On suppose que X suit la loi exponentielle avec moyenne 4. Calculez
P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], P[2 ≤ X ≤ 4|X ≤ 5].

Numéro 2. On suppose que X suit la loi gamma avec moyenne 4 et avec écart-type 3. Calculez
P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], et P[2 ≤ X ≤ 4|X ≤ 5].

Numéro 3. On suppose que X suit la loi de Poisson avec moyenne 4. Calculez


P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], P[2 ≤ X ≤ 4|X ≤ 5].

Numéro 4. Le Théorème 1 du présent chapitre nous dit que si T est une variable aléatoire à
valeurs dans l’intervalle (0, ∞), c’est-à-dire si P[0 < T < ∞] = 1, alors T suit une loi exponentielle
si et seulement si T possède la propriété d’absence de mémoire (P[T > u + v] = P[T > u]P[T > v]
pour tout 0 ≤ u < ∞ et pour tout 0 ≤ v < ∞). Voici le résultat analogue pour les distributions
sur {1, 2, 3, ...}. Démontrez-le.

Théorème. Soit K, une variable aléatoire à valeurs dans l’ensemble {1, 2, 3, ...}. Alors K suit une
loi géométrique (sur {1, 2, 3, ...}) si et seulement si on a

P[K > n + m] = P[K > n] P[K > m] (1)

pour tout n ∈ {0, 1, 2, 3, ...} et tout m ∈ {0, 1, 2, 3, ...}.

Numéro 5. Le Théorème 3 du présent chapitre nous dit que si T1 , T2 , ..., Tn sont des variables
aléatoires indépendantes, si Tj ∼ exponentielle(λj ), et si

W = min{T1 , T2 , ..., Tn }

alors W ∼ exponentielle(λ), avec λ = λ1 +λ2 +· · ·+λn . Énoncez et démontrez un résultat semblable


pour la loi géométrique sur les entiers {1, 2, 3, ...}.

Numéro 6. [Résultat important qui sera utilisé plus tard].


(a) Supposons que U et V sont des variables aléatoires indépendantes avec U ∼ expo(α) et
V ∼ expo(β). Calculez P[U > V ], P[U = V ] et P[U < V ].
(b) Fixons n, un entier positif. Fixons λ1 , λ2 , ...λn , des nombres réels strictement positifs. Suppo-
sons que Y1 , Y2 , ...Yn sont des variables aléatoires indépendantes avec Yj ∼ exponentielle(λj ).
Obtenez la distribution de la variable aléatoire K = l’entier i tel que Yi = min{Y1 , Y2 , ...Yn }.

Numéro 7. On suppose que T1 , T2 , ..., Tn sont i.i.d. exponentielle(λ).


On pose Mn = max{T1 , T2 , ..., Tn }.
(a) Obtenez la densité de la variable Mn .
(b) À partir de la densité obtenue en (a), obtenez une expression pour E[Mn ].
(c) Sans utiliser la densité obtenue en (a), obtenez
 une expression
 pour E[Mn ] en écrivant Mn
sous la forme Mn = T(n,1) + T(n,2) − T(n,1) + T(n,3) − T(n,2) + · · · + T(n,n) − T(n,n−1) et
en exploitant la propriété d’absence de mémoire de la loi exponentielle. Ici T(n,k) dénote la
k e statistique d’ordre de l’échantillon T1 , T2 , ..., Tn . Oui, Mn est simplement T(n,n) .
E[Mn ]
(d) À partir du résultat obtenu en (c), obtenez lim .
n→∞ log(n)

150
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 8. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec une intensité de 4
événements par heure.
(a) Calculez la probabilité qu’il y aura au moins 6 événements durant les 2 prochaines heures.
(b) Sachant qu’il y a eu 7 événements durant les 2 dernières heures, quelle est la probabilité
qu’il n’y ait eu aucun événement durant les 30 dernières minutes ?

Numéro 9. Chaque matin Marie prend l’autobus 801 pour se rendre au travail. On suppose que
les autobus passent comme un processus de Poisson avec une intensité de 10 autobus par heure.
Chaque fois qu’un autobus passe, on a une probabilité 1/5 que le chauffeur soit une femme et une
probabilité 4/5 que ce soit un homme. Marie prend toujours le premier autobus conduit par une
femme. Obtenez l’espérance et l’écart-type du temps d’attente de Marie.

Numéro 10. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. Comme
d’habitude, on écrit T1 , T2 , T3 , ... pour dénoter les durées de vie de ce processus et S1 , S2 , S3 , ... pour
dénoter les temps de renouvellement. Maintenant on pose Vt = t − SNt . La variable Vt représente
l’âge de la composante en service au temps t.
(a) Obtenez la distribution de la variable Vt .
(b) Obtenez la limite, quand t → ∞, de la distribution obtenue en (a).

Numéro 11. On imagine des points aléatoires dans le plan R2 et, pour B ⊂ R2 , on pose NB = le
nombre de points dans l’ensemble B. On écrit m(B) pour dénoter la surface de B. On fixe λ > 0
et on suppose que les conditions suivantes sont satisfaites :
(i) Si B est un sous-ensemble de R2 avec m(B) < ∞, alors NB ∼ Poisson(λ m(B)).
(ii) Si B1 , B2 ,..., Bℓ sont des sous-ensembles disjoints de R2 , tous avec surface finie, alors les
variables aléatoires NB1 , NB2 , ..., NBℓ sont indépendantes.
Le processus (NB ; B ⊂ R2 ) s’appelle alors un processus de Poisson dans le plan, avec une intensité
de λ points par unité de surface.
(a) Vérifiez que la procédure suivante donne bel et bien un processus de Poisson dans le plan,
avec une intensité de λ points par unité de surface :
On se donne une famille de variables aléatoires i.i.d. Poisson(λ), disons (X(k,ℓ) , (k, ℓ) ∈
Z2 ). On divise le plan en petits carrés de surface 1, disons R2 = ∪(k,ℓ)∈Z2 Ck,ℓ , où
Ck,ℓ = [k, k + 1) × [ℓ, ℓ + 1). Pour chaque (k, ℓ) ∈ Z2 , on observe X(k,ℓ) puis on choisit
X(k,ℓ) points i.i.d. avec distribution uniforme dans le carré Ck,ℓ .
On peut se concentrer sur un seul petit carré, disons le carré C0,0 = [0, 1)×[0, 1). Il faut alors
vérifier le point (i) avec B ⊂ C0,0 et le point (ii) avec B1 , B2 ,..., Bℓ tous des sous-ensembles
de C0,0 .
(b) On pose R = la distance entre l’origine du plan et le point (de notre processus de Poisson)
situé le plus près de l’origine. Obtenez la distribution de la variable R. Suggestion : calculez
P[R > r].

Numéro 12. On suppose que le processus de Poisson avec intensité λ = 6 par heure est un bon
modèle pour décrire les passages d’automobiles du Canada vers les États-Unis au poste frontalier
américain situé sur la route qui relie Whitehorse (Yukon) et Fairbanks (Alaska). Autrement dit, on
suppose que les temps entre les passages successifs d’automobiles allant du Canada vers les États-
Unis à ce poste frontalier sont des variables aléatoires exponentielle(6) indépendantes les unes des
autres.

151
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) Quelle est la probabilité que durant la prochaine heure exactement 4 automobiles franchiront
ce poste frontalier en direction des États-Unis ?
(b) Les douaniers américains inspectent une automobile sur dix. Ils viennent tout juste d’inpecter
une automobile. Ils vont donc laisser passer les 9 prochaines automobiles sans les inspecter,
puis ils vont inspecter la suivante. Et ainsi de suite. Calculez l’espérance et l’écart-type du
temps qui s’écoule entre 2 inspections successives.
(c) Quel est l’espérance et l’écart-type du nombre d’automobiles qui franchiront ce poste fron-
talier (en direction des États-Unis) durant les prochaines 24 heures ?
(d) Calculez une approximation pour la probabilité qu’il y ait au moins 150 automobiles qui
franchissent ce poste frontalier (en direction des États-Unis) durant les prochaines 24 heures.

Numéro 13. Dans un centre d’urgence 9-1-1, les appels arrivent comme un processus de Poisson
avec une intensité de 5 appels par heure. À chaque fois qu’un appel arrive, on a une chance sur 5
que ce soit un appel pour un incendie. Obtenez
(a) La probabilité qu’il y aura exactement 3 appels durant les 30 prochaines minutes.
(b) L’espérance et la variance du nombre d’appels durant les 30 prochaines minutes.
(c) La probabilité conditionnelle qu’il y aura, durant les 4 prochaines heures, exactement 3
appels pour des incendies sachant que durant cette période il y a en tout 12 appels.
(d) L’espérance conditionnelle du nombre d’appels pour incendie durant les 4 prochaines heures
sachant qu’il y a en tout 12 appels durant cette période.
(e) La probabilité qu’il y aura, durant les 4 prochaines heures, exactement 3 appels pour des
incendies.
(f) L’espérance du nombre d’appels pour incendie durant les 4 prochaines heures.

Numéro 14. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On pose
Ws = inf{t ≥ 0 : Nt+s − Nt = 0}.
Obtenez P[Ws = 0] et E[Ws ]. Suggestion : pour obtenir E[Ws ], conditionnez sur le temps du premier
événement.

Numéro 15. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et que T
est une variable aléatoire non négative avec moyenne µ et variance σ 2 , indépendante du processus
(Nt ; t ≥ 0). Obtenez le coefficient de corrélation entre T et NT .

Numéro 16. Dans un grand magasin, les clients arrivent comme un processus de Poisson avec
intensité λ = 10 clients par heure.
(a) Si chaque client a une probabilité p = 0.3 de faire un achat, quelle est la probabilité qu’il y
aura au moins un achat durant les 30 prochaines minutes ?
(b) On suppose que les achats effectués par les clients sont des variables aléatoires i.i.d. avec
moyenne 30$ et avec écart-type 10$. Calculez l’espérance et l’écart-type du total des ventes
sur une période de 8 heures.

Numéro 17. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On suppose
que les événements de ce processus de Poisson sont ou bien des événements rouges, ou bien des
événement noirs. Indépendamment de tout le reste, chaque événement a une probabilité p d’être
noir et 1 − p d’être rouge. On pose T = le temps du premier événement noir et M = le nombre
d’événements rouges qui surviennent avant le premier événement noir.

152
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) Obtenez la distribution de T .


(b) Obtenez la distribution de M .
(c) Obtenez la distribution conditionnelle de T sachant M = m.
(d) Obtenez la distribution conditionnelle de M sachant T = t.

Numéro 18. Une population contient N individus. Ici N est une variable aléatoire qui suit la loi
de Poisson avec paramètre ν. Les durées de vie de ces individus sont des variables aléatoires i.i.d.
avec une certaine distribution avec fonction de répartition G(t). On pose

Xt = le nombre d’individus qui décèdent durant l’intervalle de temps [0, t]


Yt = le nombre d’individus encore vivant au temps t.

(a) Obtenez la distribution de Xt .


(b) Obtenez la distribution de Yt .
(c) Obtenez la distribution conjointe de Xt et Yt .

Numéro 19. On suppose que (Nt ; t ≥ 0) est un processus de Poisson non homogène avec intensité
λ(t) = 1 + sin(t). Calculez P[Nπ = 4] et P[N2π − Nπ = 4].

Numéro 20. [Optionnel.] On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ
et que h(t) est une fonction non négative bornée par λ. On amincit notre processus (Nt ; t ≥ 0) de
la façon suivante : si un événement survient au temps t, on l’accepte avec probabilité h(t)/λ. On
écrit (Nt∗ ; t ≥ 0) pour dénoter le processus de dénombrement des événements acceptés. Vérifiez que
(Nt∗ ; t ≥ 0) est un processus de Poisson non homogène et déterminez sa fonction intensité.

Numéro 21. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus
de Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ, et avec moyenne des gains µ et écart-type des
gains σ. Calculez le coefficient de corrélation entre Nt et Xt .

Numéro 22. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus de
Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ = 2, et avec distribution des gains donnée par la
loi N (0, 1). Calculez P[X1 = 0] et P[ 12 < X1 < 32 ] à 3 décimales près.
P Nt
Numéro 23. Soit (Xt ; t ≥ 0), un processus de Poisson composé. On a donc Xt = j=1 Yj où
(Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et où Y1 , Y2 , Y3 , ... sont indépendantes du
processus (Nt ; t ≥ 0) et sont i.i.d. avec loi F . Montrez que

MXt (v) = exp (λt(MY (v) − 1)) .

Ici MY (v) et MXt (v) dénote la f.g.m. des Yk et la f.g.m. de Xt respectivement.

Numéro 24. [Exercice de révision du cours STT-1500]. Si X ∼ gamma(α1 , λ) et Y ∼ gamma(α2 , λ)


et si X et Y sont indépendantes, alors X + Y ∼ gamma(α1 + α2 , λ). À la section 6.2 nous avons
démontré ce résultat avec l’aide des fonctions génératices des moments. Démontrez ce résultat avec
l’aide de la formule de convolution.

Numéro 25. [Exercice de révision du cours STT-1500]. Sous les conditions suivantes
(a) les variables aléatoires T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ),

153
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(b) la variable aléatoire G suit la loi géométrique(p),


(c) la variable aléatoire G est indépendantes des variables aléatoires T1 , T2 , T3 , ...
P
la distribution de la variable aléatoire V = G j=1 Tj est la loi exponentielle(λp). À la section 6.2
nous avons démontré ce résultat en calculant la fonction de répartition de la variable V via condi-
tionnement par rapport à la variable G. Démontrez ce résultat en calculant la fonction génératrice
des moments de la variable V via conditionnement par rapport à la variable G.

Numéro 26. [Exercice de révision du cours STT-1500]. Si X ∼ Poisson(ν1 ) et Y ∼ Poisson(ν2 ) et


si X et Y sont indépendantes, alors X + Y ∼ Poisson(ν1 + ν2 ). À la section 6.2 nous avons démontré
ce résultat avec l’aide de la formule de convolution (version discrète). Démontrez ce résultat avec
l’aide des fonctions génératices des moments.

Numéro 27. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec durée de vie
moyenne égale à 2 et avec écart-type des durées de vie égal à 1. Calculez
• une approximation pour l’espérance de N (800) ;
• une approximation pour l’écart-type de N (800) ;
• une approximation pour P[N (800) ≥ 420] ;
• une approximation pour l’espérance de la durée de vie en cours au temps 800.

Numéro 28. On considère un processus de renouvellement, disons (Nt ; t ≥ 0), dont la densité des
durées de vie est donnée par 
4t e−2t si t ≥ 0
f (t) =
0 si t < 0.
(a) Calculez la probabilité qu’il y aura au moins un renouvellement durant l’intervalle de temps
(0, 2].
(b) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle de
temps (0, 2].
(c) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle (2, 5].
(d) Calculez une approximation pour P[48 ≤ N50 ≤ 55].
(e) Donnez l’espérance et la variance de la septième durée de vie.
(f) Donnez des approximations pour l’espérance et la variance de la durée de vie en cours au
temps 200.
Suggestion : pour les parties (b) et (c), calculez d’abord la fonction de moyenne m(t) en procédant
comme à l’exemple 2 de la section 10.

Numéro 29. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec distribution
limite (quand t → ∞) de la durée de vie en cours au temps t donnée par

(4/3) v 4 e−2v si v ≥ 0
f (v) =
0 si v < 0

Calculez
(a) une approximation pour l’espérance de N (800) ;
(b) une approximation pour l’écart-type de N (800) ;
(c) une approximation pour P[N (800) ≥ 420] ;

154
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 30. Si (N (t); t ≥ 0) est un processus de renouvellement avec fonction de moyenne m(t) =
4t, alors que vaut P[N (2) ≤ 5] ?

Numéro 31. À plusieurs reprises nous avons utilisé le fait que


N (t) ≥ n si et seulement si Sn ≤ t.
Complétez les énoncés suivants :
(i) N (t) > n si et seulement si ...
(ii) N (t) < n si et seulement si ...
(iii) N (t) ≤ n si et seulement si ...

Numéro 32. On considère des composantes électroniques qu’on utilise séquentiellement, une après
l’autre. On suppose que les durées de vie de nos composantes sont des variables aléatoires i.i.d.
avec densité f (t) et fonction de répartition F (t). Dès qu’une composante tombe en panne, on la
remplace immédiatement par une nouvelle composante. Dès qu’une composante a servi pendant
to unités de temps, on la remplace par une nouvelle composante. À la longue, quel est le nombre
moyen de remplacement par unité de temps ?

Numéro 33. Soit (Nt ; t ≥ 0), un processus de renouvellement pour lequel la distribution des durées
de vie est la loi gamma(3, λ). Expliquez pourquoi on a, pour tout entier k ≥ 0,
 
e−λt (λt)3k λt (λt)2
P[Nt = k] = 1+ + .
(3k)! 3k + 1 (3k + 1)(3k + 2)

Indice : La gamma(3,λ) est la distribution de U + V + W , alec U, V, W i.i.d. exponentielle(λ).


Le processus de renouvellement (Nt ; t ≥ 0) peut donc être vu comme étant obtenu à partir d’un
processus de Poisson d’intensité λ, disons (Mt ; t ≥ 0), aminci de façon systématique en ne gardant
que les événements numéros 3, 6, 9, 12,... Dans le shéma ci-dessus, la première ligne représente le
processus (Mt ; t ≥ 0) et la deuxième ligne représente notre processus de renouvellement (Nt ; t ≥ 0).

Numéro 34. Processus de renouvellement composé. La section 6.8 porte sur les processus de
Poisson composés. On peut également parler de processus de renouvellement composés. Il suffit
de reprendre la section 6.8 et de remplacer l’hypothèse “(Nt ; t ≥ 0) est un processus de Poisson
avec intensité λ” par l’hypothèse “(N Pt ; tt ≥ 0) est un processus de renouvellement avec densité des
durées de vie f (t)”. On a donc Xt = N j=1 Yj où (Nt ; t ≥ 0) est un processus de renouvellement avec
densité des durées de vie f (t) avec moyenne µT et variance σT2 et où Y1 , Y2 , Y3 , ... sont des variables
aléatoires i.i.d. avec moyenne µY et variance σY2 . En procédant comme à la section 6.8, exprimez
E[Xt ] et Var[Xt ] en termes de µY , σY2 , E[Nt ] et Var[Nt ]. Puis, avec l’aide des approximations de
E[Nt ] et Var[Nt ] qu’on trouve à la section 10, obtenez des approximations pour E[Xt ] et Var[Xt ]
en termes des paramètres µT , σT2 , µY , σY2 .

Numéro 35. On suppose que (Nt ; t ≥ 0) est un processus de renouvellement avec distribution des
durées de vie des composantes donnée par la densité de probabilité suivante :
( 1 2 −t/2
16 t e si t ≥ 0
f (t) =
0 si t < 0.

155
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(a) Calculez une approximation pour P[104 ≤ N648 ≤ 115].


(b) Calculez une approximation pour P[T∗ > 10]. Ici T∗ dénote la durée de vie totale de la
composante en service au temps t = 2341.
(c) Calculez P[N20 = 3]. [Procédez comme au numéro 33].

156
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 7

Chaı̂nes de Markov à temps continu

7.1 Introduction
On se donne un ensemble non-vide, disons l’ensemble S, fini ou infini dénombrable. On se donne
une matrice stochastique P = (Pij ; i ∈ S, j ∈ S) sur S. On suppose que les éléments de la diagonale
de P sont tous nuls : Pii = 0 pour tout i ∈ S. On se donne un ensemble de paramètres positifs
q = (qi ; i ∈ S). Enfin, on se donne une distribution de probabilité sur S, disons ν = (νi ; i ∈ S).

Définition 1. Une chaı̂ne de Markov à temps continu, avec espace d’états S, avec loi initiale ν,
avec taux de départ (qi ; i ∈ S) et avec matrice des probabilités de transitions véritables P est un
processus aléatoire (Xt ; t ≥ 0), à valeurs dans S, satisfaisant les propriétés suivantes :
(i) L’état initial du processus, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque le processus arrive à un état i, il y demeure pendant un temps exponentiel avec
paramètre qi , indépendant de toute l’histoire antérieure du processus.
(iii) Lorsque le processus quitte un état i, il fait une transition vers un état j choisi selon la
distribution (Pij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
(iv) Les trajectoires du processus sont continues à droite.
Étant donné la propriété d’absence de mémoire de la loi exponentielle, il est facile de voir qu’un
tel processus satisfait la propriété de Markov et la propriété d’homogénéité des probabilités de
transition :

P[Xs+t = j | Xs1 = i1 , ..., Xsk = ik , Xs = i]


= P[Xs+t = j | Xs = i] = P[Xt = j | X0 = i] (7.1)

pour tout choix de temps 0 ≤ s1 < s2 < · · · < sk < s < s + t < ∞ et pour tout choix d’états
i1 , i2 , ..., ik , i et j dans S. Dans l’équation ci-dessus, la première égalité est la propriété de Markov
et la deuxième égalité est la propriété d’homogénéité dans le temps.

Définition 2. La probabilité conditionnelle P[Xt = j | X0 = i] est notée Pij (t) et est appelée
probabilité de transition d’ordre t. On a donc

Pij (t) = P[Xt = j | X0 = i]. (7.2)

La matrice P(t) = (Pij (t); i, j ∈ S) est appelée la matrice des probabilités de transition d’ordre t.

157
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Analogie avec les chaı̂nes de Markov à temps discret :


Notre définition de chaı̂ne de Markov à temps continu peut sembler très différente de celle d’une
chaı̂ne de Markov à temps discret. Voici une façon alternative de décrire les chaı̂nes de Markov à
temps discret. Avec cette nouvelle description, les chaı̂nes à temps discret et les chaı̂nes à temps
continu nous apparaissent très semblables.

Pour simplifier la discussion, considérons une chaı̂ne de Markov à temps discret sur un espace
d’états fini, disons S = {1, 2, 3, ..., m}, avec loi initiale ν = (νi ; i ∈ S) et avec matrice stochastique
P = (Pij ; i ∈ S, j ∈ S). De plus, supposons qu’on a 0 < Pii < 1 pour tout i ∈ S. Il est facile
de voir que lorsqu’on arrive à l’état i, on y reste pendant un temps aléatoire avec distribution
géométrique(pi ), où pi = 1 − Pii . Et lorsqu’on quitte l’état i, on fait une transition vers un état
j ∈ S − {i} choisi avec distribution
( Pij
1−Pii si j 6= i
P̃ij =
0 si j = i.

Bref, on peut décrire notre chaı̂ne de Markov à temps discret avec les trois ingrédients suivants :
la loi initiale ν, les probabilités de départs (pi ; i ∈ S) et la matrice des probabilités de transitions
véritables P̃ = (Pij ; i ∈ S, j ∈ S). En termes de ces ingrédients, la chaı̂ne de Markov à temps discret
évolue de la façon suivante :
(i) L’état initial de la chaı̂ne, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque la chaı̂ne arrive à un état i, elle y demeure pendant un temps géométrique avec
paramètre pi , indépendant de toute l’histoire antérieure de la chaı̂ne.
(iii) Lorsque la chaı̂ne quitte un état i, elle fait une transition vers un état j choisi selon la
distribution (P̃ij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
Avec cette nouvelle façon de voir nos chaı̂nes de Markov à temps discret, le passage de temps discret
à temps continu est trivial. Il suffit de remplacer les temps d’attente géométriques par des temps
d’attente exponentiels.

Pour terminer, mentionnons que l’équation (7.1) de la page précédente est l’analogue de l’équation
suivante (voir chapitre 2) :

P[Xm+n = j | Xm1 = i1 , ..., Xmk = ik , Xm = i]


= P[Xm+n = j | Xm = i] = P[Xn = j | X0 = i]

pour tout choix de temps 0 ≤ m1 < m2 < · · · < mk < m < m + n < ∞ et pour tout choix
d’états i1 , i2 , ..., ik , i et j dans S. De même, l’équation (7.2) est l’analogue de l’équation suivante
(voir chapitre 2) :
Pijn = P[Xn = j | X0 = i].

La chaı̂ne des sauts.


Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu sur l’espace d’états S, avec taux de départ
(qi ; i ∈ S) et avec matrice des probabilités de transitions véritables P = (Pij ; i ∈ S, j ∈ S). Posons

158
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

τ0 = 0
τ1 = min{t ≥ τ0 : X(t) 6= X(τ0 )}
τ2 = min{t ≥ τ1 : X(t) 6= X(τ1 )}
τ3 = min{t ≥ τ2 : X(t) 6= X(τ2 )}
etc.

Les temps aléatoires τ1 , τ2 , τ3 ... sont simplement les instants où la chaı̂ne (Xt ; t ≥ 0) effectue ses
transitions. Pour n ≥ 0, posons Yn = X(τn ). La suite (Yn ; n ≥ 0) est alors une chaı̂ne de Markov à
temps discret. Sa matrice stochastique est la matrice P. Cette chaı̂ne de Markov à temps discret
(Yn ; n ≥ 0) est appelée la chaı̂ne des sauts (en anglais jump chain) associée à la chaı̂ne de Markov
(Xt ; t ≥ 0).

7.2 Processus de naissance et de mort


Un processus de naissance et de mort est une chaı̂ne de Markov à temps continu avec les ingrédients
suivants :

S = {0, 1, 2, 3, ...} (7.3)


 
0 1 0 0 0 ···
 µ1 0 λ1
0 0 ··· 
 λ1 +µ1 λ1 +µ1 
 0 µ2 λ2 
 λ2 +µ2 0 λ2 +µ2 0 ··· 
P = 
 0 0 µ3
0 λ3
···

 (7.4)
 λ3 +µ3 λ3 +µ3 
µ4
 0
 0 0 λ4 +µ4 0 ··· 

.. .. .. .. .. ..
. . . . . .

q = (q0 , q1 , q2 , q3 , ...) = (λ0 , λ1 + µ1 , λ2 + µ2 , λ3 + µ3 , ...) (7.5)

Interprétation : On suppose que Xt représente la taille d’une certaine population au temps t. Le


paramètre λi représente le taux de naissance lorsque la population comprend i individus. On admet
le cas λ0 > 0. Le paramètre µi représente le taux de mortalité lorsque la population comprend i
individus. La terminologie naissance et mort est utilisée au sens large. Toute chaı̂ne de Markov
à temps continu dont la matrice P des probabilités de transitions véritables satisfait la condition
Pij = 0 pour tout (i, j) tel que |i − j| 6= 1 est un processus de naissance et de mort.

Fonctionnement : Supposons qu’à un certain moment la population comprend i individus, disons


i > 0. Le taux de naissance est λi et le taux de mortalité est µi . La prochaine naissance devrait
donc survenir après un temps exponentiel, disons U , avec paramètre λi et le prochain décès devrait
survenir après un temps exponentiel, disons V , avec paramètre µi . On suppose que les variables U
et V sont indépendantes. Le prochain événement, naissance ou décès, surviendra donc au temps
T = min{U, V }. On a donc T ∼ exponentielle(λi + µi ). Le taux de départ de l’état i est donc
qi = λi + µi . Dans le cas i = 0, on obtient plutôt q0 = λ0 . Ceci explique l’équation (7.5) ci-dessus.
Par ailleurs, selon un résultat obtenu antérieurement, on a

159
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

λi
P[ prochain événement est une naissance ] = P[U < V ] =
λi + µ i
µi
P[ prochain événement est un décès ] = P[V < U ] =
λi + µ i
Bref, pour i ≥ 1, on a 
λi

 λi +µi si j = i + 1
µi
Pij = λi +µi si j = i − 1

 0 si j ∈
/ {i − 1, i + 1}.
Dans le cas i = 0, il ne peut pas y avoir de décès ; le prochain événement est donc nécessairement
une naissance. Bref on a 
1 si j = 1
P0j =
0 si j 6= 1.
Ceci explique l’équation (7.4) ci-dessus.

Remarque. En général, l’espace des états d’un processus de naissance et de mort est l’ensemble
S = {0, 1, 2, 3, ...}, tel qu’indiqué à l’équation (7.3). Dans certains cas on préfère travailler avec
l’espace d’états S = {1, 2, 3, ...}. C’est le cas du processus de Yule présenté ci-dessous.

Exemple 1 : Le processus de Poisson.


Fixons λ > 0. Supposons que µi = 0 pour tout i ≥ 1 et que λi = λ pour tout i ≥ 0. Ce processus
de naissance et de mort est tout simplement un processus de Poisson avec intensité λ.

Exemple 2 : Le processus de Yule.


Fixons λ > 0. Supposons que µi = 0 pour tout i ≥ 1 et que λi = i λ pour tout i ≥ 0. Ce
processus de naissance et de mort s’appelle le processus de Yule avec paramètre λ. Attention !
Dans le cas du processus de Yule, on travaille habituellement avec S = {1, 2, 3, ...} plutôt qu’avec
S = {0, 1, 2, 3, ...}. Si on insiste pour travailler avec S = {0, 1, 2, 3, ...}, alors l’état 0 est un état
absorbant et la première ligne de la matrice P est (1, 0, 0, 0, ...) plutôt que (0, 1, 0, 0, ...). On peut
interpréter l’évolution du processus de Yule de la façon suivante. La variable Xt représente le nombre
d’individus dans la population au temps t. Indépendamment les uns des autres, chaque individu
vit un temps exponentiel avec paramètre λ, puis se divise en deux individus. Ces deux nouveaux
individus se comportent de la même façon. Chacun vit un temps exponentiel avec paramètre λ,
puis se divise en deux nouveaux individus. Et ainsi de suite. Si à un certain moment la population
comprend i individus, alors le taux de naissance est iλ car la prochaine naissance surviendra dans
un temps exponentiel avec paramètre iλ (puisque le minimum de i variables i.i.d. exponentielles
avec paramètre λ est une variable exponentielle avec paramètre iλ).

Exemple 3 : La file d’attente M/M/1.


Fixons λ > 0 et µ > 0. Supposons que µi = µ pour tout i ≥ 1 et que λi = λ pour tout i ≥ 0. Ce
processus de naissance et de mort s’appelle le modèle de file d’attente markovien à un serveur, ou
tout simplement la file d’attente M/M/1. Voici quelques explications. On suppose que Xt représente
le nombre de clients dans une file d’attente à un serveur, incluant le client en train de se faire
servir. On suppose que les nouveaux clients arrivent comme un processus de Poisson avec intensité
λ. Lorsqu’un client arrive, il prend sa place à l’arrière de la file d’attente. On suppose que les
temps de service sont des variables aléatoires indépendantes et identiquement distribuées, avec loi
exponentielle de paramètre µ, indépendantes du processus de Poisson qui décrit les arrivées.

160
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Exemple 4. La file d’attente M/M/k.


Fixons λ > 0 et µ > 0. Fixons k, un entier positif. Supposons que λi = λ pour tout i ≥ 0. Supposons
aussi que (
iµ si i ≤ k
µi =
kµ si i > k.
Ce processus de naissance et de mort s’appelle le modèle de file d’attente M/M/k, ou tout simple-
ment la file d’attente M/M/k. Ici k est un entier positif. Voici quelques explications. On suppose
que Xt représente le nombre de clients dans un centre de service. On suppose que les nouveaux
clients arrivent comme un processus de Poisson avec intensité λ. On suppose qu’il y a k serveurs.
Lorsqu’un client arrive, deux choses peuvent se produire. Ou bien il y a un (ou des) serveur(s)
disponible(s) ; le nouveau client s’amène alors directement à un serveur disponible. Ou bien tous
les serveurs sont occupés ; le nouveau client prend alors sa place à l’arrière de la file d’attente. Il y
a une seule file d’attente (comme à la Banque Nationale et non pas comme au McDonald ou dans
les magasins Canadian Tire où il y a toujours autant de files d’attente qu’il y a de serveurs). La
variable aléatoire Xt représente le nombre total de clients dans le système au temps t ; ceci inclut
les clients en train de se faire servir ainsi que les clients dans la file d’attente. On suppose que les
temps de service sont des variables aléatoires indépendantes et identiquement distribuées, avec loi
exponentielle de paramètre µ, indépendantes du processus de Poisson de paramètre λ qui décrit les
arrivées.

7.3 Temps de passage d’un processus de naissance et de mort


Nous allons examiner les temps de passage dans les processus de naissance et de mort. Plus
précisément, nous allons calculer, pour tout 0 ≤ k < n < ∞, l’espérance

h(k, n) = E[Tn |X0 = k]

où
Tn = min{t ≥ 0 : Xt = n}.
La propriété de Markov nous permet d’écrire
n−1
X
h(k, n) = h(ℓ, ℓ + 1). (7.6)
ℓ=k

Il nous suffit donc de calculer, pour tout ℓ ≥ 0, la quantité h(ℓ, ℓ + 1). Le cas ℓ = 0 est trivial. En
effet, si X0 = 0 alors on a T1 ∼ exponentielle(λ0 ). On obtient donc

h(0, 1) = E[T1 |X0 = 0] = 1/λ0 . (7.7)

Pour le cas ℓ ≥ 1, on calcule h(ℓ, ℓ + 1) en conditionnant sur le résultat de la prochaine transition.


Si on pose

A = la prochaine transition est une transition vers le haut,


B = la prochaine transition est une transition vers le bas,

161
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

alors la loi des probabilités totales nous donne


h(ℓ, ℓ + 1) = E[Tℓ+1 |X0 = ℓ]

= E[Tℓ+1 |(X0 = ℓ) ∩ A] P[A|X0 = ℓ] + E[Tℓ+1 |(X0 = ℓ) ∩ B] P[B|X0 = ℓ]


 
1 λℓ 1 µℓ
= + + E[Tℓ+1 |X0 = ℓ − 1]
λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ
 
1 λℓ 1 µℓ
= + + h(ℓ − 1, ℓ) + h(ℓ, ℓ + 1)
λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ λℓ + µ ℓ
1 µℓ
= + (h(ℓ − 1, ℓ) + h(ℓ, ℓ + 1))
λℓ + µ ℓ λℓ + µ ℓ
Si on résout pour h(ℓ, ℓ + 1), on obtient
1 µℓ
h(ℓ, ℓ + 1) = + h(ℓ − 1, ℓ). (7.8)
λℓ λℓ
À l’aide des équations (7.7) et (7.8) on peut calculer h(ℓ, ℓ + 1) pour tout ℓ ≥ 0. L’équation (7.6)
nous permet ensuite de calculer h(k, n) pour tout 0 ≤ k < n < ∞.

Exemple : la file d’attente M/M/1.


Dans le cas de la file d’attente M/M/1, on a λi = λ pour tout i ≥ 0 et µi = µ pour tout i ≥ 1.
Après quelques simplifications, les équations (7.7) et (7.8) nous donnent
1
h(0, 1) =
λ
1 µ
h(1, 2) = 1+
λ λ
 
1 µ  µ 2
h(2, 3) = 1+ +
λ λ λ
 
1 µ  µ 2  µ 3
h(3, 4) = 1+ + +
λ λ λ λ
et ainsi de suite. On a donc, pour tout ℓ ≥ 0,
  µ ℓ 
1 µ  µ 2
h(ℓ, ℓ + 1) = 1+ + + ··· + . (7.9)
λ λ λ λ
Si λ = µ, l’équation (7.9) devient
ℓ+1
h(ℓ, ℓ + 1) =
λ
et l’équation (7.6) nous donne
n−1 n−1
X X ℓ+1
h(k, n) = h(ℓ, ℓ + 1) =
λ
ℓ=k ℓ=k
 
n k  
1 X X 1 n(n + 1) k(k + 1)
= j− j  = − .
λ λ 2 2
j=1 j=1

162
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Dans le cas où λ 6= µ, l’équation (7.9) peut être simplifiée de la façon suivante :
  µ ℓ 
1 µ  µ 2
h(ℓ, ℓ + 1) = 1+ + + ··· +
λ λ λ λ
!
1 1 − (µ/λ)ℓ+1
=
λ 1 − (µ/λ)

1 − (µ/λ)ℓ+1
= .
λ−µ
L’équation (7.6) nous donne alors
n−1 n−1
X X 1 − (µ/λ)ℓ+1
h(k, n) = h(ℓ, ℓ + 1) = .
λ−µ
ℓ=k ℓ=k

L’étudiant qui le souhaite pourra simplifier cette dernière expression.

7.4 Les Pij (t) d’un processus de naissances pur


Voici une question fondamentale : étant donné une chaı̂ne de Markov à temps continu, disons
(Xt ; t ≥ 0), avec taux de départ q = (qi ; i ∈ S) et avec matrice des probabilités de transition
véritable P = (Pij ; i ∈ S, j ∈ S), comment peut-on calculer les probabilités de transition Pij (t) =
P[Xt = j|X0 = i] ?

Dans la présente section, nous considérons un cas simple : les processus de naissance et de mort
avec µi = 0 pour tout i ≥ 1 et λi > 0 pour tout i ≥ 0. Un tel processus est parfois appelé un
processus de naissances pur. Le processus de Poisson et le processus de Yule sont des exemples de
processus de naissances pur. Le comportement d’un tel processus est très simple : si on est à l’état
i, alors on reste à l’état i un temps exponentiel avec moyenne 1/λi après quoi on passe à l’état i + 1.
Donc, si j < i on a
Pij (t) = P[Xt = j|X0 = i] = 0
et pour j ≥ i on obtient

Pij (t) = P[Xt = j|X0 = i]

= P[Xt < j + 1|X0 = i] − P[Xt < j|X0 = i]

= P[Tj+1 > t|X0 = i] − P[Tj > t|X0 = i]

avec, comme à la section précédente, Tn = min{t ≥ 0 : Xt = n}. Or, pour un processus de naissance
pur, on a, pour tout choix de n > i,

L(Tn |X0 = i) = L(Vi + Vi+1 + · · · + Vn−1 )

où Vi , Vi+1 , Vi+2 , ..., Vn−1 sont des variables aléatoires indépendantes, avec Vi ∼ exponentielle(λi ).
On obtient donc

Pij (t) = P[Vi + Vi+1 + · · · + Vj > t] − P[Vi + Vi+1 + · · · + Vj−1 > t].

163
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Donc, pour être capable de calculer les probabilités de transition Pij (t) d’un processus de naissance
pur, il suffit d’être capable de calculer la distribution de la somme d’un nombre fini de variables
aléatoires indépendantes les unes des autres ayant toutes des distributions exponentielles, mais pas
nécessairement avec le même paramètre λ. Le résultat suivant est donc très utile.

Théorème. Supposons que R = W1 +W2 +· · ·+Wm , où W1 , W2 , ..., Wm sont des variables aléatoires
indépendantes et telles que, pour j = 1, 2, ..., m, Wj ∼ exponentielle(λj ).
(a) Si les λj sont tous égaux, disons λj = λ pour tout j, alors R ∼ gamma(m, λ).
(b) Si les λj sont tous distincts, i.e. si on a λi 6= λj pour tout i 6= j, alors la densité de R est
donnée par   

 m m
 λk 
 X


Y
 λℓ e−λℓ r si r ≥ 0
fR (r) =  λk − λℓ 

 ℓ=1 k=1

 k6=ℓ

0 si r < 0.

Démonstration. La partie (a) est bien connue et a été démontrée lorsqu’on a étudié en détails la
loi exponentielle et la loi gamma. Voici une démonstration de la partie (b) dans le cas m = 2. Dans
ce cas, on obtient, pour tout r ≥ 0,
Z r Z r
fR (r) = fW1 (u)fW2 (r − u)du = λ1 e−λ1 u λ2 e−λ2 (r−u) du
0 0
Z r
1 − e−(λ1 −λ2 )r
= λ1 λ2 e−λ2 r e−(λ1 −λ2 )u du = λ1 λ2 e−λ2 r
0 λ1 − λ2
λ1 λ2  −λ2 r  λ2 λ1
= e − e−λ1 r = λ1 e−λ1 r + λ2 e−λ2 r .
λ1 − λ2 λ2 − λ1 λ1 − λ2

Ceci complète la démonstration de la partie (b) dans le cas où m = 2. Le cas général peut se
démontrer par induction sur m.

Exemple 1 : le processus de Poisson.

Le cas le plus simple d’un processus de naissance pur est le processus de Poisson avec intensité λ.
Dans ce cas, on sait que pour tout i ≤ j on a

(λt)j−i
Pij (t) = P[Xt = j|X0 = i] = P[Nt = j − i] = e−λt .
(j − i)!

En fait, dans le chapitre sur les processus de Poisson, nous avons obtenu ce résultat en suivant la
démarche décrite juste avant le théorème ci-dessus et en appliquant la partie (a) du théorème. Ici
Nt représente le nombre d’événements dans notre processus de Poisson durant l’intervalle de temps
[0, t], c’est-à-dire le nombre de transitions véritables de notre chaı̂ne de Markov durant l’intervalle
de temps [0, t]. [Notez que conditionnellement à X(0) = i, on a X(t) = i + Nt ]. L’exemple suivant
est moins trivial.

164
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Exemple 2 : le processus de Yule.

Considérons le processus de Yule avec paramètre λ. Il s’agit d’un processus de naissance pur, avec
λi = iλ. Pour j ≥ 1, on obtient

P1j (t) = P[Xt = j|X0 = 1]

= P[V1 + V2 + · · · + Vj > t] − P[V1 + V2 + · · · + Vj−1 > t]


   
Z ∞X j j Z j−1
∞ X Y j−1
 Y kλ  kλ 
=   ℓλ e−ℓλr dr −   ℓλ e−ℓλr dr
t
 kλ − ℓλ 
t
 kλ − ℓλ 
ℓ=1
k=1 k=1 ℓ=1
k6=ℓ k6=ℓ
   
j j j−1 j−1
X  Y k  e−ℓλt −
X  Y k  e−ℓλt
=  
 k − ℓ  k − ℓ
ℓ=1 k=1 ℓ=1 k=1
k6=ℓ k6=ℓ
   
j−1
!  j
j−1  j−1

Y k X Y k   Y k 
 
= e−jλt +  −  e−ℓλt .
k−j  k − ℓ  k − ℓ 
k=1 ℓ=1 
 k=1 k=1 

k6=ℓ k6=ℓ

On a donc

 
j−1
! j−1   j−1
Y k X j Y k 
P1j (t) = e−jλt + −1   e−ℓλt
k−j j−ℓ  k − ℓ
k=1 ℓ=1 k=1
k6=ℓ

j−1  
j−1 −jλt
X
ℓ−1 j − 1 −ℓλt
= (−1) e + (−1) e
ℓ−1
ℓ=1

j  
X
ℓ−1 j − 1 −ℓλt
= (−1) e
ℓ−1
ℓ=1

j−1  
−λt
X j − 1 −mλt
m
 j−1
= e (−1) e = e−λt 1 − e−λt .
m
m=0

Pour faire ce calcul, nous avons utilisé les deux identités suivantes :
j−1
Y k
= (−1)j−1
k−j
k=1
 
  j−1  
j k  = (−1)ℓ−1 j − 1 .
Y
−1 
j−ℓ 
k=1
k − ℓ ℓ−1
k6=ℓ

165
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

L’étudiant peut vérifier ces deux identités en écrivant au long les produits apparaissant sur les côtés
gauches. Nous avons donc, pour tout j ≥ 1,
 j−1
P1j (t) = e−λt 1 − e−λt . (7.10)

Pour calculer les Pij (t) pour i ≥ 2, on pourrait procéder de la même façon. Mais il y a une façon
simple d’obtenir les Pij (t), pour i ≥ 2, à partir des P1j (t). D’abord on note que l’équation (7.10)
nous dit que la distribution de Xt sachant que X0 = 1 est la loi géométrique avec paramètre
p = e−λt . Autrement dit, on a
 
L(Xt |X0 = 1) = géométrique e−λt .

Maintenant fixons i > 1 et examinons la distribution de Xt sachant que X0 = i. Supposons que les
i individus présents dans la population au temps 0 s’appellent I1 , I2 , ...Ii . On peut alors écrire

Xt = X1 (t) + X2 (t) + · · · + Xi (t)

où Xℓ (t) dénote le nombre d’individus au temps t qui sont des descendants de l’individu Iℓ . Les va- 
riables X1 (t), X2 (t), ..., Xi (t) sont i.i.d. et, en vertu du calcul précédent, sont des géométrique e−λt .
On obtient donc  
L(Xt |X0 = i) = binomiale négative i, e−λt .

Les probabilités de transition du processus de Yule sont donc données par l’équation suivante.
 
j − 1 −iλt  j−i
Pij (t) = e 1 − e−λt j ≥ i.
i−1

7.5 La matrice infinitésimale


On suppose que (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur l’espace d’états S, avec
taux de départ q = (qi ; i ∈ S) et avec matrice de probabilités de transition véritable P = (Pij ; i ∈
S, j ∈ S).

Définition. La matrice infinitésimale associée à la chaı̂ne de Markov (Xt ; t ≥ 0) est la matrice


Q = (qij ; i ∈ S, j ∈ S), avec qij défini par l’équation suivante :
(
−qi si i = j,
qij = (7.11)
qi Pij si i 6= j.

Interprétation : Dans le cas où i 6= j, le paramètre qij représente le taux de transition de l’état
i vers l’état j. Pour comprendre cette interprétation, il suffit d’imaginer que pour chaque état
i ∈ S, on a un processus de Poisson avec intensité qi décrivant les instants où la chaı̂ne quitte
l’état i (si elle s’y trouve). On imagine que tous ces processus de Poisson évoluent simultanément
et indépendamment les uns des autres. On peut alors décrire notre chaı̂ne de Markov de la façon
suivante. Si on est à l’état i, on observe le processus de Poisson associé à l’état i et on quitte l’état
i lors du prochain événement de ce processus (donc dans un temps exponentiel avec paramètre qi ).
Lorsqu’on quitte l’état i, on fait une transition véritable vers un état j choisi selon la distribution
donnée par la ligne i de la matrice P. On peut décomposer le processus de Poisson associé à l’état
i selon la destination des transitions. Par exemple, si S = {1, 2, 3, 4} alors le processus de Poisson

166
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

d’intensité q2 associé à l’état 2 peut être décomposé en 3 processus de Poisson indépendants les
uns des autres : le processus des transitions de l’état 2 vers l’état 1, le processus des transitions de
l’état 2 vers l’état 3 et le processus des transitions de l’état 2 vers l’état 4. Les intensités de ces
processus amincis sont, respectivement, q2 P2,1 , q2 P2,3 et q2 P2,4 , c’est-à-dire q2,1 , q2,3 et q2,4 . Voir la
section 6 du chapitre 6.

Remarque : L’équation (7.11) nous permet de calculer les qij à partir des qi et des Pij . On peut
aussi calculer les qi et les Pij à partir des qij . D’une part on a

qi = −qii .

D’autre part on a, pour tout i 6= j,


qij qij
Pij = =P .
qi ℓ∈S qiℓ
ℓ6=i

Exemple 1. Si S = {1, 2, 3, 4}, si (q1 , q2 , q3 , q4 ) = (2, 5, 3, 2) et si


 
0 1/2 1/4 1/4
 1/3 0 1/3 1/3 
P=  1/5 2/5 0 2/5 

1/7 0 6/7 0

alors  
−2 1 1/2 1/2
 5/3 −5 5/3 5/3 
Q=
 3/5 6/5 −3 6/5 

2/7 0 12/7 −2

Exemple 2. Si S = {1, 2, 3, 4} et si
 
−5 1 2 2
 5 −8 1 2 
Q= 
 1 0 −3 2 
0 3/4 1/4 −1

alors (q1 , q2 , q3 , q4 ) = (5, 8, 3, 1) et


 
0 1/5 2/5 2/5
 5/8 0 1/8 1/4 
P=
 1/3 0

0 2/3 
0 3/4 1/4 0

Proposition. Si Q est la matrice infinitésimale d’une chaı̂ne de Markov à temps continu, alors elle
satisfait les trois propriétés suivantes.
(a) Les éléments de la diagonale de Q sont tous négatifs : qii < 0 pour tout i ∈ S.
(b) Les éléments hors diagonale sont tous non-négatifs : qij ≥ 0 pour tout i 6= j ∈ S.
P
(c) Les sommes-lignes sont toutes nulles : j∈S qij = 0 pour tout i ∈ S.

167
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Démonstration. Les points (a) et (b) sont des conséquences immédiates de la définition. Voir
l’équation (7.11). Par ailleurs, pour tout i ∈ S on a
X X X X
qij = qii + qij = −qi + qi Pij = −qi + qi Pij = −qi + qi = 0.
j∈S j∈S j∈S j∈S
j6=i j6=i j6=i

Pour l’avant-dernière égalité, on a utilisé le fait que la matrice P est une matrice stochastique avec
des éléments diagonaux tous nuls.

Nous avons vu que si (Xt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors quand h → 0

 1 − λh + o(h) si j = i
P[Xt+h = j|Xt = i] = λh + o(h) si j = i + 1

o(h) si j ∈
/ {i, i + 1}.

Voici le résultat analogue pour les chaı̂nes de Markov à temps continu :

Proposition. Si (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu avec taux de départ
(qi ; i ∈ S) et matrice des probabilités de transitions véritables P, alors, quand h → 0,

1 − qi h + o(h) si j = i
Pij (h) = P[Xt+h = j|Xt = i] =
qi Pij h + o(h) si j 6= i;

Le théorème suivant est en quelque sorte la raison d’être de la matrice infinitésimale Q.

Théorème : On a P ′ (0) = Q. En d’autres mots, on a Pij′ (0) = qij pour tout i et j dans S,
c’est-à-dire (
d −qi si i = j
Pij (t) = qij =
dt t=0 qi Pij si i 6= j.

Démonstration. Considérons d’abord le cas i 6= j. Avec l’aide de la proposition précédente, on


obtient alors

d Pij (h) − Pij (0)
Pij′ (0) = Pij (t) = lim
dt t=0 h→0 h

Pij (h) − 0 qi Pij h + o(h)


= lim = lim = qi Pij = qij .
h→0 h h→0 h
Considérons maintenant le cas i = j. Cette fois-ci on obtient


d Pii (h) − Pii (0)
Pii′ (0) = Pii (t) = lim
dt t=0 h→0 h

Pii (h) − 1 (1 − qi h + o(h)) − 1


= lim = lim = −qi = qii .
h→0 h h→0 h
Ceci complète la démonstration du théorème.

168
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Remarque. La démonstration précédente est valide dans le cas où l’espace des états S est un
ensemble fini. Si S est un ensemble infini dénombrable, le théorème demeure valide sous certaines
conditions (et la démonstration présentée ci-dessus nécessite une plus grande attention).

7.6 L’équation de Chapman et Kolmogorov


Nous avons vu que si (Xn ; n ≥ 0) est une chaı̂ne de Markov à temps discret avec matrice stochastique
P, alors pour tout n ≥ 0 et tout m ≥ 0 on a

P m+n = P m P n (7.12)

c’est-à-dire X
Pijm+n = Piℓm Pℓjn
ℓ∈S

pour tout i et j dans S. Ce résultat élémentaire, qu’on démontre facilement avec la loi des proba-
bilités totales, est appelé l’équation de Chapman et Kolmogorov. Notons en passant que l’équation
(7.12) permet de calculer tous les P n à partir de la matrice P.

Voici le résultat analogue pour les chaı̂nes à temps continu.

Théorème. [L’équation de Chapman et Kolmogorov] Si (Xt ; t ≥ 0) est une chaı̂ne de Markov


à temps continu sur l’espace d’états S, alors les probabilités de transition P(t) = (Pij (t); i, j ∈ S)
vérifient l’équation suivante pour tout s ≥ 0 et tout t ≥ 0 :

P(s + t) = P(s) P(t). (7.13)

Autrement dit, pour tout s ≥ 0 et t ≥ 0 on a


X
Pij (s + t) = Piℓ (s) Pℓj (t) pour tout i ∈ S et j ∈ S.
ℓ∈S

Démonstration. Pour tout s ≥ 0 et t ≥ 0 et pour tout i ∈ S et j ∈ S on obtient

Pij (s + t) = P[Xs+t = j | X0 = i]
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k, X0 = i]
k∈S
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k]
k∈S
X X
= P[Xs = k | X0 = i] P[Xt = j | X0 = k] = Pik (s)Pkj (t).
k∈S k∈S

La première égalité est simplement la définition de la probabilité de transition Pij (t). Pour obtenir
la deuxième égalité on a simplement utilisé la loi des probabilités totales. Pour la troisième égalité
on a utilisé la propriété de Markov. Pour la quatrième égalité on a utilisé la propriété d’homogénéité
dans le temps.

169
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le prochain résultat est une conséquence du l’équation de Chapman et Kolmogorov. Ce résultat


nous dit que si on connaı̂t les matrices P(t) pour tous les t proches de 0, alors on connaı̂t les matrices
P(t) pour tous les t ≥ 0.

Proposition. Si pour un certain ǫ > 0 on connaı̂t P(t) pour tout t ∈ [0, ǫ), alors on connaı̂t P(t)
pour tout t ≥ 0.

Démonstration. Fixons t > ǫ. Choisissons un entier positif n suffisamment grand pour qu’on ait
t/n ∈ [0, ǫ]. L’équation (7.13) nous donne

P(t) = P(t/n) P(t/n) P(t/n) · · · P(t/n) = (P(t/n))n .

7.7 Les équations différentielles de Kolmogorov


d
Fixons i et j dans S et calculons Pij′ (t) = dt Pij (t). On obtient

d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P 
k∈S Pik (h)Pkj (t) − Pij (t)
= lim
h→0 h
 
P
k∈S Pik (h)P kj (t) + Pii (h)Pij (t) − Pij (t)
k6=i
= lim
h→0 h
  

 

X P (h) − 0  P (h) − 1 
ik ii
= lim  P kj (t) + P ij (t)
h→0 

 h  h 

 k∈S 
k6=i

X Pik (h) − 0
 
Pii (h) − 1

= lim Pkj (t) + lim Pij (t)
k∈S
h→0 h h→0 h
k6=i
X X
= qik Pkj (t) − qi Pij (t) = qik Pkj (t).
k∈S k∈S
k6=i

On reconnaı̂t en cette dernière somme le produit de la ie ligne de la matrice Q avec la j e colonne


de la matrice P(t). On a donc

d
P(t) = QP(t). (7.14)
dt
Cette équation différentielle matricielle est appelée l’équation différentielle retardée de Kolmogorov.

170
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

De façon analogue, on obtient

d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P 
k∈S Pik (t)Pkj (h) − Pij (t)
= lim
h→0 h
 
P
k∈S Pik (t)Pkj (h) + Pij (t)Pjj (h) − Pij (t)
k6=j
= lim
h→0 h
  

 

X P (h) − 0  P (h) − 1 
kj jj
= lim   Pik (t)  + Pij (t)
h→0 
 h  h 

 k∈S 
k6=j
   
X Pkj (h) − 0 Pjj (h) − 1
= Pik (t) lim + Pij (t) lim
h→0 h h→0 h
k∈S
k6=j
X X
= Pik (t)qkj − Pij (t)qj = Pik (t)qkj .
k∈S k∈S
k6=j

On reconnaı̂t en cette dernière somme le produit de la ie ligne de la matrice P(t) avec la j e colonne
de la matrice Q. On a donc
d
P(t) = P(t)Q. (7.15)
dt
Cette équation différentielle matricielle s’appelle l’équation différentielle avancée de Kolmogorov.
On a donc démontré le résultat suivant :

Théorème. [Les équations différentielles de Kolmogorov] Si (Xt ; t ≥ 0) est une chaı̂ne de


Markov à temps continu avec matrice infinitésimale Q, alors, sous certaines conditions de régularité,
la probabilités de transition (P(t); t ≥ 0) vérifient les équations différentielles suivantes :
d
(a) L’équation différentielle avancée de Kolmogorov : dt P(t) = P(t)Q.
d
(b) L’équation différentielle retardée de Kolmogorov : dt P(t) = QP(t).

Remarque. Les démonstrations des équations (7.14) et (7.15) présentées ci-dessus sont valides
dans le cas où l’espace des états S est un ensemble fini. Si S est un ensemble infini dénombrable, les
équations (7.14) et (7.15) demeurent valide sous certaines conditions de régularité habituellement
satisfaites dans les exemples qu’on rencontre en pratique, mais les démonstrations présentées ci-
dessus nécessitent une plus grande attention, notamment pour le passage de la limite sous la somme.

171
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Application. Dans certain cas, il est possible d’obtenir les probabilités de transition Pij (t) en
solutionnant l’équation (7.14) ou l’équation (7.15). Nous allons considérer deux exemples.

Exemple 1 : La chaı̂ne à deux états.


On considère ici le cas où S = {0, 1}. Les taux de départ seront notés λ et µ. On a donc q =
(q0 , q1 ) = (λ, µ). La matrice des probabilités de transition véritable est simplement la matrice
! !
0 P0 1 0 1
P= = .
P1 0 0 1 0

La matrice infinitésimale est donc


! !
q0 0 q0 1 −λ λ
Q= = .
q1 0 q1 1 µ −µ
d
L’équation matricielle dt P(t) = QP(t) prend la forme
! ! !
P0′ 0 (t) P0′ 1 (t) −λ λ P0 0 (t) P0 1 (t)
=
P1′ 0 (t) P1′ 1 (t) µ −µ P1 0 (t) P1 1 (t)

c’est-à-dire

P0′ 0 (t) = −λP0 0 (t) + λP1 0 (t) (7.16)

P1′ 0 (t) = µP0 0 (t) − µP1 0 (t) (7.17)

P0′ 1 (t) = −λP0 1 (t) + λP1 1 (t) (7.18)

P1′ 1 (t) = µP0 1 (t) − µP1 1 (t). (7.19)

Puisque P0 0 (t)+P0 1 (t) = 1 et P1 0 (t)+P1 1 (t) = 1, il suffit de trouver P0 0 (t) et P1 0 (t). Pour trouver
ces deux fonctions, il suffit de résoudre les équations (7.16) et (7.17). Si on multiplie l’équation (7.16)
par µ et l’équation (7.17) par λ, on obtient

µP0′ 0 (t) = −µλP0 0 (t) + µλP1 0 (t) (7.20)

λP1′ 0 (t) = µλP0 0 (t) − µλP1 0 (t). (7.21)

On additionne les équations (7.20) et (7.21) et on obtient

µP0′ 0 (t) + λP1′ 0 (t) = 0,

c’est-à-dire
d
(µP0 0 (t) + λP1 0 (t)) = 0.
dt
La fonction µP0 0 (t) + λP1 0 (t) est donc constante, disons

µP0 0 (t) + λP1 0 (t) = C. (7.22)

Si on insère t = 0 dans (7.22) et si on utilise le fait que P0 0 (0) = 1 et P1 0 (0) = 0, on obtient C = µ.


L’équation (7.22) devient donc
µP0 0 (t) + λP1 0 (t) = µ.

172
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On a donc
λP1 0 (t) = µ (1 − P0 0 (t)) . (7.23)
On insère (7.23) dans (7.16) et on obtient

P0′ 0 (t) = −λP0 0 (t) + µ (1 − P0 0 (t))

c’est-à-dire
P0′ 0 (t) = µ − (λ + µ)P0 0 (t). (7.24)
L’équation (7.24) est valide pour tout t ≥ 0 et elle est sujette à la condition initiale P0 0 (0) = 1.
L’étudiant peut vérifier que la solution est alors
µ λ
P0 0 (t) = + e−(λ+µ)t . (7.25)
λ+µ λ+µ

Puisque P0 1 (t) = 1 − P0 0 (t), on obtient


λ λ
P0 1 (t) = − e−(λ+µ)t . (7.26)
λ+µ λ+µ

Si on insère (7.25) dans (7.23), on obtient, après simplification,


µ µ
P1 0 (t) = − e−(λ+µ)t . (7.27)
λ+µ λ+µ

Enfin, puisque P1 1 (t) = 1 − P1 0 (t), on obtient


λ µ
P1 1 (t) = + e−(λ+µ)t . (7.28)
λ+µ λ+µ

Enfin, voici les équations (7.26) à (7.28) sous forme matricielle :


 
µ λ −(λ+µ)t λ λ −(λ+µ)t
λ+µ + λ+µ e λ+µ − λ+µ e
P(t) =  µ µ µ
. (7.29)
−(λ+µ)t λ −(λ+µ)t
λ+µ − λ+µ e λ+µ + λ+µ e

L’étudiant devrait comparer l’équation (7.29) avec le résultat obtenu à la section 4 du chapitre 4
pour les probabilités de transition d’ordre n de la chaı̂ne de Markov à temps discret sur un espace
à deux états.

Exemple 2 : Le processus de Yule.


Ici on travaille avec S = {1, 2, 3, ...} et la matrice infinitésimale est donnée par
 
−λ λ 0 0 0 ···
 
 0 −2λ 2λ 0 0 ··· 
 
 
 
 0 0 −3λ 3λ 0 ··· 
 
Q= 
 0 0 0 −4λ 4λ · · · 
 
 
 0
 0 0 0 −5λ · · ·  
 
.. .. .. .. .. ..
. . . . . .

173
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

d
La première ligne de l’équation matricielle dt P(t) = P(t)Q nous donne les équations suivantes, avec
les conditions initialles indiquées à droite :

P1′ 1 (t) = −λP1 1 (t) P1 1 (0) = 1 (7.30a)


P1′ 2 (t) = λP1 1 (t) − 2λP1 2 (t) P1 2 (0) = 0 (7.30b)
P1′ 3 (t) = λP1 2 (t) − 3λP1 3 (t) P1 3 (0) = 0 (7.30c)
P1′ 4 (t) = λP1 3 (t) − 4λP1 4 (t) P1 4 (0) = 0 (7.30d)
P1′ 5 (t) = λP1 4 (t) − 5λP1 5 (t) P1 5 (0) = 0 (7.30e)
.. .. ..
. . .

On résout ces équations de façon séquentielle : on résout (7.30a), on insère la solution dans (7.30b),
on résout (7.30b), on insère la solution dans (7.30c), on résout (7.30c), on insère la solution dans
(7.30d), etc. On obtient ainsi les solutions suivantes :

P1 1 (t) = e−λt
 
P1 2 (t) = 1 − e−λt e−λt
 2
P1 3 (t) = 1 − e−λt e−λt
 3
P1 4 (t) = 1 − e−λt e−λt

..
.

Ce résultat est, bien sûr, le même que le résultat obtenu à la section 4.

7.8 Solution matricielle de l’équation différentielle de Kolmogorov


Soit g(t), une fonction à valeurs dans R, définie sur l’intervalle [0, ∞) et satisfaisant l’équation
différentielle
g ′ (t) = ag(t) avec condition initiale g(0) = 1. (7.31)
Ici a est une constante connue. La solution de cette équation différentielle est la fonction

g(t) = eat pour tout t ≥ 0.

Il s’agit d’un des premiers exemples qu’on rencontre dans un cours d’équations différentielles. Voici
à nouveau notre équation différentielle (avancée) de Kolmogorov :

P ′ (t) = QP(t) avec condition initiale P(0) = I, (7.32)

où I dénote la matrice identité. L’analogie entre les équations (7.32) et (7.31) suggère que la
“solution” de l’équation (7.32) devrait être donnée par

P(t) = eQt . (7.33)

174
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Pour que la “solution” (7.33) ait un sens, il faut donner un sens à l’expression eA , où A est une
P xk
matrice carrée. Inspirée par la série de Taylor ex = ∞ A
k=0 k! , l’approche usuelle pour définir e est
la suivante :

Définition. Soit A, une matrice carrée. La matrice carrée eA est définie par l’équation suivante :

A
X Ak A2 A3 A4
e = =I +A+ + + + ···
k! 2 3! 4!
k=0

À la lumière de cette définition, la “solution” (7.33) peut être réécrite sous la forme suivante :

X (Qt)k Q2 t2 Q3 t3 Q4 t4
P(t) = = I + Qt + + + + ··· (7.34)
k! 2 3! 4!
k=0

Pour voir que l’expression donnée dans l’équation précédente est bel et bien solution de l’équation
différentielle (7.32), il suffit de dériver terme à terme :
 
′ d d Q2 t2 Q3 t3 Q4 t4
P (t) = P(t) = I + Qt + + + + ···
dt dt 2 3! 4!
Q3 t2 Q4 t3
= 0 + Q + Q2 t + + + ···
 2 3! 
Q2 t2 Q3 t3 Q4 t4
= Q I + Qt + + + + ···
2 3! 4!
= QP(t).
Dans certains cas simples, il est possible d’obtenir la matrice P(t) en évaluant le côté droit de
l’équation (7.34). On peut aussi utiliser l’équation (7.34) pour calculer une approximation de la
matrice P(t). En effet, si m est un entier suffisamment grand, on aura
Q2 t2 Q3 t3 Qm tm
P(t) ≈ I + Qt + + + ··· + .
2 3! m!

7.9 Distribution stationnaire et convergence


Reprenons l’exemple 1 de la section 7. On a obtenu
 
µ λ −(λ+µ)t λ λ
λ+µ + λ+µ e λ+µ − λ+µ e−(λ+µ)t
P(t) = 
µ µ µ
.
−(λ+µ)t λ
λ+µ − λ+µ e λ+µ + λ+µ e−(λ+µ)t

On a donc
!
P0 0 (t) P0 1 (t)
lim P(t) = lim
t→∞ t→∞ P1 0 (t) P1 1 (t)
!
limt→∞ P0 0 (t) limt→∞ P0 1 (t)
=
limt→∞ P1 0 (t) limt→∞ P1 1 (t)
µ λ !
λ+µ λ+µ
= µ
.
λ
λ+µ λ+µ

175
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Donc, si on pose  
µ λ
π = (π0 , π1 ) = , ,
λ+µ λ+µ
alors on a
lim Pij (t) = πj , pour tout i ∈ S et j ∈ S. (7.36)
t→∞

On a également
πP(t) = π, pour tout t ≥ 0. (7.37)
Le résultat (7.37) nous dit que la loi π est stationnaire pour notre chaı̂ne de Markov. Ce résultat
est analogue au résultat
πP n = π, pour tout n ≥ 0,
qu’on avait pour les chaı̂nes de Markov à temps discret. Le résultat (7.36) nous dit que peu importe
l’état initial, la distribution de X(t) converge vers la loi stationnaire. Ce résultat est analogue au
résultat
lim Pijn = πj , pour tout i ∈ S et j ∈ S
n→∞

qu’on avait pour les chaı̂nes de Markov à temps discret.

L’exemple ci-dessus est typique. Étant donné une chaı̂ne de Markov à temps continu, il arrive
souvent que
(a) il existe une et une seule loi stationnaire,
(b) peu importe la loi initiale, la distribution de X(t) converge vers la loi stationnaire.

Voici deux méthodes simples pour trouver la loi stationnaire d’une chaı̂ne de Markov à temps
continu.

Méthode 1 : Via la chaı̂ne des sauts.


Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu avec taux de départ q = (qi ; i ∈ S) et avec
matrice des probabilités de transitions véritables P = (Pij ; i ∈ S, j ∈ S). Supposons que P soit
irréductible, apériodique et récurrente positive. Alors P possède une loi stationnaire unique, disons
π̃ = (π̃i ; i ∈ S), et cette loi stationnaire est aussi la loi limite de la chaı̂ne des sauts, peu importe la
loi initiale. Il s’en suit que si on pose

π̃i /qi
πi = P , (7.38)
ℓ∈S π̃ℓ /qℓ

alors la loi π = (πi ; i ∈ S) est la loi stationnaire (et la loi limite) pour la chaı̂ne de Markov
(Xt ; t ≥ 0).

Méthode 2 : Via les équations différentielles de Kolmogorov.


Reprenons l’équation différentielle avancée de Kolmogorov donnée au théorème de la section 7 :
d
P(t) = P(t)Q.
dt
Si on prend la limite quand t → ∞, on obtient
d  
lim P(t) = lim P(t) Q. (7.39)
t→∞ dt t→∞

176
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

En supposant que les points (a) et (b) ci-dessus sont satisfaits, on devrait avoir
lim Pij (t) = πj pour tout i ∈ S et j ∈ S
t→∞

lim Pij′ (t) = 0 pour tout i ∈ S et j ∈ S.


t→∞
d
Donc dans l’équation (7.39), la matrice limt→∞ dt P(t) qui apparaı̂t à gauche du signe d’égalité est
la matrice nulle alors que la matrice limt→∞ P(t) qui apparaı̂t juste à droite du signe d’égalité est
la matrice dont chaque ligne est la loi stationnaire π. En prenant la première ligne des matrices
apparaissant de part et d’autre de l’équation (7.39), on obtient
0 = πQ. (7.40)
Le 0 qui apparaı̂t du côté gauche de l’équation (7.40) est le vecteur ligne (0, 0, 0, ..., 0). Dans certains
problèmes, on peut trouver la loi stationnaire π = (πi ; i ∈ S) en solutionnant l’équation (7.40).

Exemple 1. Supposons que S = {1, 2, 3, 4}, que q = (q1 , q2 , q3 , q4 ) = (4, 8, 5, 7) et que


 
0 1/2 1/4 1/4
 1/3 0 1/3 1/3 
P=  1/5 2/5
.
0 2/5 
1/7 0 6/7 0
Déterminons la loi stationnaire de cette chaı̂ne de Markov à temps continu, d’abord par la méthode
1, puis par la méthode 2.

Méthode 1. La matrice P des probabilités de transition véritables est irréductible et apériodique.


Elle possède donc une loi stationnaire unique, disons π̃ = (π̃1 , π̃2 , π̃3 , π̃4 ). Pour déterminer cette loi
π̃, il suffit de résoudre l’équation
π̃P = π̃
avec la contrainte π1 + π2 + π3 + π4 = 1. À l’aide de Maple, j’obtiens
 
172 216 325 245
π̃ = (π̃1 , π̃2 , π̃3 , π̃4 ) = , , , .
958 958 958 958
À l’aide de l’équation (7.38), j’obtiens finalement
 
43 27 65 35
(π1 , π2 , π3 , π4 ) = , , , .
170 170 170 170

Méthode 2. On obtient d’abord la matrice infinitésimale à partir du vecteur q et de la matrice


P :  
−4 2 1 1
 8/3 −8 8/3 8/3 
Q= 
 1 2 −5 2 
1 0 6 −7
L’équation (7.40) prend donc la forme
 
−4 2 1 1
 8/3 −8 8/3 8/3 
(π1 , π2 , π3 , π4 )   = (0, 0, 0, 0).
 1 2 −5 2 
1 0 6 −7

177
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On résout cette équation matricielle avec la contrainte π1 + π2 + π3 + π4 = 1 et on obtient


 
43 27 65 35
(π1 , π2 , π3 , π4 ) = , , , .
170 170 170 170

Exemple 2. Considérons la file d’attente M/M/1. Intuitivement, dans le cas où le taux d’arrivée λ
est plus grand que le taux de service µ, le système s’engorge et il n’y a donc pas de loi stationnaire.
Dans le cas où le taux d’arrivée λ est inférieur au taux de service µ, on s’attend à ce que le système
se stabilise et donc à ce qu’il y ait une loi stationnaire. Nous allons donc supposer que λ < µ et
nous allons essayer de trouver la loi stationnaire d’abord par la méthode 1, puis par la méthode 2.

Méthode 1. La matrice des probabilités de transition véritable est donnée par


   
0 1 0 0 0 ··· 0 1 0 0 0 ···
 µ 0 λ
0 0 · · ·  
 λ+µ λ+µ   1−p 0 p 0 0 ··· 

 0 µ λ  
 λ+µ 0 λ+µ 0 · · ·  0 1 − p 0 p 0 ··· 
P= µ λ = 
 0 0 λ+µ 0 λ+µ · · ·   0 0 1−p 0 p ··· 
 µ   
 0 0 0 0 ··· 
 0 0 0 1−p 0 ··· 
 λ+µ   . . . .. ..

.. .. .. .. .. .. .. .. .. ..
. . . . . . . . .

avec p = λ/(λ + µ). Puisque 0 < λ < µ, on a 0 < p < 1/2. La matrice P est donc la matrice des
probabilités de transition de la marche aléatoire sur {0, 1, 2, ...} avec réflexion instantanée à l’origine.
Cette matrice stochastique est périodique, avec période 2. Comme nous n’avons pas étudié en détails
le cas périodique, passons à la méthode 2.

Méthode 2. La matrice infinitésimale est donnée par


 
−λ λ 0 0 0 ···
 µ −(λ + µ) λ 0 0 ··· 
 
 0
 µ −(λ + µ) λ 0 ··· 

Q= 0 0 µ −(λ + µ) λ ··· .
 
 0
 0 0 µ −(λ + µ) ··· 

.. .. .. .. .. ..
. . . . . .

L’équation (7.40) prend donc la forme


 
−λ λ 0 0 ···
 µ −(λ + µ) λ 0 ··· 
 
 0
(π0 , π1 , π2 , ...)  µ −(λ + µ) λ ··· 
 = (0, 0, 0, ...)
 0
 0 µ −(λ + µ) ··· 

.. .. .. .. ..
. . . . .

178
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

ou, de façon équivalente,


−λπ0 + µπ1 = 0 (7.41)

λπ0 − (λ + µ)π1 + µπ2 = 0 (7.42)

λπ1 − (λ + µ)π2 + µπ3 = 0 (7.43)

λπ2 − (λ + µ)π3 + µπ4 = 0 (7.44)

λπ3 − (λ + µ)π4 + µπ5 = 0 (7.45)

etc.
L’équation (7.41) nous donne
λ
π1 =π0 . (7.46)
µ
Si on insère (7.46) dans (7.42), on obtient, après simplification,
 2
λ
π2 = π0 . (7.47)
µ
Si on insère (7.46) et (7.47) dans (7.42), on obtient, après simplification,
 3
λ
π3 = π0 .
µ
Il est donc clair qu’on obtient, pour tout k ≥ 0,
 k
λ
πk = π0 . (7.48)
µ
P
La condition ∞ k=0 πk = 1 peut donc s’écrire sous la forme
∞  k
X λ
π0 = 1,
µ
k=0
c’est-à-dire
1
π0 = 1,
1 − (λ/µ)
c’est-à-dire
µ−λ λ
π0 = =1− .
µ µ
On a donc, pour k ≥ 0,
 k  
λ λ
πk = 1−
µ µ
On reconnaı̂t ici la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de succès 1 − (λ/µ).

Nous avons vu que l’espérance de la loi géométrique sur {1, 2, 3, ...} avec probabilité de succès p est
égale à 1/p. Il s’en suit que l’espérance de la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de
succès p est égale à (1/p) − 1. Donc, pour la file d’attente M/M/1, il y a, à la longue, en moyenne
1 1 λ 1
−1 = −1 = =
p 1 − (λ/µ) µ−λ (µ/λ) − 1
clients dans le système.

179
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

7.10 Les exercices du chapitre 7


Numéro 1. On considère une chaı̂ne de Markov à temps continu (Xt ; t ≥ 0) avec les paramètres
suivants :
— L’espace des états est S = {1, 2, 3}.
— Les taux de départ sont (q1 , q2 , q3 ) = (2, 7, 10)
— La matrice stochastique de la chaı̂ne des sauts, c’est-à-dire la matrice des probabilités des
transitions véritables, est  
0 1/2 1/2
P =  1/3 0 2/3 
1/4 3/4 0
(a) Calculez P[X1 = 1 pour tout 0 ≤ t ≤ 1|X0 = 1].
(b) Obtenez la matrice infinitésimale de cette chaı̂ne de Markov.
(c) Obtenez la loi stationnaire de cette chaı̂ne de Markov.
(d) Obtenez Z
1 t
lim h(Xs ) ds
t→∞ t 0

où h(1) = 3, h(2) = 9 et h(3) = 13. Interprétation : si h(j) représente le loyer Rqu’on paie
t
(exprimé en dollars par unité de temps) lorsqu’on est à l’état j, alors limt→∞ 1t 0 h(Xs ) ds
représente le loyer moyen par unité de temps à la longue.
Numéro 2. Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu sur l’ensemble S = {1, 2, 3}.
Voici la matrice infinitésimale de cette chaı̂ne de Markov :
 
−6 2 4
Q =  1 −2 1 
4 2 −6

(a) Calculez la loi stationnaire.


(b) Posons U = inf{t ≥ 0 : Xt 6= 2} et posons V = inf{t > U : Xt = 2}.
1. Quelle est la loi conditionnelle de U sachant X0 = 2 ?
2. Calculez E[V |X0 = 2].

Numéro 3. Considérons une chaı̂ne de Markov (Xt ; t ≥ 0) sur S = {0, 1, 2, 3, 4}, avec les conditions
infinitésimales suivantes.


 h + o(h) si j =4


 o(h) si j =3
P[Xt+h = j|Xt = 0] = o(h) si j =2



 h + o(h) si j =1

1 − 2h + o(h) si j =0


 1 − 8h + o(h) si j =4


 4h + o(h) si j =3
P[Xt+h = j|Xt = 4] = o(h) si j =2



 o(h) si j =1

4h + o(h) si j =0

180
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

et pour i ∈ {1, 2, 3},




 2h + o(h) si j =i+1

1 − 4h + o(h) si j =i
P[Xt+h = j|Xt = i] =

 2h + o(h) si j =i−1

o(h) si j ∈
/ {i − 1, i, i + 1}

(a) Obtenez la matrice infinitésimale Q.


(b) Calculez P[Xt = 2 pour tout t ≤ 1|X0 = 2].
(c) À la longue, dans quel état cette chaı̂ne passe-t-elle le plus de temps ?
(d) À la longue, quelle est la proportion de temps passée à l’état 2 ?

Numéro 4. [Pour les étudiants en mathématiques].


(a) On considère un processus de naissance et de mort sur l’espace d’états S = {0, 1, 2, 3, ...}.
On suppose que les µi , i ≥ 1, et les λi , i ≥ 0, sont tous strictement positifs. Dans ce cas, les
états communiquent tous entre eux. Montrez qu’il existe une loi stationnaire si et seulement
si

X λ0 λ1 λ2 · · · λk−1
<∞
µ1 µ2 µ3 · · · µk
k=1
et exprimez cette loi stationnaire en termes des µi et des λi .
(b) On considère un processus de naissance et de mort avec

λi = λ eai et µi = µ ebi .

Ici, λ et µ sont des constantes positives et a et b sont des réels quelconques. Quelles conditions
les paramètres λ, µ, a et b doivent-ils satisfaire pour que ce processus soit stable, c’est-à-dire
pour qu’il possède une loi stationnaire ?

Numéro 5. On considère une population de cellules. Chaque cellule est ou bien à l’état A, ou
bien à l’état B. Lorsqu’une cellule est à l’état A, elle y demeure pendant un temps exponentiel de
paramètre λA , puis elle passe à l’état B. Lorsqu’une cellule est à l’état B, elle y demeure pendant
un temps exponentiel de paramètre λB , puis elle se divise en deux cellules qui sont toutes les deux
à l’état A. Définissez une chaı̂ne de Markov appropriée pour décrire l’évolution de cette population
et spécifiez les paramètres de cette chaı̂ne de Markov. Suggestion : Posez X(t) = (XA (t), XB (t)), où
XA (t) et XB (t) dénotent respectivement le nombre de cellules de type A au temps t et le nombre
de cellules de type B au temps t.

Numéro 6. Voici une variation du modèle de file d’attente à un serveur. On fait les mêmes
hypothèses que pour le modèle M/M/1, mais avec la tournure suivante. Les clients sont impatients.
1
Lorsqu’un nouveau client arrive, il se joint à la file d’attente avec probabilité n+1 , où n est le
nombre total de clients présents dans le système au moment où le nouveau client arrive. Spécifiez
les paramètres de cette chaı̂ne de Markov.

Numéro 7. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne. À la longue, quel est le
nombre moyen de clients dans le système ?

Numéro 8. Voici une variation du modèle de file d’attente à k serveurs. On fait les mêmes hy-
pothèses que pour le modèle M/M/k, mais avec la tournure suivante. Le système peut recevoir
au plus m clients à la fois. On suppose m > k. Lorsqu’un nouveau client arrive, il entre dans le

181
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

système seulement s’il y a de la place, c’est-à-dire seulement s’il y a moins que m clients présents
dans le système. S’il y a déjà m clients dans le système, le nouveau client est refusé. Spécifiez les
paramètres de cette chaı̂ne de Markov.

Numéro 9. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne dans le cas spécial où
λ = 2, µ = 1, k = 2 et m = 4. À la longue, quelle est la proportion de clients qui sont refusés ?

Numéro 10. En classe nous avons obtenu les P1j (t) du processus de Yule. Voici une autre approche
pour obtenir ces P1j (t).
(a) En exploitant la propriété d’absence de mémoire, montrez que si V1 , V2 , ..., Vm sont indépendantes
avec Vi ∼ exponentielle(iλ) et si W1 , W2 , ..., Wm sont i.i.d. exponentielle(λ), alors
L
V1 + V2 + · · · + Vm = max{W1 , W2 , ..., Wm };

concluez que

P[V1 + V2 + · · · + Vm ≤ t] = P[max{W1 , W2 , ..., Wm } ≤ t].

(b) À partir du résultat de la partie (a), obtenez les P1j (t) du processus de Yule.

Numéro 11. Une population comprend n individus dont certains sont des zombies. Si A et B
sont des individus encore en vie (ou bien en santé, ou bien zombie), alors les rencontres entre
A et B se produisent comme un processus de Poisson avec intensité λ. Ces processus de Poisson
sont indépendants les uns des autres. Si on a en tout k individus en vie (en santé ou zombie),
le processus
 superposé de toutes les rencontres est donc un processus de Poisson avec intensité
λ k2 = 21 k(k − 1)λ. Lorsqu’une rencontre survient, il s’agit toujours d’exactement deux individus

et chacune de N2t paires possibles a la même probabilité de survenir. Ici Nt dénote le nombre total
d’individus au temps t. Lorsque deux zombies se rencontrent, ils se saluent et poursuivent leur
chemin. Lorsque deux individus en santé se rencontrent, ils se saluent et poursuivent leur chemin.
Lorsqu’un zombie rencontre un individu en santé, il y a confrontation. On a alors une probabilité p
que l’individu en santé devienne un zombie et une probabilité 1 − p qu’il tue le zombie. Au temps 0,
il y a un seul zombie dans la population. Définissez une chaı̂ne de Markov appropriée pour décrire
ce scénario. Précisez les paramètres de cette chaı̂ne. Que va-t-il se produire ? Les zombies vont-ils
disparaı̂tre ? Les individus en santé vont-ils tous devenir des zombies ? Suggestion : Considérez le
couple (Xt , Yt ) où Xt et Yt dénotent respectivement le nombre de zombies et le nombre d’individus
en santé au temps t.

Numéro 12. Denis travaille au CDA. Il est le seul dépanneur en statistique. Ses clients arrivent
comme un processus de Poisson avec intensité λ. Lorsqu’un nouveau client arrive il se fait servir
par Denis, à moins que Denis soit déjà en train de servir quelqu’un, dans lequel cas le nouveau
client s’en va. Il a deux types de clients : les gars et les filles. Lorsqu’un nouveau client arrive, on
a une probabilité p que ce soit un gars et une probabilité 1 − p que ce soit une fille. Le temps de
service est exponentielle(θ1 ) si c’est un gars et exponentielle(θ2 ) si c’est une fille. Lorsqu’il n’est pas
en train de servir quelqu’un, Denis regarde des vidéos sur youtube. On pose

 G si Denis est en train d’aider un gars au temps t
Xt = F si Denis est en train d’aider une fille au temps t

Y si Denis est en train de regarder des vidéos sur youtube au temps t.

182
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Obtenez la matrice infinitésimale de la chaı̂ne de Markov (Xt ; t ≥ 0). Obtenez la loi stationnaire
de cette chaı̂ne. À la longue, Denis passe quelle proportion de son temps de CDA sur youtube ?

Numéro 13. On suppose que (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur l’ensemble
S = {0, 1, 2, 3, 4, 5, 6}, avec matrice infinitésimale donnée par
 
−6 1 1 1 1 1 1
 
 1 −6 1 1 1 1 1 
 
 
 1 1 −6 1 1 1 1 
 
 
 
Q= 1 1 1 −6 1 1 1 
 
 
 1 1 1 1 −6 1 1 
 
 
 1
 1 1 1 1 −6 1  
1 1 1 1 1 1 −6

(a) Calculez la probabilité que cette chaı̂ne de Markov effectuera exactement 4 transitions
durant l’intervalle de temps (1/4, 3/4].
(b) On pose T = inf{t ≥ 0 : Xt = 4}. Calculez P[T > 2|X0 = 3].

Numéro 14. Un système comprend 3 composantes branchées en série. Le système fonctionne si et


seulement si toutes les composantes fonctionnent.

✉ 1 2 3 ✉

On suppose que les règles suivantes sont valides :


• Les durées de vie des composantes sont des variables aléatoires indépendantes. La durée de
vie de la composante numéro j est exponentielle avec paramètre λj . À la fin de sa vie, la
composante tombe en panne.
• Pendant que la composante j est en panne, le système cesse de fonctionner et les 2 autres
composantes sont alors au repos. Elles ne peuvent pas tomber en panne pendant qu’elles
sont au repos. Elles ne se détériorent pas pendant qu’elles sont au repos.
• Lorsque la composante numéro j tombe en panne, le réparateur prend un temps exponentiel
de paramètre θj pour la remettre en service.
• Lorsque le réparateur termine la réparation de la composante j, le système est remis en
marche. Après sa réparation, la composante j est comme neuve.
On s’intéresse à la chaı̂ne de Markov (X(t); t ≥ 0) définie par


 0 si le système fonctionne au temps t

1 si la composante 1 est en panne au temps t
X(t) =

 2 si la composante 2 est en panne au temps t

3 si la composante 3 est en panne au temps t

(a) Obtenez la matrice infinitésimale Q de cette chaı̂ne de Markov à temps continu.

183
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(b) Obtenez la loi stationnaire de cette chaı̂ne de Markov à temps continu.


(c) Lorsqu’il fonctionne, le système génère un gain net de a$ par unité de temps. Lorsqu’il est
en panne, le système occasionne une perte nette de b$ par unité de temps. Ici a et b sont
des nombres réels positifs. À la longue, quel est le gain net par unité de temps ?

Numéro 15. Un magasin est ouvert 24 heures sur 24. Les clients entrent dans le magasin comme un
processus de Poisson homogène avec une intensité de λ clients par heure. Lorsqu’un client entre dans
le magasin, il y reste pendant un temps (en heures) exponentiel avec paramètre θ, indépendamment
de tous les autres clients. On s’intéresse à la variable aléatoire

Xt = le nombre de clients qui sont dans le magasin au temps t

Le processus (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur S = {0, 1, 2, 3, ...}.
(a) À 8h17 et 33 secondes, le client Jean-Paul Larivière entre dans le magasin. Quelle est
l’espérance du temps qui s’écoulera avant que 4 nouveaux clients arrivent ?
(b) À 13h54 et 22 secondes, le gérant Réal Labonté constate qu’il y a exactement 4 clients dans
son magasin. Quelle est l’espérance du temps qui s’écoulera avant que ces 4 clients aient tous
quitté le magasin ?
(c) Obtenez la distribution limite de X(t) lorsque t → ∞.

Numéro 16. Des clients arrivent à un centre de service comme un processus de Poisson avec une
intensité de 2 clients par heure. Une fois arrivés au centre de service, les clients passent d’abord au
point de service A, puis au point de service B. Au point de service A, il y a un seul serveur et les
temps de service sont exponentiels avec une intensité de 4 par heure. Au point de service B, il y a
un seul serveur et les temps de service sont exponentiels avec une intensité de 6 par heure. Après
être passés aux deux points de service, les clients quittent le centre. On pose

XA (t) = le nombre de clients en attente devant le comptoir A au temps t,


XB (t) = le nombre de clients en attente devant le comptoir B au temps t,
X(t) = (XA (t), XB (t)).

Le processus aléatoire (X(t); t ≥ 0) est une chaı̂ne de Markov à temps continu avec espace d’état
S = N2 = {(k, ℓ); k ∈ {0, 1, 2, ...} et ℓ ∈ {0, 1, 2, ...}}.
(a) Le shéma ci-dessous illustre l’état du système à un certain temps to . On a donc XA (to ) = 6,
XB (to ) = 3 et donc X(to ) = (6, 3). Quelle est la distribution de la variable T = min{t > to :
(XA (t), XB (t)) 6= (6, 3)} ?

XA (to ) XB (to )
z }| { z }| {
Entrée Sortie
✲ ❡❡❡❡❡ ❡ ✉ ❡❡ ❡ ✉ ✲
✻ ✻

Serveur A Serveur B

184
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

(b) Obtenez la distribution du couple (XA (T ), XB (T )), où T est le temps aléatoire défini à la
partie (a).
(c) On suppose que (XA (0), XB (0)) = (0, 0) et on pose

W = le moment où le premier client quittera le système.

Obtenez l’espérance et l’écart-type de W . Exprimez vos réponses en minutes.

Numéro 17. Un système comprend deux composantes, disons la composante A et la composante


B. On fait les hypothèses suivantes :
• Les pannes de la composante A surviennent au taux ηA , peu importe l’état de la composante
B.
• Les pannes de la composante B surviennent au taux ηB , peu importe l’état de la composante
A.
• Lorsque la composante A tombe en panne, ça prend un temps exponentiel de paramètre θA
avant qu’elle soit remise en service, peu importe l’état de la composante B.
• Lorsque la composante B tombe en panne, ça prend un temps exponentiel de paramètre θB
avant qu’elle soit remise en service, peu importe l’état de la composante A.
L’état du système est décrit par la chaı̂ne de Markov (Xt ; t ≥ 0) sur l’espace d’états S = {[0, 0], [0, 1], [1, 0], [1, 1]},
avec

[0, 0] = “les deux composantes sont en panne”


[0, 1] = “la composante A est en panne et la composante B est en service”
[1, 0] = “la composante A est en service et la composante B est en panne”
[1, 1] = “les deux composantes sont en service”

(a) Obtenez la matrice infinitésimale de cette chaı̂ne de Markov.


(b) Dans le cas où (ηA , ηB , θA , θB ) = (2, 1, 1, 2), quelle est, à la longue, la proportion de temps
durant laquelle les deux composantes sont en service ?

Numéro 18. À l’exemple 1 de la section 7 nous avons obtenu les probabilités de transition P(t) de
la chaı̂ne de Markov à 2 états en solutionnant l’équation différentielle de Kolmogorov P ′ (t) = QP(t).
La solution est donnée à l’équation (7.29). Dans le cas particulier où µ = λ, cette solution prend la
forme suivante :
  !
1 1 −2λt 1 1 −2λt
P00 (t) P01 (t) 2 + 2e 2 − 2e
P(t) = = 1 1 −2λt 1 1 −2λt
(7.49)
P10 (t) P11 (t)
2 − 2e 2 + 2e

Montrez comment on peut obtenir le résultat (7.49) directement, en exploitant le fait que dans le
cas où µ = λ, les transitions de cette chaı̂ne de Markov surviennent comme un processus de Poisson
avec intensité λ. Indice : Partant de l’état 0, la chaı̂ne sera à l’état 0 au temps t si et seulement si
le nombre total de transitions durant l’intervalle de temps [0, t] est un nombre pair.

185
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Numéro 19. On considère à nouveau la chaı̂ne de Markov à temps continu sur un espace à deux
états. En suivant les étapes indiquées ci-dessous, obtenez l’équation (7.29) à partir de l’équation
(7.34).
(a) Vérifiez que la matrice Q de cette chaı̂ne de Markov peut être exprimée sous la forme
suivante :    
−λ λ −(µ + λ) 0
Q= =A A−1
µ −µ 0 0
 
λ 1
avec A = .
−µ 1
(b) Avec l’aide du résultat de la partie (a), calculez Qn .
(c) Avec l’aide du résultat de la partie (b) et de l’équation (7.34), obtenez l’équation (7.29).

Numéro 20. On considère le processus de Yule avec paramètre λ, disons (Xt ; t ≥ 0). On pose
Tn = min{t ≥ 0 : Xt = n}.
(a) Obtenez une expression simple pour E[Tn ].
E[Tn ]
(b) Obtenez limn→∞ log(n) .
(c) Obtenez la densité conditionnelle de T4 sachant X0 = 1 et tracez le graphe de cette densité.
Suggestion : On a T4 = V1 + V2 + V3 , avec Vi ∼ exponentielle(iλ), indépendantes les unes
des autres. Utilisez le théorème de la section 7.4.

186
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Chapitre 8

Le mouvement brownien

8.1 Introduction
On dit que le processus aléatoire (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine
si les conditions suivantes sont satisfaites :
(a) P[X0 = 0] = 1.
(b) Pour tout entier n > 1 et pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞,
les accroissements Xt1 − Xs1 , Xt2 − Xs2 , ..., Xtn − Xsn sont indépendants
(c) Pour tout choix de 0 ≤ s < t < ∞, on a Xt − Xs ∼ N (0, t − s).
(d) P[ la trajectoire t 7→ Xt est continue partout ] = 1.
Si la condition (a) est remplacée par
(a′ ) P[X0 = x∗ ] = 1
alors on dit que (Xt ; t ≥ 0) est un mouvement brownien standard issu du point x∗ . Comme pour
les chaı̂nes de Markov à temps continu, on écrira parfois X(t) plutôt que Xt .

Remarque 1. On peut démontrer qu’un tel processus existe. Plus précisément, on peut construire
un espace probabilisé (Ω, F, P) sur lequel on peut définir des variables aléatoires (Xt ; t ≥ 0) de
façon à ce que les conditions (a), (b), (c) et (d) soient satisfaites. Une démonstration rigoureuse de
ce résultat dépasserait le niveau du présent cours.

Remarque 2. On peut voir le mouvement brownien standard issu de l’origine comme étant une
version à temps continu de la marche aléatoire symétrique sur Z, issu de l’origine. En effet, si
(Wn ; n ≥ 0) est une telle marche aléatoire, alors la condition (a) est automatiquement satisfaite :
P[W0 = 0] = P 1. Pour voir que la condition (b) est satisfaite, notons qu’on peut écrire Wn sous la
forme Wn = nj=1 ηj où η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. avec P[ηj = −1] = 1/2 et
P[ηj = 1] = 1/2. Donc si on considère des entiers 0 ≤ k1 < ℓ1 ≤ k2 < ℓ2 ≤ · · · ≤ kn < ℓn < ∞, alors
les accroissements Wℓ1 − Wk1 , Wℓ2 − Wk2 , ..., Wℓn − Wkn sont des variables aléatoires indépendantes
puisque ce sont des fonctions de n groupes disjoints de variables aléatoires indépendantes :
ℓ1
X ℓ2
X ℓn
X
Wℓ1 − Wk 1 = ηj , Wℓ2 − Wk 2 = ηj , ··· , Wℓn − Wk n = ηj .
j=k1 +1 j=k2 +1 j=kn +1

L’analogue de la condition (b) est donc satisfaite. Quant à la condition


P (c), le théorème limite
central nous donne, pour tout choix de 0 ≤ k < ℓ < ∞, Wℓ − Wk = ℓj=k+1 ηj ≈ N (0, ℓ − k) dès
que ℓ − k est suffisamment grand puisque les ηj sont i.i.d. avec moyenne 0 et variance 1.

187
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Le mouvement brownien est un processus gaussien


Un processus gaussien (à temps continu) est un processus aléatoire (Yt ; t ≥ 0) qui est tel que pour
tout entier positif m et pour tout choix de réels positifs t1 , t2 , ..., tm , la distribution conjointe des
variables Yt1 , Yt2 , ..., Ytm est une loi normale à m dimensions. Rappelons que pour spécifier une
telle distribution, il suffit de spécifier les espérances et les variances et covariances des m variables.
À partir des conditions (b) et (c), on vérifie facilement que si (Xt ; t ≥ 0) est un mouvement
brownien standard issu de l’origine, alors pour tout entier positif m et pour tout choix de réels
positifs t1 , t2 , ..., tm , la distribution conjointe des variables Xt1 , Xt2 , ..., Xtm est la loi normale à m
dimensions avec
E[Xti ] = 0 et Var[Xti ] = ti pour tout i
et avec
Cov[Xti , Xtj ] = min{ti , tj } pour tout i 6= j. (8.1)
L’équation (8.1) peut être obtenue de la façon suivante. Fixons 0 ≤ s ≤ t < ∞. On obtient

E[Xs Xt ] = E[Xs (Xs + (Xt − Xs ))] = E[Xs2 + Xs (Xt − Xs )]


= E[Xs2 ] + E[Xs (Xt − Xs )] = E[Xs2 ] + E[Xs ] · E[Xt − Xs ]
= s + 0 = s.

Pour la quatrième égalité, on a utilisé la condition (b) (c’est-à-dire l’indépendance des accroisse-
ments du mouvement brownien) et pour la cinquième égalité on a utilisé la condition (c) (c’est-à-dire
le fait que les accroissements du mouvement brownien suivent des lois normales de moyenne 0 et
de variance égal à la longueur de l’intervalle). Donc dans le cas 0 ≤ s ≤ t < ∞ on obtient

Cov[Xs , Xt ] = E[Xs Xt ] − E[Xs ] E[Xt ] = s − 0 = s.

De même, dans le cas 0 ≤ t ≤ s < ∞ on obtient Cov[Xs , Xt ] = t. On a donc

Cov[Xs , Xt ] = min{s, t} pour tout s ≥ 0 et t ≥ 0.

Le mouvement brownien est un processus de Markov


Un processus de Markov (à temps continu) est un processus aléatoire (Yt ; t ≥ 0) qui satisfait la
propriété de Markov : pour tout choix de 0 ≤ s1 < s2 < · · · < sn−1 < s < ∞ et 0 < t < ∞, pour
tout réels y1 , y2 , ..., yn−1 , y et a < b,

P[a < Ys+t < b|Ys1 = y1 , Ys2 = y2 ..., Ysn−1 = yn−1 , Ys = y] = P[a < Ys+t < b|Ys = y].

Les probabilités de transition P[a < Ys+t < b|Ys = y] sont dites homogènes dans le temps si elles
ne dépendent pas de s. À partir des conditions (b) et (c), on vérifie facilement que le mouvement
brownien est un processus de Markov avec probabilités de transition homogènes dans le temps.
Plus précisément, si (Xt ; t ≥ 0) est un mouvement brownien standard, alors pour tout choix de
0 ≤ s1 < s2 < · · · < sn−1 < s < ∞ et 0 < t < ∞, pour tout réels x1 , x2 , ..., xn−1 , x et a < b, on a

P[a < Xs+t < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x] = P[a < Xs+t < b|Xs = x] (8.2)

et Z b
1 2
P[a < Xs+t < b|Xs = x] = √ e−(y−x) /2t dy. (8.3)
a 2πt

188
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Pour démontrer les propriétés (8.2) et (8.3), on procède comme suit :


P[a < Xs+t < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < Xs + (Xs+t − Xs ) < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < x + (Xs+t − Xs ) < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x]
= P[a < x + (Xs+t − Xs ) < b|(Xs1 − X0 ) = x1 , (Xs2 − Xs1 ) = x2 − x1 ..., (Xs − Xsn−1 ) = x − xn−1 ]
= P[a < x + (Xs+t − Xs ) < b]
Z b
1 2
= √ e−(y−x) /2t dy.
a 2πt

Dans le calcul ci-dessus, la quatrième égalité est une conséquence de la condition (b) (l’indépendance
des accroissements) et la cinquième égalité est une conséquence de la condition (c). En effet, la
condition (c) nous dit que la distribution de l’accroissement Xs+t − Xs est la loi N (0, t) et cela
implique que la distribution de la variable aléatoire x + (Xs+t − Xs ) est la loi N (x, t).

Le mouvement brownien est homogène dans l’espace


À partir de la définition, on vérifie facilement que si (Xt ; t ≥ 0) est un mouvement brownien
standard issu de x et si on pose Yt = y + Xt , alors le processus (Yt ; t ≥ 0) est un mouvement
brownien standard issu de y + x.

Ce résultat élémentaire est parfois appelé la propriété d’homogénéité dans l’espace.

8.2 Le distribution conditionnelle de Xs sachant Xt


On considère un mouvement brownien standard issu de l’origine, disons (Xt ; t ≥ 0), et on fixe
0 < s < t < ∞. À partir de la définition de mouvement brownien on obtient L(Xs ) = N (0, s) et
L(Xt |Xs = x) = L(x + (Xt − Xs )|Xs = x) = L(x + (Xt − Xs )) = N (x, t − s). On a donc
1 2
fXt (y) = √ e−y /2t
2πt
1 2
fXs (x) = √ e−x /2s
2πs
1 2
fXt |Xs = x (y) = p e−(y−x) /2(t−s) .
2π(t − s)

À partir de ces trois densités et de l’équation


fXs , Xt (x, y) fX (x)fXt |Xs = x (y)
fXs |Xt = y (x) = = s
fXt (y) fXt (y)
on obtient, après quelques simplifications,
!
1 (x − sy/t)2
fXs |Xt = y (x) = q exp − .
2π s(t−s) 2 s(t−s)
t
t

On a donc, pour tout 0 < s < t < ∞ et pour tout y ∈ R,


 
s s(t − s)
L(Xs |Xt = y) = N y, .
t t

189
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.3 Première visite à l’ensemble {a, b}


Le résultat suivant est l’analogue d’un résultat qu’on a obtenu au chapitre 3 pour la marche aléatoire
symétrique sur les entiers. Voir le cas p = 1/2 des théorèmes 3 et 4 du chapitre 3.
Théorème. Soit (Xt ; t ≥ 0), un mouvement brownien standard. Pour tout choix de −∞ < a <
b < ∞, on pose
Ta,b = min{t ≥ 0 : Xt ∈ {a, b}}.
Alors pour tout x ∈ [a, b] on a

P[Ta,b < ∞|X0 = x] = 1 (8.4)


x−a
P[XTa,b = b|X0 = x] = (8.5)
b−a
b−x
P[XTa,b = a|X0 = x] = (8.6)
b−a
E[Ta,b |X0 = x] = (x − a)(b − x). (8.7)

Démonstration de l’équation (8.4). Le résultat (8.4) se démontre de la même façon que le


résultat analogue pour la marche aléatoire sur les entiers présenté au chapitre 3. Les détails ne
seront pas répétés ici.

Démonstration des équations (8.5) et (8.6). Puisque L(Xt |X0 = x) = N (x, t) pour tout t ≥ 0,
on a
E[Xt |X0 = x] = x pour tout t ≥ 0. (8.8)
Il est donc raisonnable de penser que

E[XTa,b |X0 = x] = x. (8.9)

Le passage de (8.8) à (8.9) n’est pas complètement trivial. On peut le justifier en faisant appel à la
théorie des martingales. Nous y reviendrons à la section 8.7. Pour le moment, nous prenons pour
acquis le résultat (8.9). Puisque la variable aléatoire XTa,b est ou bien égale à a, ou bien égale à b,
l’équation (8.9) nous donne

a P[XTa,b = a|X0 = x] + b P[XTa,b = b|X0 = x] = x.

Par ailleurs on a
P[XTa,b = a|X0 = x] + P[XTa,b = x|X0 = x] = 1.
Lorsqu’on résout ce système de 2 équations à 2 inconnues, on obtient les résultats (8.5) et (8.6).

Démonstration de l’équation (8.7). Puisque L(Xt |X0 = x) = N (x, t) pour tout t ≥ 0, on a

E[(Xt − x)2 |X0 = x] = t pour tout t ≥ 0.

donc
E[(Xt − x)2 − t|X0 = x] = 0 pour tout t ≥ 0. (8.10)
Il est donc raisonnable de penser que

E[(XTa,b − x)2 − Ta,b |X0 = x] = 0, (8.11)

190
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

c’est-à-dire
E[Ta,b |X0 = x] = E[(XTa,b − x)2 |X0 = x]. (8.12)

À nouveau, le passage de l’équation (8.10) à l’équation (8.11) peut être justifié avec l’aide d’un
résultat de la théorie des martingales. Prenons pour acquis le résultat (8.12). Lorsqu’on calcule
l’espérance qui apparaı̂t sur le côté droit de cette équation, on obtient

E[Ta,b |X0 = x] = (a − x)2 P[XTa,b = a|X0 = x] + (b − x)2 P[XTa,b = b|X0 = x].

Les résultats (8.5) et (8.6) nous donne donc

b−x x−a
E[Ta,b |X0 = x] = (a − x)2 + (b − x)2 .
b−a b−a
Après simplifications, on obtient E[Ta,b |X0 = x] = (x − a)(b − x).

Le théorème précédent nous permet de voir qu’il y a une marche aléatoire symétrique sur Z cachée
dans notre mouvement brownien standard issu de l’origine. En effet, si on suppose que (Xt ; t ≥ 0)
est un mouvement brownien standard issu de l’origine et si on pose

T0 = 0
T1 = min{t ≥ T0 : Xt ∈ {XT0 − 1, XT0 − 1}}
T2 = min{t ≥ T1 : Xt ∈ {XT1 − 1, XT1 + 1}}
T3 = min{t ≥ T2 : Xt ∈ {XT2 − 1, XT2 + 1}}
etc.

alors la suite (XTn ; n ≥ 0) est une marche aléatoire symétrique sur Z. Ainsi plusieurs propriétés du
mouvement brownien peuvent être obtenues à partir de nos connaissances au sujet de la marche
aléatoire symétrique sur Z.

8.4 Première visite au point y


On suppose que (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine. On fixe y ∈ R
et on pose
Ty = min{t ≥ 0 : Xt = y}.
Le but de la présente section est d’obtenir la distribution de la variable aléatoire Ty . Voici d’abord
deux résultats préliminaires.
Proposition 1. Pour tout y ∈ R, on a P[Ty < ∞|X0 = 0] = 1.
Démonstration. Considérons le cas où y > 0. (Le cas y < 0 se traite de la même façon et le cas
y = 0 est trivial). On note que si y > 0 alors on a {Ty < ∞} = ∪∞ n=1 {XT−n,y = y}. La continuité
des probabilités et le théorème de la section 8.3 nous donne donc
n
P[Ty < ∞|X0 = 0] = lim P[XT−n,y = y|X0 = 0] = lim = 1.
n→∞ n→∞ n + y

191
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

Proposition 2. [Le principe de réflexion]. Pour tout t > 0 et y > 0, on a


1
P[Xt ≥ y|Ty ≤ t] = .
2

Idée de la démonstration. On se place au temps Ty . On a XTy = y. La propriété de Markov


nous dit qu’à partir du temps Ty , c’est comme si on partait à neuf, de l’état y. Par symétrie on a
alors
P[Xt ≥ y|Ty ≤ t] = P[Xt ≤ y|Ty ≤ t].
Puisque P[Xt = y|Ty ≤ t] = 0, on conclut que P[Xt ≥ y|Ty ≤ t] = 1/2.

La démonstration ci-dessus n’est pas rigoureuse. En réalité, ce n’est pas la simple propriété de
Markov qu’on utilise mais plutôt la propriété de Markov forte (puisque Ty est un temps aléatoire).
Pour rendre cette démonstration plus rigoureuse, il faudrait étudier la propriété de Markov forte,
comme à la section 4 du chapitre 2.

Théorème. Si (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine et si y > 0, alors
la densité de probabilité de la variable aléatoire Ty est donnée par
(
y√ −y 2 /2t
3/2 2π e si t > 0
fTy (t) = t (8.13)
0 si t ≤ 0

Démonstration. Pour tout t > 0 et y > 0 on obtient


1
P[Xt ≥ y] = P[(Xt ≥ y) ∩ (Ty ≤ t)] = P[Xt ≥ y|Ty ≤ t] P[Ty ≤ t] = P[Ty ≤ t]
2
Pour la troisième égalité, on a utilisé le principe de réflexion. On obtient donc
√ √ √
P[Ty ≤ t] = 2 P[Xt ≥ y] = 2 P[Xt / t ≥ y/ t] = 2(1 − Φ(y/ t)).

La densité de la variable Ty est donc


 y √
t3/2
φ(y/ t) si t > 0
fTy (t) = (8.14)
0 si t ≤ 0

Ici Φ(x) et φ(x) dénotent, respectivement, la fonction de répartition et la densité de probabilité de


2
la loi N (0, 1). Puisque φ(x) = √12π e−x /2 , l’équation (8.14) est équivalente à l’équation (8.13).

À partir de ce théorème on montre facilement que E[Ty ] = ∞. On aurait pu obtenir ce résultat à


partir du résultat analogue pour la marche aléatoire symétrique sur Z et du résultat énoncé à la
fin de la section 8.3.
Exercice. C’est bien de savoir que E[Ty ] = ∞ mais ça ne nous donne pas une bonne idée des
valeurs typiques que la variable Ty peut prendre. Pour avoir une meilleure idée, l’étudiant devrait
tracer le graphe de la densité de probabilité fTy (t). Il devrait aussi vérifier que
(a) la valeur modale de la densité fTy (t) est y 2 /3,
(b) la médiane de la densité fTy (t) est y 2 /(Φ−1 (3/4))2 .

192
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.5 Le maximum du mouvement brownien sur [0, t]


Comme à la section précédente, on suppose que (Xt ; t ≥ 0) est un mouvement brownien standard
issu de 0. Cette fois-ci, on fixe t > 0 et on pose

Mt = max Xs .
0≤s≤t

Calculons la distribution de Mt . Pour y > 0, on a

P[Mt < y] = P[Ty > t] = 1 − P[Ty ≤ t].


√ 
À la section précédente on a obtenu P[Ty ≤ t] = 2 1 − Φ(y/ t) . On a donc

P[Mt < y] = 2Φ(y/ t) − 1.

On en déduit la densité de Mt :
( 2 /2t
√2 e−y si y ≥ 0
fMt (y) = 2πt
0 si y < 0.

On reconnaı̂t ici la densité de la valeur absolue d’une N (0, t). On a donc démontré le résultat
suivant :

Théorème. Si Mt dénote le maximum, sur l’intervalle [0, t], d’un mouvement brownien standard
issu de l’origine, alors L(Mt ) = |N (0, t)|.

p
Exercice : Montrez que E[Mt ] = 2t/π.

8.6 Transformations du mouvement brownien


Tout au long de la présente section, on suppose que (Xt ; t ≥ 0) est un mouvement brownien standard
issu de 0 et on considère différents processus stochastiques obtenus à partir de ce mouvement
brownien standard.

8.6.1 Mouvement brownien avec paramètre de dérive et paramètre de diffusion


On fixe x ∈ R, µ ∈ R et σ > 0. On pose

Yt = x + µt + σXt .

Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien issu de x, avec paramètre de dérive µ
et paramètre de diffusion σ 2 . La section 8.8 sera consacrée à ce processus aléatoire important.

8.6.2 Mouvement brownien et changement d’échelle


On fixe c > 0 et on pose
1
Yt = √ Xct .
c
Exercice : Montrez que le processus (Yt ; t ≥ 0) est un mouvement brownien standard.

193
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.6.3 Mouvement brownien et inversion du temps


On pose 
tX1/t si t > 0
Yt =
0 si t = 0.
Exercice : Montrez que le processus (Yt ; t ≥ 0) est un mouvement brownien standard.

8.6.4 Mouvement brownien géométrique


On fixe x ∈ R, µ ∈ R et σ > 0. On pose

Yt = exp (x + µt + σXt ) .

Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien géométrique. On peut écrire Yt sous la
forme
Yt = C exp (µt + σXt )
avec C = ex . Le mouvement brownien géométrique est un processus de Markov positif à trajectoires
continues. Ce n’est pas un processus gaussien. C’est parfois un bon modèle pour décrire l’évolution
de la valeur d’un titre boursier. La section 8.9 sera consacrée à ce processus aléatoire important.
Exercice : Montrez que si (Yt ; t ≥ 0) est un mouvement brownien géométrique comme ci-dessus,
alors pour s < t on a

E[Yt |(Yu ; 0 ≤ u ≤ s)] = Ys exp µ(t − s) + σ 2 (t − s)/2 .

8.6.5 Le processus de Ornstein-Uhlenbeck


On fixe α > 0 et on pose
Yt = e−αt/2 X(eαt ).
Ce processus aléatoire (Yt ; t ≥ 0) est appelé un processus de Ornstein-Uhlenbeck avec paramètre
α. On vérifie facilement que
(a) (Yt ; t ≥ 0) est un processus de Markov.
(b) (Yt ; t ≥ 0) est un processus à trajectoires continues.
(c) (Yt ; t ≥ 0) est un processus gaussien.
(d) (Yt ; t ≥ 0) est un processus stationnaire :
pour tout choix de 0 < s1 < s2 < · · · < sm et t ≥ 0, on a

L(Ys1 +t , Ys2 +t , ..., Ysm +t ) = L(Ys1 , Ys2 , ..., Ysm ).

Notez que Yt ∼ N (0, 1) pour tout t ≥ 0. On a donc E[Yt ] = 0 et Var[Yt ] = 1 pour tout t ≥ 0. Un
calcul élémentaire montre que pour tout s ≥ 0 et t ≥ 0 on a

Cov[Ys , Yt ] = e−α|t−s| .

194
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.6.6 Le mouvement brownien intégré


Rt
On pose It = 0 Xs ds. Le processus aléatoire (It ; t ≥ 0) s’appelle un mouvement brownien intégré.
Il s’agit d’un processus à trajectoires continues et dérivables. Si on écrit It comme une limite de
sommes de Riemann, par exemple
Z t n
tX
It = Xs ds = lim Xkt/n ,
0 n→∞ n
k=1

alors on constate que la loi de It est une loi normale puisque chaque somme de Riemann suit une
loi normale (puisque cette somme est une combinaison linéaire de variables aléatoires dont la loi
conjointe est une loi normale multivariée). Calculons l’espérance et la variance de It . On obtient
Z t  Z t Z t
E[It ] = E Xs ds = E[Xs ] ds = 0 ds = 0.
0 0 0

et
"Z 2 #
t
Var[It ] = E[It2 ] = E Xs ds
0
Z t  Z t  Z t Z t 
= E Xr dr Xs ds = E Xr Xs dr ds
0 0 0 0
Z tZ t Z tZ t
= E[Xr Xs ]dr ds = min{r, s} dr ds
0 0 0 0
Z tZ s
= 2 r dr ds = t3 /3.
0 0

On a donc It ∼ N (0, t3 /3).

À l’aide du truc des limites de sommes de Riemann, on peut aussi montrer que pour tout choix
de réels positifs t1 , t2 , ..., tn la distribution conjointe des variables It1 , It2 , ..., Itn est une loi normale
multivariée. Le processus (It ; t ≥ 0) est donc un processus gaussien. Le calcul de sa fonction de
covariance est laissé en exercice.

Exercice. Montrez que, pour tout 0 ≤ s ≤ t < ∞, on a Cov[Is , It ] = s2 (3t − s)/6.

Exercice. Obtenez la distribution conditionnelle de Is+t sachant Is = y.

8.6.7 Le pont brownien


Un pont brownien standard est un processus (Yt ; 0 ≤ t ≤ 1) qui satisfait les propriétés suivantes :
(a) P[Y0 = Y1 = 0] = 1.
(b) C’est un processus gaussien.
(c) C’est un processus à trajectoires continues.
(d) L(Yt ) = N (0, t(1 − t)) pour tout 0 ≤ t ≤ 1.
(e) Cov[Ys , Yt ] = min{s, t}(1 − max{s, t}).

195
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

On montre facilement que si (Xt ; t ≥ 0) est un mouvement brownien standard issu de 0 et si on


pose Yt = Xt − tX1 , alors le processus (Yt ; 0 ≤ t ≤ 1) est un pont brownien standard.

Le résultat suivant est utile en statistique. Il est mentionné ici pour votre culture générale mais sa
démonstration dépasse le cadre de ce cours et sera donc omise.

Théorème. Soit (Yt ; 0 ≤ t ≤ 1), un pont brownien standard. Posons W = max0≤t≤1 |Yt |. Alors la
fonction de répartition de W est donnée par
 ∞
 X 2 2
 1−2 (−1)k+1 e−2k w si w > 0,
FW (w) =
 k=1

0 si w ≤ 0.

Application 1. On peut montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d. avec
fonction de répartition continue F∗ (x) et si

Dn = sup |Fn (x) − F∗ (x)| ,


x∈R

où Fn (x) dénote la fonction de répartition empirique, alors


√ L
n Dn −→ W

où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn est appelée la statistique de Kolmogorov et Smirnov et elle peut être utilisée pour tester
H0 : F = F∗ contre H1 : F 6= F∗ lorsqu’on suppose que X1 , X2 , X3 , ..., Xn sont i.i.d. avec fonction
de répartition F (x) et qu’on souhaite tester si F (x) = F∗ (x), pour une fonction de répartition
continue F∗ (x) complètement spécifiée.

Application 2. On peut aussi montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d.
avec fonction de répartition continue F (x) et si Y1 , Y2 , Y3 , ..., Ym sont des variables aléatoires i.i.d.
avec fonction de répartition continue G(x), les Yj indépendantes des Xi , et si

Dn,m = sup |Fn (x) − Gm (x)| ,


x∈R

où Fn (x) et Gn (x) dénote respectivement la fonction de répartition empirique associée aux Xi et
la fonction de répartition empirique associée aux Yj , alors
r
mn L
Dn,m −→ W
m+n

où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn,m est appelée la statistique de Kolmogorov et Smirnov pour le problème à deux
échantillons et elle peut être utilisée pour tester H0 : F = G contre H1 : F 6= G.

196
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.7 Martingales
La notion de martingale joue un rôle important en théorie des probabilité, en particulier dans
les applications de la théorie des probabilités en mathématiques financières. Voici une définition
suffisamment générale pour les besoins du présent cours.
Définition. Soient (Mt ; t ≥ 0) et (Xt ; t ≥ 0), des processus aléatoires. On dit que le processus
(Mt ; t ≥ 0) est une martingale par rapport au processus (Xt ; t ≥ 0) si les conditions suivantes sont
satisfaites :
(a) E[|Mt |] < ∞ pour tout 0 ≤ t < ∞.
(b) Si on connaı̂t (Xu ; 0 ≤ u ≤ t), alors on connaı̂t Mt . Autrement dit, Mt est une fonction de
(Xu ; 0 ≤ u ≤ t).
(c) Pour tout 0 ≤ s ≤ t < ∞ on a E[Mt |Xu , 0 ≤ u ≤ s] = Ms .

Supposons maintenant que (Xt ; t ≥ 0) soit un mouvement brownien standard issu de l’origine. Voici
trois exemples de processus aléatoires qui sont des martingales par rapport à (Xt ; t ≥ 0).
1. Le processus (Xt ; t ≥ 0) lui-même.
2. Le processus (Xt2 − t; t ≥ 0).
3. Le processus (exp(cXt − c2 t/2); t ≥ 0).
Pour le troisième exemple, la constante c est un nombre réel quelconque.

Proposition. Si (Mt ; t ≥ 0) est une martingale (par rapport à un certain processus (Xt ; t ≥ 0)),
alors E[Mt ] ne dépend pas de t. On a donc

E[Mt ] = E[M0 ] pour tout t ≥ 0. (8.15)

Démonstration. Il suffit de calculer E[Mt ] en conditionnant sur X0 et d’appliquer la propriété (c)


avec s = 0. On obtient
E[Mt ] = E[E[Mt |X0 ]] = E[M0 ].

Sous certaines conditions, on peut remplacer le temps fixe t par un temps aléatoire T dans l’équation
(8.15) ci-dessus. C’est ce que nous avons fait à la section 8.3 et c’est ce que nous ferons à la
section suivante. Afin de pouvoir énoncer un résultat précis à cet effet, voici d’abord une définition
importante.

Définition. On dit que la variable aléatoire non négative T est un temps d’arrêt pour le processus
aléatoire (Xt ; t ≥ 0) si la condition suivante est satisfaite : pour tout t ≥ 0, l’événement {T ≤ t}
est une fonction de (Xs ; 0 ≤ s ≤ t). Autrement dit, après avoir observé (Xs ; 0 ≤ s ≤ t), on sait si
on a T ≤ t ou si on a T > t.

Le théorème suivant ne sera pas énoncé de façon précise et ne sera pas démontré.

Théorème. Si (Mt ; t ≥ 0) est une martingale par rapport à un certain processus (Xt ; t ≥ 0) et si
T est un temps d’arrêt par rapport à ce processus (Xt ; t ≥ 0), alors, sous certaines conditions de
régularité et d’intégrabilité, on a
E[MT ] = E[M0 ]. (8.16)

197
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.8 Le mouvement brownien avec dérive


8.8.1 Distribution de sortie pour le mouvement brownien avec dérive
On suppose ici que (Yt ; t ≥ 0) est un mouvement brownien issu de 0, avec coefficient de dérive µ
et coefficient de diffusion σ 2 . On souhaite généraliser les résultats obtenus à la section 8.3. Pour
alléger la présentation on suppose ici que Y0 = 0. On a donc Yt = σXt + µt où (Xt ; t ≥ 0) est un
mouvement brownien standard issu de l’origine. On fixe a > 0 et b > 0 et on pose
T(−a,b) = min{t ≥ 0 : Yt ∈ {−a, b}}.
La variable aléatoire T(−a,b) est donc le temps de sortie de l’intervalle (−a, b). On souhaite obtenir
la distribution de sortie de l’intervalle (−a, b) c’est-à-dire la distribution de YT(−a,b) . Autrement dit,
on veut calculer
P[YT(−a,b) = b] et P[YT(−a,b) = −a].
D’après la section 8.7, pour tout choix de la constante c, le processus
 
exp c(Yt − µt)/σ − c2 t/2 ; t ≥ 0
est une martingale par rapport à (Xt ; t ≥ 0). En particulier, si on prend c = −2µ/σ, alors on
conclut que le processus 
exp(−2µYt /σ 2 ); t ≥ 0
est une martingale par rapport à (Xt ; t ≥ 0). La variable aléatoire T(−a,b) étant un temps d’arrêt
par rapport à (Xt ; t ≥ 0), le théorème de la section 8.7 nous donne
h i
E exp(−2µYT(−a,b) /σ 2 ) = 1
c’est-à-dire
2 2
e−2µb/σ P[YT(−a,b) = b] + e2µa/σ P[YT(−a,b) = −a] = 1.
On a également
P[YT(−a,b) = b] + P[YT(−a,b) = −a] = 1.
Dans le cas où µ 6= 0, on solutionne ce système de 2 équations à 2 inconnues et on obtient
2
1 − e2µa/σ
P[YT(−a,b) = b] =
e−2µb/σ2 − e2µa/σ2
2
e−2µb/σ − 1
P[YT(−a,b) = −a] = .
e−2µb/σ2 − e2µa/σ2
Dans le cas où µ = 0 (avec σ 2 > 0 quelconque), on procède comme à la section 8.3 et on obtient
a
P[YT(−a,b) = b] =
a+b
b
P[YT(−a,b) = −a] = .
a+b

Exercice. Montrez que 


 1 si µ > 0,
lim P[YT(−b,b) = b] = 1/2 si µ = 0,
b→∞ 
0 si µ < 0.

Exercice. Montrez que peu importe la valeur de µ on a


lim P[YT(−b,b) = b] = 1/2.
b→0

198
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.8.2 Espérance du temps de sortie pour le mouvement brownien avec dérive


On reprend le scénario de la section 8.8.1. On souhaite obtenir E[T(−a,b) ].

Le cas où µ = 0
Dans le cas où µ = 0, le processus (Yt /σ; t ≥ 0) est un mouvement brownien standard issu de 0.
On utilise la martingale ((Yt /σ)2 − t; t ≥ 0) et on conclut que
" #
YT(−a,b) 2

E − T(−a,b) = 0
σ

donc
1
E[T(−a,b) ] = E[(YT(−a,b) )2 ]
σ2
1  2 2

= b P[Y T = b] + a P[Y T = −a]
σ2  (−a,b)

(−a,b)

1 a b ab
= 2
b2 + a2 = 2
σ a+b a+b σ

Le cas où µ 6= 0
Dans le cas où µ 6= 0, le processus ((Yt − µt)/σ; t ≥ 0) est un mouvement brownien standard issu
de 0, donc une martingale d’espérance 0. On utilise cette martingale et on conclut que

E[(YT(−a,b) − µT(−a,b) )/σ] = 0

donc
1
E[T(−a,b) ] = E[YT(−a,b) ]
µ
1  
= b P[YT(−a,b) = b] − a P[YT(−a,b) = −a]
µ
2 2
b(1 − e2µa/σ ) − a(e−2µb/σ − 1)
= .
µ(e−2µb/σ2 − e2µa/σ2 )

Exercice. Si on prend la limite quand µ → 0 dans le résultat ci-dessus, est-ce qu’on obtient le
résultat de la section 8.3 ?

Exercice. Vérifiez que si µ > 0 et si a et b sont très grand, alors E[T(−a,b) ] ≈ b/µ. Autrement dit,

E[T(−a,b) ] 1
lim
a→∞
= .
b→∞
b µ

Exercice. Quelle est l’intuition derrière le résultat de l’exercice précédent ? Autrement dit, com-
ment aurait-on pu deviner ce résultat ?

199
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.8.3 Le maximum du mouvement brownien avec dérive négative


On considère (Yt ; t ≥ 0), un mouvement brownien issu de 0 avec coefficient de dérive µ < 0 et avec
coefficient de diffusion σ 2 > 0. On pose M = max0≤t<∞ Yt et on demande la distribution de M .

Fixons y > 0. Pour tout entier n ≥ 1, écrivons En pour dénoter l’événement le mouvement brownien
(Yt ; t ≥ 0) frappe l’état −n avant de frapper l’état y. On obtient alors

P[M < y] = P [∩∞


n=1 En ] = lim P[En ]
n→∞
= lim P[YT(−n,y) = −n]
n→∞
2
e−2µy/σ − 1
= lim −2µy/σ2
n→∞ e − e2µn/σ2
2
e−2µy/σ − 1 2
= = 1 − e2µy/σ
e−2µy/σ2
On conclut que M ∼ exponentielle(λ), avec λ = −2µ/σ 2 . (Ce λ est bel et bien positif puisqu’on
suppose que µ < 0).

Exercice. Obtenez le résultat analogue pour la marche aléatoire


Pn sur Z avec dérive négative, c’est-
à-dire la marche aléatoire (Sn ; n ≥ 0) définie par Sn = j=1 ηj où les variables η1 , η2 , η3 , ... sont
i.i.d. avec P[ηj = 1] = p et P[ηj = −1] = 1 − p pour un certain 0 < p < 1/2.

8.9 Le mouvement brownien géométrique


On suppose que (Yt ; t ≥ 0) est un mouvement brownien géométrique issu de C et avec paramètres
µ et σ 2 . Voir la section 8.6.4 pour la définition. Ici µ est un nombre réel quelconque et C et σ 2 sont
des réels strictement positifs. Un tel mouvement brownien géométrique peut toujours s’écrire sous
la forme
Yt = C exp(µt + σXt )
où (Xt ; t ≥ 0) est un mouvement brownien standard issu de 0.

8.9.1 La loi log-normale


Pour t > 0, la loi de Yt s’appelle la loi log-normale (puisque la loi de log(Yt ) est une loi normale).
On peut écrire une expression pas trop compliquée pour la densité de Yt mais ce n’est rien de très
utile car pour calculer des probabilités concernant la loi log-normale, on se ramène tout simplement
à la loi normale.

Exemple. On suppose que (Yt ; t ≥ 0) est un mouvement brownien géométrique issu de 2 et avec
paramètres µ = 1/3 et σ 2 = 4. Calculons P[Y9 ≤ 800]. On obtient ceci :

P[Y9 ≤ 800] = P[2 exp(3 + 2X9 ) ≤ 800]


= P[3 + 2X9 ≤ log(400)] avec 3 + 2X9 ∼ N (3, 36)
 
log(400) − 3
= Φ = Φ(0.4986) = 0.6910.
6

200
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.9.2 Le maximum du mouvement brownien géométrique avec µ < 0


Dans le cas où µ < 0, on a vu à la section 8.8.3 que le maximum, disons M , du mouvement brownien
µt + σXt suit la loi exponentielle(λ) avec λ = −2µ/σ 2 = 2|µ|/σ 2 . Posons

M ∗ = max Yt = max C exp(µt + σXt ).


0≤t<∞ 0≤t<∞

Pour tout y > C, on obtient

P[M ∗ ≤ y] = P[ max C exp(µt + σXt ) ≤ y]


0≤t<∞
= P[C exp( max (µt + σXt )) ≤ y]
0≤t<∞
= P[ max (µt + σXt ) ≤ log(y/C)]
0≤t<∞
= 1 − exp(−λ log(y/C))
 λ  2|µ|/σ2
C C
= 1− = 1− .
y y

La densité de probabilité de M ∗ est donc la loi de Pareto donnée par



 2|µ|  C 1+ 2|µ|
σ2
fM ∗ (y) = Cσ2 y si y ≥ C
 0 si y < C.

8.9.3 Le minimum du mouvement brownien géométrique avec µ > 0


Dans le cas où µ > 0, le résultat de la section 8.8.3 nous permet de conclure que le négatif du
minimum du mouvement brownien µt + σXt suit la loi exponentielle(λ) avec λ = 2µ/σ 2 . Posons

M∗ = min Yt = min C exp(µt + σXt ).


0≤t<∞ 0≤t<∞

Pour tout 0 < y < C, on obtient

P[M∗ ≤ y] = P[ min C exp(µt + σXt ) ≤ y]


0≤t<∞
= P[C exp( min (µt + σXt )) ≤ y]
0≤t<∞
= P[ min (µt + σXt )) ≤ log(y/C)]
0≤t<∞
= P[− min (µt + σXt )) ≥ − log(y/C)]
0≤t<∞
= P[− min (µt + σXt )) ≥ log(C/y)]
0≤t<∞
2
= exp(−λ log(C/y)) = (C/y)−λ = (y/C)λ = (y/C)2µ/σ .

La densité de M∗ est donc


( 2µ
2µ y  σ 2 −1
fM∗ (y) = Cσ2 C si 0 < y < C
0 sinon.

En particulier, si σ 2 = 2µ, alors M∗ suit la loi uniforme sur l’intervalle (0, C).

201
Claude Bélisle
Université Laval
STT-4700
Hiver 2021

8.10 Les exercices du chapitre 8


Numéro 0. Faites les 12 exercices qui apparaissent tout au long du chapitre 8.
Numéro 1. On suppose que (Bt ; t ≥ 0) est un mouvement brownien standard.
(a) Calculez P[Bt ≤ 1 pour tout 0 ≤ t ≤ 1|B0 = 0].
(b) Calculez P[B4 > 0|B2 = −1].
(c) Calculez P[B4 > 0|B0 = 0 et B2 > 0].
Numéro 2. Soit (Xt ; t ≥ 0), un mouvement brownien avec coefficient de dérive µ = 1/5 et
coefficient de diffusion σ 2 = 2. On pose T = min{t ≥ 0 : |Xt | = 4}.
(a) Calculez P[XT = 4|X0 = 0].
(b) Trouvez le x∗ entre -4 et 4 pour lequel on a P[XT = 4|X0 = x∗ ] = 1/2.
Numéro 3. Soit (Xt ; t ≥ 0), un mouvement brownien issu de l’état 3, avec coefficient de dérive
µ = 1/5 et coefficient de diffusion σ 2 = 2. Calculez la probabilité que ce mouvement brownien ne
frappera jamais l’origine.
Numéro 4. Soit (Xt ; t ≥ 0), un mouvement brownien issu de l’origine, avec coefficient de dérive
µ et coefficient de diffusion σ 2 . On a simulé ce mouvement brownien à 800 reprises. Pour chacune
de ces 800 répétitions, on a mesuré le temps que ça a pris pour que le processus frappe l’ensemble
{−2, 2} et on a noté lequel des états -2 et 2 a été atteint en premier. Voici nos résultats :
• Temps moyen requis pour atteindre {−2, 2} : 4.853 unités de temps.
• Nombre de fois qu’on a atteint 2 avant d’atteindre -2 : 623 fois.
Expliquez comment on peut estimer µ et σ 2 à partir de ces observations.
Numéro 5. Soit (Xt ; t ≥ 0) et (Yt ; t ≥ 0), deux mouvements browniens standards indépendants
l’un de l’autre, le premier issu de 0 et le deuxième issu de y∗ > 0. On pose T = min{t√≥ 0 : Xt = Yt }.
Obtenez la densité de T et l’espérance de T . Indice : Si on pose Zt = (y∗ + Xt − Yt )/ 2, que peut-on
dire du processus (Zt ; t ≥ 0) ?
Numéro 6. Soit (Xt ; t ≥ 0), un mouvement brownien avec coefficient de dérive µ = 1 et coefficient
de diffusion σ 2 = 9. Calculez Z 1 

P Xt dt ≤ 3 X0 = 2 .

0

Numéro 7. Si (Xt ; t ≥ 0) est un mouvement brownien issu de xo , avec coefficient de dérive µ1


et coefficient de diffusion σ12 , si (Yt ; t ≥ 0) est un mouvement brownien issu de yo , avec coefficient
de dérive µ2 et coefficient de diffusion σ22 , si (Xt ; t ≥ 0) et (Yt ; t ≥ 0) sont indépendants l’un de
l’autre et si on pose Zt = a + bt + cXt + dYt , que peut-on dire du processus (Zt ; t ≥ 0) ?

202
Claude Bélisle
Université Laval

Vous aimerez peut-être aussi