Académique Documents
Professionnel Documents
Culture Documents
Hiver 2021
STT-4700
Processus aléatoires
Hiver 2021
Claude Bélisle
Professeur titulaire
Département de mathématiques et de statistique
Université Laval
belisle@mat.ulaval.ca
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Avant-propos
Cet ouvrage est utilisé comme manuel de référence pour le cours STT-4700 Processus aléatoires of-
fert par le Département de mathématiques et de statistique de l’Université Laval. Ce cours s’adresse
principalement aux étudiants des programmes de baccalauréat en mathématiques, de baccalauréat
en statistique et de baccalauréat intégré en économie et mathématiques. Il est normalement offert à
la session d’hiver. Le préalable pour le cours STT-4700 Processus aléatoires est le cours STT-1500
Probabilités.
Claude Bélisle
Hiver 2021
i
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
ii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Avant-propos i
3 Marches aléatoires 57
3.1 La marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 La marche aléatoire sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3 La marche aléatoire sur {0, 1, 2, ..., m} . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 La marche aléatoire sur N0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5 Retour sur la marche aléatoire sur Z . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Marche aléatoire sur un graphe simple connexe . . . . . . . . . . . . . . . . . . . . . 68
3.7 Les exercices du chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
iii
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
5 Processus de branchement 97
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 L’espérance et la variance de Xn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3 La fonction génératrice des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.4 La probabilité de disparition de la population . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Quelques généralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.6 Les exercices du chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
iv
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
v
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 1
Probabilité conditionnelle et
espérance conditionnelle
La réponse est donc 11/36. Maintenant, je lance les dés et je vous annonce que j’ai obtenu un total
égal à 8. Étant donnée cette information, quelle est la probabilité que j’aie obtenu au moins une
fois la valeur six ? Pour résoudre ce problème, on note d’abord qu’il y a 5 résultats possibles pour
lesquels le total est égal à 8. Ce sont les 5 résultats suivants :
Parmi ces 5 résultats possibles, il y en a 2 pour lesquels il y a un six : le résultat (2, 6) et le résultat
(6, 2). La réponse est donc 2/5. Examinons notre démarche d’un peu plus près. Posons
1
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
et notons que
A ∩ B = {(2, 6), (6, 2)}.
Notre réponse 2/5 peut donc être écrite sous la forme
2 2/36 P[A ∩ B]
= = .
5 5/36 P[B]
Cet exemple motive la définition suivante :
La figure 1 illustre cette définition. Sachant que l’événement B s’est réalisé, la probabilité que
l’événement A se soit réalisé est égale à la probabilité de l’intersection A ∩ B (région ombragée)
divisée par la probabilité de B (région encerclée par une ligne épaisse).
On reconnaı̂t ici les trois axiomes de Kolmogorov. Ce théorème nous dit donc que si on fixe B, alors
la fonction qui associe à chaque événement A la probabilité conditionnelle P[A|B] est une mesure
de probabilité sur Ω. Il s’ensuit que toutes les propriétés usuelles des probabilités sont également
valides pour les probabilités conditionnelles. Par exemple, on a
2
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P[A ∩ B]
P[A|B] =
P[B]
pour calculer la probabilité conditionnelle P[A|B]. Mais souvent ce sont la probabilité conditionnelle
P[A|B] et la probabilité P[B] qui sont ou bien données ou bien faciles à calculer. On peut alors
calculer P[A ∩ B] à l’aide de la règle de multiplication :
Les rôles de A et B étant symétriques dans l’expression P[A ∩ B], on peut aussi écrire la règle de
multiplication sous la forme
P[A ∩ B] = P[A] P[B|A]. (1.1)
Dans la pratique, ce sont les données du problème qui nous indiquent laquelle des deux équations
précédentes utiliser. Souvent il y a un ordre chronologique qui dicte notre choix.
Exemple 1. Un panier contient cinq boules noires et trois boules blanches. On tire deux boules
au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir une boule noire au
premier tirage et une boule blanche au deuxième ?
Solution. Si on pose
alors la probabilité désirée est simplement P[A ∩ B]. Une application de la règle de multiplication
nous donne
5 3 15
P[A ∩ B] = P[A] P[B|A] = × = .
8 7 56
Une généralisation élémentaire de la règle de multiplication nous permet de traiter les intersections
de plus de deux événements. Considérons par exemple le cas d’une intersection de trois événements,
disons A ∩ B ∩ C. En conditionnant sur A ∩ B on obtient
3
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En combinant ces deux dernières équations, on obtient la règle de multiplication pour l’intersection
de trois événements :
P[A ∩ B ∩ C] = P[A] P[B|A] P[C |A ∩ B].
De la même façon on peut traiter le cas général :
La règle de multiplication :
avec la convention que ∩0i=1 Ei = Ω, de sorte que le premier terme dans le produit ci-dessus est
P[E1 | ∩0i=1 Ei ] = P[E1 |Ω] = P[E1 ].
Exemple 2. Un panier contient cinq boules bleues, six boules blanches et sept boules rouges. On
tire quatre boules au hasard et sans remise à partir du panier. Quelle est la probabilité d’obtenir
quatre boules de la même couleur ?
Solution. Si on pose
4
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 3. Dans l’entrepôt d’une certaine usine de fabrication de clous, 50% des clous ont été
fabriqués par la machine I, 30% par la machine II et 20% par la machine III. Parmi les clous
fabriqués par la machine I, 3% sont défectueux. Parmi ceux fabriqués par la machine II, 5% sont
défectueux et parmi ceux fabriqués par la machine III, 8% sont défectueux. Quelle est la proportion
de clous défectueux dans l’entrepôt de cette usine ? Autrement dit, si on choisit un clou au hasard
dans l’entrepôt, quelle est la probabilité d’obtenir un clou défectueux ?
Les informations qui nous sont données dans l’énoncé du problème se traduisent alors de la façon
suivante :
P[A] = P[A ∩ Ω]
= P[A ∩ (E1 ∪ E2 ∪ E3 )]
= P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]
Dans cette série d’équations, on a d’abord utilisé le fait que les événements E1 , E2 et E3 sont
exhaustifs, c’est-à-dire E1 ∪ E2 ∪ E3 = Ω. On a donc A = A ∩ Ω = A ∩ (E1 ∪ E2 ∪ E3 ) =
(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) et donc P[A] = P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )]. L’égalité
suivante vient du fait que les événements E1 , E2 et E3 sont mutuellement exclusifs, c’est-à-dire
E1 ∩ E2 = E2 ∩ E3 = E1 ∩ E3 = ∅. Il s’ensuit que les événements A ∩ E1 , A ∩ E2 et A ∩ E3 sont
aussi des événements mutuellement exclusifs et le troisième axiome de Kolmogorov nous donne
P[(A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 )] = P[A ∩ E1 ] + P[A ∩ E2 ] + P[A ∩ E3 ]. Pour l’égalité suivante, on a
simplement utilisé la règle de multiplication. Enfin, pour terminer le calcul on a simplement utilisé
5
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
les informations contenues dans l’énoncé du problème. Ce type de problème est souvent rencontré
en pratique et l’équation
Rappelons que E1 , E2 , ..., En sont des événements mutuellement exclusifs s’ils sont disjoints deux à
deux, c’est-à-dire si on a Ei ∩ Ej = ∅ pour tout i 6= j. Rappelons aussi que E1 , E2 , ..., En sont des
événements exhaustifs si on a E1 ∪ E2 ∪ · · · ∪ En = Ω. Dire que E1 , E2 , ..., En sont des événements
mutuellement exclusifs et exhaustifs est équivalent à dire que lorsque notre expérience aléatoire
sera réalisée, un et un seul des événements E1 , E2 , ..., En se réalisera. En langage ensembliste, on
dit que les ensembles E1 , E2 , ..., En forment une partition de l’ensemble Ω.
Le diagramme de Venn de la figure 2 illustre la loi des probabilités totales dans le cas particulier
où l’ensemble Ω est partitionné en cinq morceaux.
La loi des probabilités totales est également valide dans le cas où on est en présence d’une col-
lection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs. Voici un exemple
élémentaire pour illustrer ce cas.
Exemple 4. On lance une pièce de monnaie jusqu’à ce qu’on obtienne une pile. Puis, on lance
un dé un nombre de fois égal au nombre de fois qu’on a lancé la pièce de monnaie. Quelle est la
probabilité d’obtenir au moins un six avec le dé ?
Solution. Posons
6
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P[A|E1 ] P[E1 ]
=
P[A]
P[A|E1 ] P[E1 ]
=
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]
(0.03)(0.50)
=
(0.03)(0.50) + (0.05)(0.30) + (0.08)(0.20)
15
= ≈ 0.3261.
46
Dans ce calcul, la première égalité est simplement la définition de probabilité conditionnelle. Pour
la deuxième égalité, on a utilisé la règle de multiplication en conditionnant sur E1 . Enfin, pour la
troisième égalité on a utilisé la loi des probabilités totales.
De la même façon on peut calculer P[E2 |A] et P[E3 |A]. On obtient alors, pour i ∈ {1, 2, 3},
P[A|Ei ] P[Ei ]
P[Ei |A] = .
P[A|E1 ]P[E1 ] + P[A|E2 ]P[E2 ] + P[A|E3 ]P[E3 ]
7
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce type de problème est souvent rencontré en pratique et l’équation précédente est un cas particulier
du théorème suivant.
Tout comme la loi des probabilités totales, le théorème de Bayes est également valide dans le cas
où on a une collection infinie dénombrable d’événements mutuellement exclusifs et exhaustifs.
Exemple 6. On a réalisé l’expérience décrite à l’exemple 4 et on vous informe qu’on n’a obtenu
aucun six avec le dé. Quelle est la probabilité que le dé ait été lancé plus de 4 fois ?
" ∞
# ∞
[ X
c
P Ei A = P[Ei |Ac ]
i=5 i=5
∞
X P[Ac |Ei ]P[Ei ]
= P∞ c
i=5 j=1 P[A |Ej ]P[Ej ]
∞
5 i 1
X
6 2i
= P∞ 5 j 1
i=5 j=1 6 2j
P∞ 5 i
4
i=5 12 5
= = ≈ 0.0301.
P∞ 5 j 12
j=1 12
8
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le théorème de Bayes nous donne parfois des résultats qui peuvent sembler surprenants à première
vue. Voici un exemple pour illustrer ce phénomène.
Exemple 7. Dans une certaine population, un individu sur 1000 est porteur d’un certain virus,
disons le virus V. Les porteurs du virus ne présentent aucun symptôme perceptible. Un test sanguin
a été développé pour détecter la présence du virus chez ces individus. Le test a les propriétés
suivantes. Chez les individus qui portent le virus, le test est positif (c’est-à-dire qu’il indique la
présence du virus) avec probabilité 0.98 et chez les individus qui ne portent pas le virus, le test est
négatif (c’est-à-dire qu’il indique l’absence du virus) avec probabilité 0.97. On choisit un individu
au hasard dans cette population et on lui administre le test. Le résultat du test est positif. Quelle
est la probabilité que cet individu soit porteur du virus ?
Solution. On veut calculer la probabilité qu’un individu choisi au hasard soit porteur du virus
sachant que le résultat de son test sanguin est positif. Autrement dit, on veut calculer P[A|B], où
On a
P[B|A] P[A]
P[A|B] =
P[B|A] P[A] + P[B|Ac ] P[Ac ]
(0.98)(0.001)
= ≈ 0.0317.
(0.98)(0.001) + (0.03)(0.999)
À première vue ce résultat peut sembler surprenant. Après tout, le test sanguin est très précis :
le taux d’erreur est seulement 2% chez les gens qui ont le virus et seulement 3% chez les gens
qui n’ont pas le virus. Lorsque le résultat du test est positif, on s’attend naı̈vement à ce que
l’individu soit porteur du virus. Toutefois, l’élément de surprise disparaı̂t quelque peu lorsqu’on
fait le raisonnement suivant. Imaginez qu’on administre le test sanguin à 100 000 individus. Parmi
ces 100 000 individus, on s’attend à ce qu’il y en ait environ 100 qui soient porteurs du virus et
99 900 qui ne le soient pas. Parmi les 100 porteurs du virus, on s’attend à ce qu’il y en ait 98
pour qui le test sera positif et 2 pour qui il sera négatif. Parmi les 99 900 individus qui ne sont pas
porteurs du virus, on s’attend à ce qu’il y en ait 2 997 pour qui le test sera positif et 96 903 pour qui
il sera négatif. On s’attend donc à avoir 98 + 2 997 = 3 095 individus pour qui le test sera positif,
dont seulement 98 qui seront vraiment porteurs du virus.
1.5 Indépendance
Parfois, le fait de savoir qu’un événement A s’est réalisé ne change en rien la probabilité que
l’événement B se réalise. Dans l’exemple où on lance un dé deux fois, si A dénote l’événement
9
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque : Il est facile de montrer que si A et B sont des événements tels que P[A] > 0 et
P[B] > 0, alors P[A|B] = P[A] si et seulement si P[B|A] = P[B].
Cette définition provisoire d’indépendance est adéquate pour la plupart des applications. Cepen-
dant, les mathématiciens préfèrent la définition suivante. Elle ne fait pas appel à la notion de
probabilité conditionnelle et elle ne se limite pas aux événements de probabilités strictement posi-
tives. De plus, elle se prête mieux aux généralisations.
L’équation (1.2) n’est rien d’autre que notre règle de multiplication (1.1) avec P[B|A] remplacé par
P[B]. Il est facile de vérifier que si A et B sont des événements tels que P[A] > 0 et P[B] > 0, alors
les deux définitions précédentes sont équivalentes : si A et B sont des événements indépendants
au sens de la première définition alors ils sont également indépendants au sens de la deuxième
définition et, vice versa, s’ils sont indépendants au sens de la deuxième définition alors ils sont aussi
indépendants au sens de la première définition.
Pour illustrer le concept d’indépendance, considérons l’expérience aléatoire qui consiste à lancer un
dé deux fois. Pour des raisons de symétrie physique, le modèle probabiliste approprié pour cette
expérience est le modèle équiprobable sur l’ensemble fondamental
10
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P[A] = P[{(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}] = 6/36 = 1/6,
P[B] = P[{(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}] = 6/36 = 1/6.
On a donc P[A ∩ B] = P[A]P[B]. Autrement dit, les événements A et B sont indépendants au sens
de la définition mathématique d’indépendance donnée ci-dessus.
Dans la grande majorité des exemples que nous rencontrons en pratique, l’indépendance des évé-
nements A et B est une conséquence immédiate de l’énoncé du problème. Par exemple, si on dit
qu’on fait deux tirages avec remise à partir d’un panier contenant 4 boules rouges et 7 boules noires
et si on s’intéresse aux événements
alors il est clair que A et B sont indépendants. Toutefois, dans certains cas il faut avoir recours à
la définition pour vérifier si deux événements sont indépendants. L’exemple suivant illustre cette
situation.
Solution. Ici on obtient P[A] = 1/9, P[B] = 1/6 et P[C] = 1/6. On obtient aussi P[A∩C] = 1/36 et
P[B ∩ C] = 1/36. On conclut que A et C ne sont pas indépendants (puisque P[A ∩ C] 6= P[A] P[C])
et que B et C sont indépendants (puisque P[B ∩ C] = P[B] P[C]).
Indépendance de trois événements : Les événements A, B et C sont dit indépendants (on dit
parfois mutuellement indépendants) si les quatre conditions suivantes sont satisfaites :
Lorsque seules les trois premières conditions sont satisfaites, on dit que les événements A, B et C
sont indépendants deux à deux. Des événements peuvent être indépendants deux à deux sans tou-
tefois être mutuellement indépendants. Voici un exemple élémentaire pour illustrer ce phénomène.
11
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
À l’aide des définitions précédentes, il est facile de vérifier que les événements A, B et C sont
indépendants deux à deux mais ne sont pas mutuellement indépendants.
Dans le cas où B = {A, B}, la définition générale donnée ci-dessus est équivalente à la définition
d’indépendance de deux événements donnée à la page 10. Dans le cas où B = {A, B, C}, la définition
générale donnée ci-dessus est équivalente à la définition d’indépendance de trois événements donnée
à la page précédente.
12
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce dernier exemple est très utile lorsqu’on veut calculer la probabilité qu’au moins un événement,
parmi un groupe de plusieurs événements indépendants, se réalise. Supposons par exemple que
A, B, C et D soient des événements indépendants et que
Les probabilités d’intersections apparaissant sur le côté droit de cette égalité peuvent toutes être
calculées en invoquant l’indépendance. Par exemple
Exemple 9. On considère une boutique de souvenir du Vieux Québec et on fait les hypothèses
suivantes. Chaque fois qu’un touriste entre dans la boutique, la probabilité qu’il fasse un achat est
p. Le nombre de client qui entreront dans la boutique durant la prochaine heure est une variable
aléatoire avec loi de Poisson de moyenne ν. En supposant indépendance d’un client à l’autre, calculez
la probabilité qu’aucun client ne fera un achat durant la prochaine heure.
Solution. On pose
On veut calculer P[A]. On y arrive facilement grâce à la loi des probabilités totales. Il suffit de
considérer la partition engendrée par la variable aléatoire X, c’est-à-dire la partition {E0 , E1 , E2 , ...},
avec En = {X = n}. On obtient alors
13
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X
P[A] = P[A|En ] P[En ]
n=0
X∞
= P[A|X = n] P[X = n]
n=0
X∞
= P[A|X = n] pX (n)
n=0
De façon plus générale, si X est une variable aléatoire discrète alors pour tout événement A on a
X
P[A] = P[A|X = x] pX (x). (1.3)
x
Dans cette dernière équation, la somme est prise sur l’ensemble de toutes les valeurs possibles de la
variable X. On dit alors qu’on calcule la probabilité de A en conditionnant sur la variable aléatoire
X. Dans le cas où X est une variable aléatoire de type continu avec densité fX (x), l’équation
précédente prend la forme suivante :
Z ∞
P[A] = P[A|X = x] fX (x) dx. (1.4)
−∞
Remarque 1. L’équation (1.4) demande des explications ! Quand X est une variable aléatoire de
type continue, on a P[X = x] = 0 pour tout x ∈ R. À la section 1 du présent chapitre, nous avons
défini la probabilité conditionnelle P[A | B] seulement pour les événements B pour lesquels on a
P[B] > 0. Mais alors, que signifie P[A|X = x] ? Sans aller plus en profondeur, voici une réponse
approprié pour nos besoins. On peut définir la probabilité conditionnelle P[A|X = x] avec l’équation
suivante :
P[A|X = x] = lim P[A | x − ǫ < X < x + ǫ].
ǫ↓0
Remarque 2. L’équation (1.3) est un cas spécial de la loi des probabilités totales. Mais comment
démontre-t-on l’équation (1.4) ? Une approche possible consiste à obtenir l’équation (1.4) à partir
de l’équation (1.3) par un simple passage à la limite. Pour alléger la présentation, considérons le
cas où X est une variable aléatoire non négative avec densité fX (x). Dans ce cas, pour tout entier
positif n la loi des probabilités totales nous donne
∞
X
P[A] = P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
k=0
14
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On obtient donc
∞
X
P[A] = lim P[A | k/n ≤ X < (k + 1)/n] P[k/n ≤ X < (k + 1)/n].
n→∞
k=0
On peut montrer que la limite qui apparait dans cette dernière équation est égale à l’intégrale qui
apparait dans l’équation (1.4). Les détails ne seront pas présentés ici.
Remarque 3. Rappelons que l’espérance d’une fonction d’une variable aléatoire X, disons la
fonction g(X), peut être calculer avec l’aide de la formule de changement de variable :
( P
x g(x) pX (x) dans le cas discret,
E[g(X)] = R∞
−∞ g(x) fX (x) dx dans le cas continu.
Les équations (1.3) et (1.4) peuvent donc être écrite de façon compacte sous la forme suivante :
Ici P[A | X] est, par définition, la fonction g(x) = P[A | X = x] évaluée à x = X. Autrement
dit, P[A | X] est la variable aléatoire g(X), où g est la fonction définie par g(x) = P[A | X = x].
L’équation (1.5) a l’avantage d’être compacte. De plus elle couvre aussi bien le cas discret (équation
(1.3)) que le cas continu (équation (1.4)). Pour les débutants il est néanmoins recommandé de
travailler avec les équations (1.3) et (1.4) plutôt que l’équation (1.5).
Remarque 4. Un autre avantage de l’équation (1.5) est qu’elle demeure valide même dans le cas
où la variable aléatoire X n’est ni de type discrète, ni de type continue. Ceci dit, dans le présent
document, on se limite au cas où la variable aléatoire X est ou bien de type discrète, ou bien de
type continue.
Une autre approche consiste à faire un calcul direct à partir de la densité conjointe du couple
(X, Y ). On peut alors écrire
Z ∞Z ∞
E[Y ] = y fX, Y (x, y) dx dy
−∞ −∞
Z ∞Z ∞
= y fY |X = x (y) fX (x) dy dx
−∞ −∞
Z ∞ Z ∞ Z ∞
= y fY |X = x (y) dy fX (x) dx = E[Y |X = x] fX (x) dx.
−∞ −∞ −∞
15
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Lorsqu’on utilise ces équations, on dit qu’on calcule l’espérance de Y en conditionnant sur la variable
aléatoire X.
Remarque 1. Si on utilise la notation E[Y |X] pour représenter la variable aléatoire g(X), où g(x)
est la fonction définie par
g(x) = E[Y |X = x],
alors les deux équations de calcul d’espérance par conditionnement peuvent être écrite sous la forme
compacte suivante :
E[Y ] = E[E[Y |X]]. (1.8)
Remarque 2. Pour arriver à l’équation (1.7), nous avons supposé que les variables aléatoires X et
Y possèdent une densité conjointe fX, Y (x, y). On peut montrer que l’équation (1.7) demeure valide
dans le cas où la distribution marginale de X est de type continue et celle de Y est de type discrète.
De même, pour l’équation (1.6) nous avons implicitement supposé que les variables aléatoires X
et Y possèdent une fonction de masse conjointe pX, Y (x, y). On peut montrer que l’équation (1.6)
demeure valide dans le cas où la distribution marginale de X est de type discrète et celle de Y est
de type continue.
Remarque 3. Les équations (1.6), (1.7) et (1.8) sont les analogues des équations (1.3), (1.4) et
(1.5). En fait, on peut dire que les équations (1.3), (1.4) et (1.5) sont des cas particuliers des
équations (1.6), (1.7) et (1.8). En effet, si on prend Y = 1A dans les équations (1.6), (1.7) et (1.8)
et si on utilise le fait que E[1A ] = P[A], alors on retrouve, dans l’ordre, les équations (1.3), (1.4) et
(1.5).
Remarque 4. Les équations (1.6), (1.7) et (1.8) sont bien sûr valide avec Y remplacé par une
fonction de Y . Par exemple, dans le cas continu on a, pour toute fonction h(y) pour laquelle
l’espérance E[h(Y )] existe,
Z ∞
E[h(Y )] = E[h(Y )|X = x] fX (x) dx
−∞
Attention : cette équation ne tient pas ! Le calcul suivant nous donnera la bonne équation.
Pour faire un calcul de variance par conditionnement, on se ramène à des calculs d’espérances par
conditionnement et on utilise les résultats de la section précédente. Dans le cas continu, on obtient
16
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
Z ∞ Z ∞ Z ∞ 2
2
Var[Y ] = Var[Y |X = x] fX (x) dx+ (E[Y |X = x]) fX (x) dx− E[Y |X = x] fX (x) dx .
−∞ −∞ −∞
Si on pose
h(x) = Var[Y |X = x] et g(x) = E[Y |X = x]
et si on écrit Var[Y |X] pour dénoter h(X) et E[Y |X] pour dénoter g(X) alors on obtient
Z ∞ Z ∞ Z ∞ 2
Var[Y ] = h(x) fX (x) dx + (g(x))2 fX (x) dx − g(x) fX (x) dx
−∞ −∞ −∞
2 2
= E[h(X)] + E[(g(X)) ] − (E[g(X)])
= E[h(X)] + Var[g(X)]
= E[Var[Y |X]] + Var[E[Y |X]].
On obtient le même résultat dans le cas discret. On a donc la formule suivante pour calculer la
variance de la variable Y en conditionnement sur la variable X :
et on suppose que
P[A|X = x] = 1 − e−bx .
On peut supposer que ces hypothèses de modélisation ont été justifiées de façon satisfaisante et que
les constantes positives α, λ, b et c peuvent être estimées à partir de données des années antérieures.
17
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 11.
On considère X1 , X2 , X3 , ... des variables aléatoires indépendantes et identiquement distribuées avec
moyenne µX et variance σX 2 . On sait que si n est un entier non négatif et si S = X + X + · · · + X ,
n 1 2 n
alors
2
E[Sn ] = nµX et Var[Sn ] = nσX .
On suppose maintenant que N est une variable aléatoire à valeurs entières non négatives avec
moyenne µN et variance σN2 , indépendantes des Xi . On s’intéresse à la variable aléatoire
N
X
SN = Xi .
i=1
Calcul de E[SN ] :
∞
X ∞
X
E[SN ] = E[SN |N = n] pN (n) = E[Sn |N = n] pN (n)
n=0 n=0
∞ ∞ ∞
!
X X X
= E[Sn ] pN (n) = nµX pN (n) = npN (n) µX = µN µX
n=0 n=0 n=0
18
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On peut aussi faire ce calcul avec l’aide de l’équation (1.8), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . L’équation (1.8) nous
donne donc
E[SN ] = E[E[SN |N ]] = E[N µX ] = µN µX .
n=0 n=0
2
= µ N σX + E[N 2 ]µ2X .
On peut aussi faire ce calcul avec l’aide de l’équation (1.9), avec Y remplacé par SN et avec X
remplacé par N . Puisque E[SN |N = n] = nµX , on obtient E[SN |N ] = N µX . De même, puisque
Var[SN |N = n] = nσX2 , on obtient Var[S |N ] = N σ 2 . L’équation (1.9) nous donne donc
N X
En résumé, on a donc
2
E[SN ] = µN µX et Var[SN ] = µN σX + σN2 µ2X .
Exemple 12.
19
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Les variables aléatoires Y1 , Y2 , Y3 , ... sont donc i.i.d. Bernoulli(p). On considère la variable aléatoire
N1 = min{j ≥ 0 : Yj = 1}
Méthode usuelle.
∞
X ∞
X
E[N1 ] = n pN1 (n) = n (1 − p)n−1 p
n=1 n=1
∞
X 1 1
= p n(1 − p)n−1 = p = .
p2 p
n=1
Exemple 13.
On considère, comme à l’exemple précédent, une séquence d’épreuves de Bernoulli et on utilise la
même notation. Pour chaque entier positif k, on dénote par Nk le nombre d’épreuves nécessaires
pour obtenir pour la première fois k succès consécutifs. Nous allons calculer l’espérance de Nk . Pour
20
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
réussir à faire ce calcul, nous allons, en utilisant la technique de calcul d’espérance par condition-
nement, obtenir une formule générale permettant de calculer E[Nk ] à partir de E[Nk−1 ] pour tout
k ≥ 2. L’espérance de N1 étant connue (voir l’exercice précédent), nous pourrons ainsi obtenir, tour
à tour, E[N2 ], E[N3 ], etc.
D’abord on écrit X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ).
ℓ
On obtient donc
X
E[Nk ] = E[Nk |Nk−1 = ℓ] pNk−1 (ℓ)
ℓ
X
= (ℓ + 1 + (1 − p) E[Nk ]) pNk−1 (ℓ)
ℓ
= E[Nk−1 ] + 1 + (1 − p)E[Nk ].
1 E[Nk−1 ]
E[Nk ] = + pour k = 2, 3, 4, ...
p p
Combiné avec le fait que E[N1 ] = 1/p, ce résultat nous permet d’obtenir, pour k ≥ 1
1 1 1 1
E[Nk ] = + 2 + 3 + ··· + k.
p p p p
Les faits suivants ont été utilisés dans le calcul ci-dessus :
1. P[Yℓ+1 = j|Nk−1 = ℓ] = P[Yℓ+1 = j].
2. E[Nk |Nk−1 = ℓ, Yℓ+1 = 1] = ℓ + 1.
3. E[Nk |Nk−1 = ℓ, Yℓ+1 = 0] = ℓ + 1 + E[Nk ].
L’étudiant devrait pouvoir justifier ces faits.
21
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 1. Soit Ω, l’ensemble des résultats possibles d’une expérience aléatoire. Soit E et F ,
des événements mutuellement exclusifs et de probabilités strictement positives. On considère une
séquence de répétitions indépendantes de cette expérience aléatoire. Exprimez la probabilité que
l’événement E survienne avant l’événement F en termes des quantités P[E] et P[F ].
Numéro 3. Si la réalisation de B augmente les chances que A se réalise, est-ce que la réalisation
de A augmente les chances que B se réalise ?
Numéro 4. Un panier contient n boules noires et r boules rouges. On tire une boule au hasard
et on note sa couleur. Puis on la remet dans le panier. On ajoute ensuite à ce panier a boules
additionnelles de la même couleur que celle qu’on vient de tirer. Le panier contient maintenant
n + r + a boules. On répète l’expérience : on tire une boule au hasard, puis on la remet dans le
panier avec à nouveau a boules additionnelles de la même couleur que celle qui vient d’être tirée.
Le panier contient maintenant n + r + 2a boules. On répète cette procédure une troisième fois, une
quatrième fois, etc.
(a) Au premier tirage, quelle est la probabilité d’obtenir une boule rouge ?
(b) Au deuxième tirage, quelle est la probabilité d’obtenir une boule rouge ?
(c) Au k e tirage, quelle est la probabilité d’obtenir une boule rouge ?
Numéro 5. On a une pièce de 5 cents et une pièce de 25 cents. Pour chacune de ces deux pièces, la
probabilité de Pile est p et la probabilité de Face est 1 − p. On ne connait pas p. On considère une
séquence de lancers de cette paire de pièces de monnaie. À chaque lancer de la paire de pièces, on
obtient P P, P F, F P ou F F (avec, disons, la convention que la première lettre indique le résultat
obtenu avec la pièce de 5 cents et la deuxième lettre indique le résultat obtenu avec la pièce de 25
cents). On lance la paire de pièces jusqu’à ce qu’on obtienne ou bien F P , ou bien P F . Si c’est F P
qui survient avant P F , on pose X = 0. Si c’est P F qui survient avant F P , on pose X = 1. Obtenez
la distribution de la variable aléatoire X.
Numéro 7. On suppose que X0 , X1 , X2 , X3 , ... sont des variables aléatoires i.i.d. à valeurs dans
l’ensemble {1, 2, 3, ..., m} et avec P[Xi = j] > 0 pour tout j ∈ {1, 2, 3, ..., m}. On pose N = min{n >
0 : Xn = X0 }. Obtenez E[N ].
Numéro 8. On suppose que U suit la loi uniforme sur l’intervalle (0, 1). On suppose que sachant
U
Pn= u, les variables X1 , X2 , ..., Xn sont i.i.d. Bernoulli(u). Obtenez l’espérance et la variance de
j=1 Xj .
22
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 9. Le nombre de clients qui feront un achat ce soir au magasin ABC est une variable
aléatoire avec loi de Poisson de moyenne 10. Le montant de l’achat du client numéro k est une
variable aléatoire avec loi uniforme sur l’intervalle (0, 100). Obtenez l’espérance et la variance du
total des ventes ce soir au magasin ABC.
Numéro 10. Si X suit la loi géométrique de paramètre p, quelle est la probabilité que X soit un
nombre pair ?
Numéro 12. La variable X suit la loi uniforme sur l’intervalle (0, 5). Sachant X = x, la variable
Y suit la loi de Poisson de moyenne x. Obtenez P[Y ≥ 3].
Numéro 13. Les joueurs A et B lancent une paire de dés tour à tour. C’est A qui commence.
L’objectif de A est d’obtenir une somme de 6. L’objectif de B est d’obtenir une somme de 7. Le
gagnant sera le premier joueur qui atteint son objectif.
(a) Calculez la probabilité que le joueur A gagne.
(b) Calculez l’espérance du nombre de fois que la paire de dés sera lancée.
Suggestion : Conditionnez sur la paire (S, T ), où S est le score obtenu par le joueur A lors de son
premier lancer de la paire de dés et T est le score obtenu par le joueur B lors de son premier lancer
de la paire de dés.
Numéro 14. On lance un dé jusqu’à ce que la somme des résultats dépasse 100 pour la première
fois. Quelle est la valeur la plus probable pour la somme des résultats au moment où l’on dépasse
100 pour la première fois ?
Numéro 15. On considère une grande population de familles et on suppose que le nombre d’enfants
par famille suit la loi de Poisson avec moyenne θ. On choisit un enfant dans cette population et on
pose S = le nombre de frères et soeurs de l’enfant choisi. Montrez que S suit la loi de Poisson de
moyenne θ.
Numéro 16. On suppose que les variables aléatoires V, U1 , U2 , U3 , ... sont i.i.d. avec loi uniforme
sur l’intervalle (0, 1). On pose N = min{n ≥ 1 : Un > V }. Obtenez E[N ].
Numéro 17. Reprenons le scénario de l’exemple 4 : On lance une pièce de monnaie jusqu’à ce
qu’on obtienne une pile. Puis, on lance un dé un nombre de fois égal au nombre de fois qu’on a
lancé la pièce de monnaie. Obtenez la distribution du nombre de fois que le dé a été lancé sachant
qu’on a obtenu aucun 6.
Numéro 18. On lance un dé jusqu’à ce qu’on obtienne pour la première fois la face six cinq fois
de suite. Calculez l’espérance du nombre de lancers.
Numéro 19. On considère une séquence de lancers d’un dé. Un bloc de résultats identiques est
une séquence maximale de lancers donnant tous lieu à la même face. Par exemple, si les résultats
des 20 premiers lancers sont les suivants
5 5 6 2 4 4 4 1 3 1 5 2 2 2 2 1 6 3 3 2
23
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
alors on peut dire qu’on a obtenu, dans l’ordre, un bloc de valeur 5 et de longueur 2, puis un bloc
de valeur 6 et de longueur 1, puis un bloc de valeur 2 et de longueur 1, puis un bloc de valeur 4 et
de longueur 3, etc. Quelle est l’espérance de la longueur du premier bloc de valeur 6 et de longueur
au moins 5 ?
Numéro 20. [Pas facile] On lance un dé jusqu’à ce qu’on obtienne pour la première fois la même
face cinq fois de suite. Calculez l’espérance du nombre de lancers.
24
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 2
Définition. Une matrice stochastique sur S est une matrice sur S, disons P = (Pij ; i ∈ S, j ∈ S),
dont chaque ligne est une distribution de probabilités sur S. Autrement dit, la matrice P = (Pij ; i ∈
S, j ∈ S) est une matrice stochastique si les deux conditions suivantes sont satisfaites :
(a) Pij ≥ 0 pour tout i ∈ S et j ∈ S ;
P
(b) j∈S Pij = 1 pour tout i ∈ S.
Pour fin de calcul matriciel, les distributions de probabilités sur S seront traitées comme étant des
vecteurs lignes. De même, si P = (Pij ; i ∈ S, j ∈ S) est une matrice sur S, alors la ie ligne de P
est le vecteur ligne (Pij ; j ∈ S) et la j e colonne de P est le vecteur colonne (Pij ; i ∈ S). Notez que
dans le cas où S est un ensemble fini de cardinal m, les distributions de probabilités sur S sont
des vecteurs lignes de longueur m et les matrices stochastiques sur S sont des matrices carrées de
dimension m par m. Le cas où S est un ensemble infini dénombrable ne pose pas de problème.
Par exemple, si S = N1 , on écrira v = (vi ; i ≥ 1) = (v1 , v2 , v3 , ...) pour dénoter une distribution de
probabilités sur S et on écrira P = (Pij ; i ≥ 1, j ≥ 1) pour dénoter une matrice stochastique sur S.
25
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Voici quelques rappels sur les produits matriciels. Nous nous limitons ici au cas du produit v P où
v est un vecteur sur S et P est une matrice sur S et au cas du produit PQ où P et Q sont toutes
les deux des matrices sur S. Ce sont les deux cas qui nous seront utiles dans les sections suivantes.
Rappel 1. Si v = (vi ; i ∈ S) est un vecteur ligne sur S et si P = (Pij ; i ∈ S, j ∈ S) est une matrice
sur S, alors v P est le vecteur ligne sur S dont la j e coordonnée est donnée par
X
(v P)j = vi Pij . (2.1)
i∈S
Démonstration. Il suffit de vérifier que le vecteur ligne v P satisfait les deux conditions suivantes :
(i) (v P)j ≥ 0 pour tout j ∈ S ;
P
(ii) j∈S (v P)j = 1.
Considérons d’abord le point (i). Puisque v est une distribution de probabilités sur S on a vi ≥ 0
pour tout i ∈ S et puisque P est une matrice stochastique sur S on a Pij ≥ 0 pour tout i et j dans
S. On a donc vi Pij ≥ 0 pour tout choix de i et j dans S. On obtient donc
X
(v P)j = vi Pij ≥ 0 pour tout j ∈ S.
i∈S
Explications : Pour la première égalité on a simplement utilisé l’équation (2.1). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur vi qui apparait dans chaque terme P de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout i ∈ S on a j∈S Pij = P 1 (puisque P est une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que i∈S vi = 1 (puisque v est une
distribution de probabilités sur S).
Démonstration. Il suffit de vérifier que la matrice produit PQ satisfait les deux conditions sui-
vantes :
26
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On vérifie les conditions (a) et (b) ci-dessus de la même façon qu’on a vérifié les conditions (i) et (ii)
dans la démonstration de la Proposition 1. Par exemple, pour la condition (b) on procède comme
suit. Fixons i et j dans S. On obtient
X XX XX X X X
(PQ)ij = Piℓ Qℓj = Piℓ Qℓj = Piℓ Qℓj = Piℓ = 1.
j∈S j∈S ℓ∈S ℓ∈S j∈S ℓ∈S j∈S ℓ∈S
Explications : Pour la première égalité on a simplement utilisé l’équation (2.2). Pour la deuxième
égalité on a simplement interchangé l’ordre de sommation. Pour la troisième égalité, on a mis en
évidence le facteur Piℓ qui apparait dans chaque termeP de la somme intérieure. Pour la quatrième
égalité, on a utilisé le fait que pour tout ℓ ∈ S on a j∈S Qℓj = 1 (puisque Q estP une matrice
stochastique sur S). Pour la dernière égalité on a utilisé le fait que pour tout i ∈ S on a ℓ∈S Piℓ = 1
(puisque P est une matrice stochastique sur S).
Rappelons en terminant que le produit matriciel est associatif. Ceci est vrai en particulier pour les
matrices stochastiques. Donc, si P, Q et R sont des matrices stochastiques sur l’espace d’états S,
alors on a
(PQ) R = P (QR) .
On peut donc laisser tomber les parenthèses et écrire simplement PQR.
On écrit I pour dénoter la matrice identité sur S c’est-à-dire la matrice I = (Iij ; i ∈ S, j ∈ S) avec
Iii = 1 pour tout i ∈ S et Iij = 0 pour tout i et j dans S avec i 6= j. Notez que cette matrice I est
une matrice stochastique.
Si P est une matrice stochastique sur S, la ne puissance de P, notée P n , jouera un rôle important
dans les prochaines sections. Cette ne puissance de P est définie de la façon suivante :
I si n = 0,
n
P = PPP · · · P si n ≥ 1.
| {z }
n fois
P[Xn+1 = j | (X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j | Xn = i]. (2.3)
27
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(iii) Pour tout i dans S, pour tout j dans S et pour tous les entiers n tels que P[Xn = i] > 0, la
probabilité conditionnelle P[Xn+1 = j | Xn = i] ne dépend pas de n et est égale à Pij . Ces
probabilités conditionnelles sont appelées probabilités de transition.
L’analogie suivante nous aide à mieux comprendre le concept de chaı̂ne de Markov. On imagine une
particule qui se déplace de façon aléatoire. L’ensemble S représente l’ensemble de tous les états, ou
positions, possibles de la particule. La variable aléatoire Xn représente la position de la particule au
temps n, c’est-à-dire la position de la particule après n transitions. Au temps 0, on place la particule
dans un état qu’on aura choisi au hasard selon la distribution de probabilités ν = (νi ; i ∈ S). À
chaque unité de temps, la particule effectue une transition selon la règle suivante : si au temps n la
particule est à l’état i, alors sa position au temps n + 1 est choisie au hasard selon la distribution
de probabilités (Pij ; j ∈ S) et ce peu importe n et peu importe les états qui ont été visités aux
temps 0, 1, 2, ..., n − 1.
Quelques remarques.
(a) La condition (i) stipule tout simplement que la distribution de la variable aléatoire X0 est la
distribution de probabilités ν. Une façon alternative d’exprimer la condition (i) est d’écrire
tout simplement L(X0 ) = ν. Ici la notation L(X0 ) signifie “la loi (ou distribution) de la
variable aléatoire X0 ”.
(b) La condition (ii) est ce qu’on appelle la propriété de Markov. Cette condition dit simplement
que si on connait la position de la particule au temps n et si on veut prédire sa position au
temps n + 1, alors l’histoire antérieure de la particule, du temps 0 au temps n − 1, ne nous
aide en rien.
(c) La condition (iii) est ce qu’on appelle la condition d’homogénéité dans le temps. Cette
condition stipule que les probabilités de transition P[Xn+1 = j|Xn = i] ne dépendent pas de
n, d’où la terminologie homogène dans le temps.
Note biographique : Les chaı̂nes de Markov furent introduites par le mathématicien russe Andrei
Andreyevich Markov au début des années 1900. Markov est né le 14 juin 1856 à Ryazan en Russie.
Il était un étudiant de Tchebychev. Il est devenu professeur à l’Université de Saint-Pétersbourg en
1886. Jusqu’en l’an 1900, il a travaillé surtout en analyse et en théorie des nombres. Après 1900,
il a travaillé en théorie des probabilités. Avec la création des chaı̂nes qui portent son nom, il est
devenu en quelque sorte le père de la théorie des processus aléatoires. Il est mort le 20 juillet 1922
à l’âge de 66 ans.
Exemple 1 : La chaı̂ne à deux états. L’exemple non trivial le plus simple d’une chaı̂ne de
Markov est la chaı̂ne de Markov avec seulement deux états. Sans perte de généralité, supposons
que S = {0, 1} et considérons le cas où (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale
ν = (ν0 , ν1 ) = (r, 1 − r) et avec matrice stochastique
P00 P01 1−a a
P= = .
P10 P11 b 1−b
Ici r, a et b des nombres réels compris entre 0 et 1. Plus tard nous verrons que si a + b > 0, alors
peu importe le choix de la loi initiale, on a toujours
b a
lim P[Xn = 0] = et lim P[Xn = 1] = .
n→∞ a+b n→∞ a+b
28
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 2 : La marche aléatoire sur l’ensemble {0, 1, 2, ..., m}. Fixons m, un entier positif,
fixons k, un entier entre 0 et m, et fixons p, un nombre réel entre 0 et 1. Considérons un joueur
dont la fortune au temps 0 est de k dollars. À chaque unité de temps, le joueur mise 1 dollar dans
un jeu de hasard. Avec probabilité p, il gagne et sa fortune augmente de 1 dollar. Avec probabilité
1 − p, il perd et sa fortune diminue de 1 dollar. Si jamais sa fortune devient nulle, il cesse de jouer
et sa fortune demeure nulle pour toujours. Si jamais sa fortune atteint m dollars, il cesse de jouer
et sa fortune demeure m dollars pour toujours. Si on pose
alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur l’ensemble S = {0, 1, ..., m}, issue de l’état
k et avec matrice stochastique
1 0 0 0 ··· 0 0
1−p 0 p 0 ··· 0 0
0
1−p 0 p ··· 0 0
P=
0 0 1 − p 0 ··· 0 0
.
.. .
.. .
.. .. .. ..
. . . .
0 0 0 0 ··· 0 p
0 0 0 0 ··· 0 1
L’expression ≪ issue de l’état k ≫ signifie simplement que la loi initiale est la distribution de pro-
babilités concentrée à l’état k, c’est-à-dire la distribution de probabilités (νi ; i ∈ S) avec νi = 1 si
i = k et νi = 0 si i 6= k. Cette chaı̂ne de Markov est appelée la marche aléatoire sur l’ensemble
{0, 1, ..., m}. Les états 0 et m s’appellent les frontières. Dans le présent exemple, les frontières sont
dites absorbantes ; si la chaı̂ne de Markov atteint l’état 0 ou l’état m, elle y demeure pour toujours.
Posons
min{n ≥ 0 : Xn ∈ {0, m}} si {n ≥ 0 : Xn ∈ {0, m}} 6= ∅
T =
∞ si {n ≥ 0 : Xn ∈ {0, m}} = ∅.
Plus tard, nous montrerons que P[T < ∞|X0 = k] = 1 et nous obtiendrons des expressions pour
les quantités P[XT = 0|X0 = k], P[XT = m|X0 = k], et E[T |X0 = k].
On peut aussi considérer le cas où les frontières sont réfléchissantes. Il suffit de se donner des réels
r et q entre 0 et 1 et de considérer la chaı̂ne de Markov avec matrice stochastique
1−r r 0 0 ··· 0 0 0
1−p 0 p 0 ··· 0 0 0
0
1 − p 0 p · · · 0 0 0
P=
0 0 1 − p 0 ··· 0 0 0 .
.. .. .. .. .. .. ..
. . . . . . .
0 0 0 0 ··· 1 − p 0 p
0 0 0 0 ··· 0 1−q q
Exemple 3 : La marche aléatoire sur les entiers non négatifs. Si, dans l’exemple du joueur
et du casino, on suppose que le casino possède une fortune infinie, de sorte que le joueur peut
29
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
continuer à jouer tant et aussi longtemps qu’il a de l’argent, alors la suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’ensemble N0 = {0, 1, 2, ...}, issue de l’état k et avec matrice stochastique
1 0 0 0 ···
1−p 0 p 0 ···
P= 0
1−p 0 p ··· .
0
0 1 − p 0 · · ·
.. .. .. ..
. . . .
Cette chaı̂ne de Markov est appelée la marche aléatoire sur N0 , issu de l’état k et avec absorption
à l’état 0. On peut, comme dans l’exemple précédent, considérer le cas plus général où
1−r r 0 0 ···
1−p 0 p 0 ···
P=
0 1−p 0 p ···
0
0 1 − p 0 · · ·
.. .. .. ..
. . . .
La marche aléatoire sur N0 peut servir de modèle élémentaire de file d’attente (avec Xn = le nombre
d’individus dans une certaine file d’attente après n transitions, où transition veut dire qu’il y a ou
bien arrivée d’un nouveau client, ou bien départ du client qui était en train de se faire servir) ou de
modèle élémentaire de processus de naissances et de morts (avec Xn = le nombre d’individus dans
une certaine population après n transitions, où transition veut dire qu’il y a ou bien une naissance,
ou bien un décès).
c’est-à-dire le nombre de boules dans l’urne A après n transitions. La suite (Xn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace des états S = {0, 1, 2, ..., m}. Sa matrice stochastique est donnée par
0 1 0 0 ··· 0 0 0
1 m−1
m 0 m 0 ··· 0 0 0
2 m−2
0 m 0 m ··· 0 0 0
3
0 0 m 0 ··· 0 0 0
P= .. .. .. .. .. .. ...
. . . . . . .
2
0 0 0 0 ··· 0 m 0
m−1 1
0 0 0 0 ··· m 0 m
0 0 0 0 ··· 0 1 0
30
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Ce modèle d’urnes et de boules fut introduit par le physicien autrichien Paul Ehrenfest pour analyser
le phénomène de diffusion d’un gaz à travers un petit conduit reliant deux récipients. Les boules
représentent les molécules du gaz et les urnes représentent les récipients. Le modèle de Ehrenfest
suppose qu’à chaque unité de temps une molécule choisie au hasard passe d’un récipient vers l’autre.
Note biographique : Paul Ehrenfest est né à Vienne (Autriche) en 1880. Il a obtenu son doctorat
en 1904 sous la direction du célèbre physicien Boltzmann. Il était un ami intime des physiciens
Albert Einstein et Niels Bohr. Il a participé au développement de la théorie quantique. Il est mort
de façon tragique à Amsterdam en 1933. Einstein a écrit que, du point de vue de la qualité de
l’enseignement, Ehrenfest était le meilleur professeur de physique de l’époque.
Exemple 5. Voici le graphe de communication pour le modèle de Ehrenfest dans le cas où m = 5 :
0 1 2 3 4 5
1 4/5 3/5 2/5 1/5
P[Xn+m = j | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = P[Xn+m = j | Xn = i] = (P m )ij . (2.4)
31
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarques au sujet de l’équation (2.4) : Le notation (P m )ij est utilisée pour dénoter l’élément
en position (i, j) de la matrice stochastique P m . La première égalité qui apparait à l’équation (2.4)
est une généralisation de l’équation (2.3) qui apparait au point (ii) de notre définition de chaı̂ne de
Markov. La deuxième égalité est une généralisation de la propriété d’homogénéité dans le temps
énoncée au point (iii) de notre définition de chaı̂ne de Markov. Cette égalité montre entre autre
choses que la probabilité conditionnelle P[Xn+m = j|Xn = i] ne dépend pas de n. On a donc
Or nous savons déjà que P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i] = Pij . Ça fait partie de notre
définition de chaı̂ne de Markov. Donc pour démontrer l’équation (2.6), il suffit de montrer que
P[Xn+1 = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pij . (2.7)
Plutôt que de présenter tout de suite une démonstration générale de l’équation (2.7), examinons
d’abord le cas particulier P[X5 = j | X2 = i2 , X4 = i]. En conditionnant sur (X0 , X1 , X3 ) on obtient
P[X5 = j | X2 = i2 , X4 = i]
X
= P[X5 = j | X0 = i0 , X1 = i1 , X2 = i2 , X3 = i3 , X4 = i] P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i]
(i0 ,i1 ,i3 )∈S 3
X
= Pij P[X0 = i0 , X1 = i1 , X3 = i3 | X2 = i2 , X4 = i] = Pij .
(i0 ,i1 ,i3 )∈S 3
Explications : Pour la première égalité, on a utilisé la loi des probabilités totales. Pour la deuxième
égalité, on a utilisé la propriété de Markov (2.3). Pour la troisième égalité, on a simplement mis
en évidence le terme Pij . Enfin, la dernière somme est égale à 1 puisque c’est la somme de toutes
les probabilités de la distribution conditionnelle du vecteur (X0 , X1 , X3 ) sachant que X2 = i2 et
X4 = i.
Le cas général peut être démontré de la même façon. Voici les détails. Il suffit de condition-
ner sur les variables (Xℓ ; ℓ ∈ A), où A est l’ensemble des indices manquants, c’est-à-dire A =
32
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
{0, 1, 2, ..., n}\{n1 , n2 , ..., nk , n}, et d’appliquer la propriété de Markov. Pour faciliter l’écriture, po-
sons nk+1 = n et ink+1 = in = i et posons a = n − k, le cardinal de l’ensemble A. On obtient
alors
= P[Xn+1 = j| ∩k+1
m=1 (Xnm = inm )]
X
= P[Xn+1 = j| ∩nr=0 (Xr = ir )] P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
(iℓ ;ℓ∈A)∈S a
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )]
(iℓ ;ℓ∈A)∈S a
X
= Pij P[∩ℓ∈A (Xℓ = iℓ )| ∩k+1
m=1 (Xnm = inm )] = Pij .
(iℓ ;ℓ∈A)∈S a
La dernière somme est égale à 1 puisqu’il s’agit de la somme de toutes les probabilités de la
distribution conditionnelle du vecteur (Xℓ ; ℓ ∈ A) sachant ∩k+1
m=1 (Xnm = inm ). Ceci complète la
démonstration du Théorème 1 dans le cas où m = 1.
Le cas où m ≥ 2. Fixons m ≥ 2. Pour démontrer l’équation (2.5), il suffit de montrer que
P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] = Pijm . (2.8)
En effet, puisque les probabilités conditionnelles P[Xn+m = j|Xn = i] et P[Xm = j|X0 = i] sont des
cas particulier de la probabilité conditionnelle P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)], si
on démontre (2.8) alors on aura par le fait même démontré (2.5).
Pour bien comprendre la démonstration sans se perdre dans la notation, considérons la cas parti-
culier suivant : P[X7 = j | X2 = i2 , X4 = i]. En conditionnant sur (X5 , X6 ) on obtient
P[X7 = j | X2 = i2 , X4 = i]
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] P[X7 = j | X2 = i2 , X4 = i, X5 = k, X6 = ℓ]
k∈S ℓ∈S
XX
= P[X5 = k, X6 = ℓ | X2 = i2 , X4 = i] Pℓj
k∈S ℓ∈S
XX
= P[X5 = k | X2 = i2 , X4 = i]P[X6 = ℓ | X2 = i2 , X4 = i, X5 = k] Pℓj
k∈S ℓ∈S
!
XX X X X
2
= Pik Pkℓ Pℓj = Pik Pkℓ Pℓj = Pik Pkj = Pij3 .
k∈S ℓ∈S k∈S ℓ∈S k∈S
Pour la deuxième égalité, on a utilisé le cas spécial m = 1 qu’on a démontré ci-dessus. Pour la
troisième égalité, on a simplement utilisé la règle de multiplication. Pour la quatrième égalité, on
a à nouveau utilisé, deux fois, le cas spécial m = 1.
Le cas général peut être traité de la même façon et les détails ne seront pas présentés ici. Ceci
complète notre démonstration du Théorème 1.
33
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P[Xn+1 = j|(X0 , ..., Xn−1 , Xn ) = (i0 , ..., in−1 , i)] = P[Xn+1 = j|Xn = 0] = Pij
pour tout j ∈ S.
D’après le Théorème 1, on a la généralisation suivante :
Pour tout entier k ≥ 0 et pour tout choix d’entiers 0 ≤ n1 < n2 < · · · < nk < n et
d’états in1 , ..., ink et i pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a
P[Xn+m = j|(Xn1 , ..., Xnk , Xn ) = (in1 , in2 , ..., ink , i)] = P[Xn+m = j|Xn = i] = Pijm
Théorème 2. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec matrice stochastique P, alors
pour tout choix d’entier non négatif k, d’entiers 0 ≤ n1 < n2 < · · · < nk < n et d’états i1 , i2 , ..., ik
et i dans S pour lesquels P[(Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)] > 0, on a
P[(Xn+m1 , Xn+m1 +m2 , ..., Xn+m1 +···+mℓ ) = (j1 , j2 , ..., jℓ ) | (Xn1 , ..., Xnk , Xn ) = (in1 , ..., ink , i)]
pour tout entier positif l, pour tout choix d’entiers non négatifs m1 , m2 , ..., mℓ et pour tout choix
d’états j1 , j2 , ..., jℓ dans S.
Démonstration.
Le cas où ℓ = 1 est couvert par le Théorème 1. Pour le cas où ℓ > 1, considérons le cas particulier
suivant :
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i].
D’abord on utilise la règle de multiplication et on obtient
Puis, pour chacun des 3 termes apparaissant sur le côté droit de l’équation précédente, on applique
la conclusion du théorème 2 dans le cas ℓ = 1. Autrement dit, on utilise le Théorème 1. On obtient
alors
P[X14 = j1 , X17 = j2 , X24 = j3 | X3 = i3 , X8 = i8 , X10 = i] = Pij4 1 Pj31 j2 Pj72 j3 .
Le cas général se traite de la même façon mais la notation est un peu lourde.
34
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 3. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour
tout choix d’entiers non négatifs m et n et pour tout choix de i et j dans l’espace des états S, on a
X
Pijm+n = m n
Pik Pkj . (2.9)
k∈S
Corollaire. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, alors pour tout
choix d’entiers non négatifs m et n et pour tout choix de i, j et ℓ dans S, on a
Pour des raisons un peu obscures, l’équation (2.9) est appelée l’équation de Chapman et Kolmogorov.
Cette équation (2.9) est en fait un cas spécial d’une équation beaucoup plus générale, aussi appelée
équation de Chapman et Kolmogorov, concernant les processus de Markov à temps continu et à
espace d’états quelconque. Quant à elle, l’équation (2.10) est souvent utilisée pour montrer qu’une
certaine probabilité de transition, disons Pijr est strictement positive. Il suffit simplement de trouver
des entiers m et n et un état ℓ tels que r = m + n, Piℓm > 0 et Pℓjn > 0. L’équation (2.10) nous
donne alors Pijr = Pijm+n ≥ Piℓm Pℓjn > 0.
Théorème 6. Si (Xn ; n ≥ 0) est une chaı̂ne de Markov sur S avec loi initiale ν et avec matrice
stochastique P, alors
L(Xn ) = νP n ∀n ≥ 0.
35
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P[(X0 , X1 , X2 ) = (i0 , i1 , i2 )]
= P[X0 = i0 , X1 = i1 , X2 = i2 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X0 = i0 , X1 = i1 ]
= P[X0 = i0 ] P[X1 = i1 |X0 = i0 ] P[X2 = i2 |X1 = i1 ]
= νi0 Pi0 i1 Pi1 i2 .
36
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Définition. Un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0) est une variable aléatoire T à
valeurs dans l’ensemble N0 ∪ {∞} et telle que pour tout entier non négatif n l’événement {T = n}
peut être exprimé en termes des variables aléatoires X0 , X1 , X2 , ..., Xn .
Autrement dit, le temps aléatoire T est un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0)
si la condition suivante est satisfaite pour tout n ≥ 0 : ayant observé les variables aléatoires
X0 , X1 , X2 , ..., Xn , on sait si oui ou non on a T = n.
Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de frappe de
l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA défini par
min{n ≥ 0 : Xn ∈ A} si {n ≥ 0 : Xn ∈ A} 6= ∅
TA =
∞ si {n ≥ 0 : Xn ∈ A} = ∅
Il est facile de voir que le temps de frappe de l’ensemble A est bel et bien un temps d’arrêt. En
effet, pour tout n ≥ 0 on a {TA = n} = {X0 ∈ / A, X1 ∈
/ A, X2 ∈/ A, ..., Xn−1 ∈
/ A, Xn ∈ A}. De la
même façon, on vérifie facilement que les temps de premier retour sont des temps d’arrêt.
Définition. Soit A, un sous-ensemble non vide de l’espace des états S. Le temps de premier retour
à l’ensemble A (par la chaı̂ne de Markov (Xn ; n ≥ 0)) est le temps aléatoire TA∗ défini par
min{n ≥ 1 : Xn ∈ A} si {n ≥ 1 : Xn ∈ A} 6= ∅
TA∗ =
∞ si {n ≥ 1 : Xn ∈ A} = ∅
Théorème 7. [La propriété de Markov forte]. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov sur S, avec
matrice stochastique P. Soit T , un temps d’arrêt pour la chaı̂ne de Markov (Xn ; n ≥ 0). Soit i∗ ,
un état.
(a) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 0) est
une chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .
(b) Conditionnellement à T < ∞ et XT = i∗ , la suite de variables aléatoires (XT +n ; n ≥ 1) est
indépendante des variables aléatoires X0 , X1 , ..., XT −1 .
37
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. Nous utiliserons la propriété de Markov forte seulement dans le cas où le temps
aléatoire T est un temps de frappe ou un temps de premier retour. Dans ces deux cas, le théorème
ci-dessus est intuitivement clair. Toutefois, la démonstration est plutôt délicate. L’étudiant peut
omettre le reste de la présente section.
Démonstration de la partie (a). Pour simplifier la présentation, on suppose que pour tout
i ∈ S on a P[T < ∞ | X0 = i] = 1. Posons Yn = XT +n et considérons la suite (Yn ; n ≥ 0). On
veut montrer que conditionnellement à XT = i∗ la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov avec matrice stochastique P, issu de l’état i∗ .
∞
X
= P[T = m|XT = i∗ ]P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ , T = m]
m=0
Comme T est un temps d’arrêt, l’événement {T = m} est une union d’événements élémentaires
faisant intervenir seulement les variables aléatoires X0 , X1 , ..., Xm . Donc, en vertu de la propriété
de Markov, on a
∞
X
= P[T = m|XT = i] P[(Xm , Xm+1 , ..., Xm+n ) = (i0 , i1 , ..., in )|Xm = i∗ ]
m=0
∞
X n−1
Y
= P[T = m|XT = i∗ ] νi∗ (i0 ) Piℓ ,iℓ+1
m=0 ℓ=0
n−1
! ∞ n−1
Y X Y
= νi∗ (i0 ) Piℓ ,iℓ+1 P[T = m|XT = i∗ ] = νi∗ (i0 ) Piℓ ,iℓ+1 .
ℓ=0 m=0 ℓ=0
38
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
h i
P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗
∞
X h i
= P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) ∩ (∩nℓ=1 (XT +ℓ = jℓ )) |XT = i∗ , T = m
m=0
X∞
= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) ∩ (∩ℓ=1 (Xm+ℓ = jℓ )) |Xm = i∗
m=0
X∞
= P[T = m|XT = i∗ ] P ∩m−1 n
k=0 (Xk = ik ) |Xm = i∗ P [∩ℓ=1 (Xm+ℓ = jℓ ) |Xm = i∗ ]
m=0
∞
X
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗
m=0
X∞
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩m−1
k=0 (Xk = ik ) |Xm = i∗ , T = m
m=0
X∞ h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P[T = m|XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗ , T = m
m=0
h i
= P [∩nℓ=1 (XT +ℓ = jℓ ) |XT = i∗ ] P ∩Tk=0
−1
(Xk = ik ) |XT = i∗
Pour la deuxième égalité, nous avons utilisé la propriété de Markov, comme dans la démonstration
de la partie (a). Pour la troisième égalité, nous avons utilisé le point (b) du premier paragraphe de
la présente section. Pour la quatrième égalité, nous avons utilisé le fait que le terme P[∩nℓ=1 (Xm+ℓ =
jℓ )|Xm = i∗ ] ne dépend pas de m et est égal à P[∩nℓ=1 (XT +ℓ = jℓ )|XT = i∗ ] en vertu de la partie (a)
du présent théorème. Enfin, pour la cinquième égalité, nous avons appliqué à nouveau la propriété
de Markov. Ceci complète la démonstration.
2.6.1 Accessibilité
Définition. On dit que l’état j est accessible à partir de l’état i, et on écrit alors i → j, s’il existe
un entier n ≥ 0 tel que Pijn > 0.
39
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
i → j ⇔ il existe un entier n ≥ 0 tel que Pijn > 0.
Autrement dit, on a
∞
X
i→j ⇔ Pijn > 0.
n=0
La relation d’accessibilité → ainsi définie est réflexive (on a i → i pour tout i ∈ S) puisque pour
tout i ∈ S on a Pii0 = 1. Elle est également transitive. En effet, si i → j et j → k alors, par
définition, on a Pijn1 > 0 pour un certain n1 ≥ 0 et Pjk n2
> 0 pour un certain n2 ≥ 0. L’équation de
Chapman et Kolmogorov nous donne alors
X
n1 +n2
Pik = Piℓn1 Pℓk
n2
≥ Pijn1 Pjk
n2
>0
ℓ∈S
Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P, la relation d’accessibilité
peut aussi être exprimée en terme de la variable aléatoire
Théorème 8. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i et j,
des états. Alors, les trois conditions suivantes sont équivalentes :
• i → j,
P∞ n
• n=0 Pij > 0,
• E[Nj |X0 = i] > 0.
40
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2.6.2 Communication
Définition. On dit que les états i et j communiquent, et on écrit alors i ↔ j, si on a i → j et
j → i.
La relation ↔ ainsi définie est appelée la relation de communication sur S induite par la matrice
stochastique P. Cette relation est clairement symétrique : si on a i ↔ j, alors on a aussi j ↔ i.
De plus, la réflexivité et la transitivité de la relation d’accessibilité → entraı̂nent la réflexivité
et la transitivité de la relation de communication ↔. Rappelons qu’une relation qui est à la fois
symétrique, réflexive et transitive est appelée une relation d’équivalence. On a donc le résultat
suivant.
Théorème 9. Soit S, un ensemble fini ou infini dénombrable. Soit P, une matrice stochastique
sur S. La relation de communication sur S induite par la matrice stochastique P est une relation
d’équivalence.
Les classes d’équivalence de la relation de communication ↔ sont appelées les classes de com-
munication de la matrice stochastique P. On dit aussi les classes de communication de la chaı̂ne
de Markov (Xn ; n ≥ 0). Le cas où tous les états communiquent entre eux est particulièrement
important, d’où la définition suivante.
Définition. La matrice stochastique P est dite irréductible s’il existe une seule classe de commu-
nication, c’est-à-dire si on a i ↔ j pour tout i et j dans S. On dira que (Xn ; n ≥ 0) est une chaı̂ne
de Markov irréductible si sa matrice stochastique P est irréductible.
Exemple 6 :
1/3 2/3 0 0 0 0 0
6/7 0 0 0 0 1/7 0
0 0 0 1 0 0 0
P=
0 0 1/4 1/4 1/2 0 0 .
0 0 0 0 0 0 1
0 0 0 0 3/4 1/4 0
0 0 0 0 0 1/5 4/5
Ici l’étudiant peut vérifier que les classes de communication sont {1, 2}, {3, 4} et {5, 6, 7}. Pour voir
ça, il suffit de dessiner le graphe de communication.
Exemple 7 :
1/3 2/3 0 0 0
0 1/2 1/2 0 0
P=
1/4 0 0 3/4 0 .
0 0 0 1/9 8/9
2/3 0 0 1/3 0
En traçant le graphe de communication, l’étudiant peut voir que tous les états communiquent entre
eux. Il y a donc une seule classe de communication. La matrice P est donc irréductible.
41
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 10. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Les trois
conditions suivantes sont équivalentes :
• La chaı̂ne est irréductible,
P∞ n
• n=0 Pij > 0, pour tout choix de i et j dans S,
• E[Nj |X0 = i] > 0, pour tout choix de i et j dans S.
Pour illustrer le concept d’irréductibilité, examinons la marche aléatoire sur {0, 1, 2, ..., m} avec
matrice stochastique
1−r r 0 0 ··· 0 0 0
1−p 0 p 0 ··· 0 0 0
0
1 − p 0 p ··· 0 0 0
P= . .. .. .. .. .. .. .
.. . . . . . .
0 0 0 0 ··· 1 − p 0 p
0 0 0 0 ··· 0 1−q q
p q r Classes de communication
Définition. Une classe de communication C est dite absorbante si la condition suivante est satis-
faite : X
Pij = 1 pour tout i ∈ C.
j∈C
42
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Lorsqu’une classe absorbante est un singleton, disons le singleton C = {i}, l’état i est appelé un
état absorbant. Dans le tableau de l’exemple précédent, les classes absorbantes sont indiquées par
des astérisques.
Si C1 et C2 sont des classes de communication pour P, on dit que C1 est accessible à partir de C2 ,
et on écrit C1 C2 , s’il existe un état i ∈ C2 et un état j ∈ C1 tels que i → j. Il est facile de vérifier
que la relation ainsi définie est une relation d’ordre sur l’ensemble des classes de communication
de P. Autrement dit, la relation satisfait les trois conditions suivantes :
• Réflexivité : Pour toute classe de communication C, on a C C.
• Antisymétrie : Si C1 C2 et C2 C1 , alors C1 = C2 .
• Transitivité : Si C1 C2 et C2 C3 , alors C1 C3 .
Les éléments minimaux de cette relation d’ordre sont précisément les classes absorbantes de P.
2.7 Périodicité
Si H est un ensemble non vide d’entiers positifs, alors pgcd(H) dénote le plus grand commun
diviseur de H, c’est-à-dire le plus grand entier k pour lequel h/k est un entier pour tout h ∈ H.
Voici quelques exemples élémentaires :
Pour la définition suivante, on suppose que S est un ensemble non vide, fini ou infini dénombrable,
et que P est une matrice stochastique sur S.
Définition. Pour i ∈ S, la période de l’état i, dénotée d(i), est définie par l’équation
(
pgcd({n ≥ 1 : Piin > 0}) si {n ≥ 1 : Piin > 0} 6= ∅,
d(i) =
∞ si {n ≥ 1 : Piin > 0} = ∅.
Exemple 8. Considérons la marche aléatoire sur N0 , avec réflexion à l’origine (r > 0). Si la réflexion
est instantanée (r = 1), alors on a d(i) = 2 pour tout i ∈ N0 . Si la réflexion est amortie (0 < r < 1),
alors on a d(i) = 1 pour tout i ∈ N0 .
Exemple 9. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique donnée par
0 1 0 0 0 0
0 0 1/2 0 0 1/2
0 0 0 1 0 0
P= .
0 1/3 0 0 2/3 0
0 0 0 0 0 1
3/5 0 0 2/5 0 0
43
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le résultat suivant nous dit que la périodicité est une notion de classe : à l’intérieur d’une classe
de communication, tous les états ont la même période.
Théorème 11. Soit P, une matrice stochastique sur l’espace d’états S. Soit i et j, des états. Si
i ↔ j, alors d(i) = d(j).
On a donc d(i) = pgcd(A) et d(j) = pgcd(B). Puisque i ↔ j, il existe des entiers positifs n1 et n2
tels que Pijn1 > 0 et Pjin2 > 0. On a donc Pini1 +n2 > 0. Donc n1 + n2 ∈ A. Donc
d(i) divise n.
On a donc montré que d(i) divise tous les entiers n ∈ B. Autrement dit, d(i) est un diviseur commun
de l’ensemble B. Puisque d(j) est le plus grand commun diviseur de l’ensemble B, on conclut que
d(i) ≤ d(j). De la même façon, on montre que d(j) ≤ d(i) et on conclut finalement que d(i) = d(j).
Dans le cas où la chaı̂ne de Markov (Xn ; n ≥ 0) est irréductible, le théorème précédent nous dit
que tous les états ont la même période. Dans ce cas, si la période commune à tous les états est d,
alors on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible de période d. Si d = 1, alors
on dira que (Xn ; n ≥ 0) est une chaı̂ne de Markov irréductible et apériodique. Cette terminologie
sera aussi utilisée pour décrire la matrice stochastique d’une telle chaı̂ne.
44
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Revenons maintenant à nos chaı̂nes de Markov. Dans ce qui suit, P dénote comme d’habitude une
matrice stochastique sur l’espace d’états S.
Théorème 12. Si j est un état apériodique, alors il existe un entier positif m∗j tel que Pjj
m > 0
∗
pour tout m ≥ mj .
Démonstration. Fixons j ∈ S et posons A = {n ≥ 1 : Pjj n > 0}. Si j est apériodique, alors A
est non vide et son plus grand commun diviseur est égal à 1. On vérifie facilement que A est fermé
pour l’addition. En effet, si n1 ∈ A et n2 ∈ A, alors n1 + n2 ∈ A puisque
X
n1 +n2 n1 n2 n1 n2
Pjj = Pjℓ Pℓj ≥ Pjj Pjj > 0.
ℓ∈S
Le Théorème 12 est donc une simple conséquence du théorème de théorie des nombres.
Théorème 13. Si P est irréductible et apériodique, alors pour tout i et j dans S il existe un entier
positif nij tel que Pijn > 0 pour tout n ≥ nij .
Théorème 14. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ tel que
Démonstration. Le théorème précédent nous assure que pour chaque couple (i, j) ∈ S 2 il existe
un entier positif nij tel que Pijn > 0 pour tout n ≥ nij . L’équation (2.14) est alors satisfaite avec
n∗ = max nij .
i,j∈S
Il est important de noter que dans l’énoncé du Théorème 14 l’hypothèse selon laquelle S est un
ensemble fini est importante. Elle nous assure que maxi,j∈S nij < ∞. Le Théorème 14 ne tient pas
si on enlève l’hypothèse selon laquelle S est un ensemble fini. C’est le cas par exemple de la marche
aléatoire sur les entiers non négatifs avec réflexion amortie à 0. Il est facile de voir que pour cette
chaı̂ne de Markov la conclusion du Théorème 14 ne tient pas.
On termine la présente section avec un résultat qui va un peu plus loin que le Théorème 14.
Théorème 15. Si P est irréductible et apériodique et si S est un ensemble fini, alors il existe un
entier positif n∗ et un nombre réel c > 0 tels que
45
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. D’après le Théorème 14, il existe un entier positif n∗ pour lequel l’équation (2.14)
est satisfaite. En particulier on a Pijn∗ > 0 pour tout i et j dans S. Posons
c = min Pijn∗ .
(i,j)∈S 2
Puisque S est un ensemble fini, on a c > 0. Avec ce choix de la constante c, on obtient, pour tout
n ≥ n∗ , X X X
Pijn = Piℓn−n∗ Pℓjn∗ ≥ Piℓn−n∗ c = c Piℓn−n∗ = c ∀i ∈ S, ∀j ∈ S.
ℓ∈S ℓ∈S ℓ∈S
2.9 Récurrence
On considère une chaı̂ne de Markov (Xn ; n ≥ 0) à valeurs dans l’espace d’états S et avec matrice
stochastique P. Pour i ∈ S, on pose
La quantité fi est donc la probabilité conditionnelle de retour à l’état i sachant que la chaı̂ne est
démarrée à l’état i.
Définition. Si fi = 1, on dit que i est un état récurrent. Si fi < 1, on dit que i est un état
transitoire.
Dans certains cas, on peut calculer la probabilité fi sans trop de difficulté. Voici un exemple
élémentaire.
Exemple 10. Considérons le cas où l’espace des états S est l’ensemble de tous les entiers non
négatifs et supposons que les probabilités de transition sont données par
3/4 si j = i
Pi,j = 1/4 si j = i + 1
0 sinon
pour tout i ≥ 0. Il est facile de voir qu’on a alors fi = 3/4 pour tout i ∈ S. Les états sont donc
tous transitoires.
En général il peut être difficile de calculer la probabilité fi . Mais ce qui nous intéresse c’est simple-
ment de pouvoir déterminer si fi = 1 (l’état i est récurrent) ou si fi < 1 (l’état i est transitoire).
Le théorème suivant nous donne un critère pour y arriver.
46
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Si fi < 1, alors la propriété de Markov forte nous permet de conclure que la distribution condition-
nelle du nombre total de visites à l’état i sachant que X0 = i est la loi géométrique avec paramètre
1 − fi . On a donc, dans le cas fi < 1,
m−1
fi (1 − fi ) si m ∈ {1, 2, 3, ...},
P[Ni = m|X0 = i] =
0 si m ∈
/ {1, 2, 3, ...}.
Dans le cas où fi = 1, la propriété de Markov forte nous donne P[Ni = ∞|X0 = i] = 1. On a donc
le résultat suivant, valide autant dans le cas où fi < 1 que dans le cas où fi = 1.
Théorème 16.
1
E[Ni |X0 = i] = .
1 − fi
Le théorème suivant sera notre principal outil pour déterminer si un état est récurrent ou transitoire.
Théorème 17. Soit (Xn ; n ≥ 0), une chaı̂ne de Markov avec matrice stochastique P. Fixons i, un
état. Alors, les trois conditions suivantes sont équivalentes :
(a) L’état i est récurrent,
P∞ n
(b) n=0 Pi i = ∞,
(c) E[Ni |X0 = i] = ∞.
P
Démonstration. Nous avons vu, à la section 2.6, que E[Ni |X0 = i] = ∞ n
n=0 Pi i . Les conditions
(b) et (c) sont donc équivalentes. Par ailleurs le Théorème 16 implique que les conditions (a) et (c)
sont équivalentes.
Exemple 11. Considérons le cas où l’espace des états S est un ensemble fini et où P est irréductible
et apériodique. D’après le Théorème 15, il existe un entier r ≥ 1 et un réel c > 0 tels que
n
Pi,j ≥c ∀i ∈ S, ∀j ∈ S, ∀n ≥ r.
Théorème 18. Supposons que i ↔ j. Alors i est récurrent si et seulement si j est récurrent.
Démonstration. Fixons i et j, des états qui communiquent entre eux et supposons que i est un
état récurrent. Puisque i et j communiquent, il existe un entier n1 ≥ 0 tel que Pjni1 > 0 et il
n2
P∞ unmentier n2 ≥ 0 tel que Pi j > 0. Puisque i est récurrent, le Théorème 17 nous dit que
existe
m=0 Pi i = ∞. On obtient donc
47
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X ∞
X
Pjnj ≥ Pjnj
n=0 n=n1 +n2
X∞
= Pjnj1 +m+n2
m=0
∞ ∞
!
X X
≥ Pjni1 Pimi Pinj2 = Pjni1 Pimi Pinj2
m=0 m=0
P∞
Puisque Pjni1 > 0, Pinj2 > 0 et m
m=0 Pi i = ∞, on conclut que
∞
X
Pjnj = ∞.
n=0
En effet, le résultat suivant est une conséquence immédiate de la définition de récurrence donnée à
la section précédente :
La classification suivante jouera un rôle important lorsque nous étudierons les notions de loi sta-
tionnaire et de convergence des chaı̂nes de Markov.
Définition. Soit i, un état récurrent. Si E[Ti∗ | X0 = i] < ∞, on dit que l’état i est récurrent positif.
Si E[Ti∗ | X0 = i] = ∞, on dit que l’état i est récurrent nul.
Le théorème suivant montre que la propriété de récurrence positive est aussi une propriété de classe.
Théorème 19. Si i est un état récurrent positif et si i ↔ j, alors j est aussi un état récurrent
positif.
48
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Notez que puisque les états i et j communiquent et sont récurrents, on a forcément P[Tj∗ <
Ti∗ | X0 = i] > 0. Toutefois on n’a pas nécessairement P[Ti∗ < Tj∗ | X0 = i] > 0. Pour compléter la
démonstration du Théorème 19, il faudrait traiter séparément le cas où P[Ti∗ < Tj∗ | X0 = i] = 0.
Ce n’est pas très difficile et les détails ne seront pas présentés ici.
Étape 1. Par hypothèse on a E[Ti∗ | X0 = i] < ∞. Combiné avec la condition (2.16) et le fait que
on conclut que
E[Ti∗ | X0 = i, Ti∗ < Tj∗ ] < ∞ et E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] < ∞. (2.17)
Étape 2. Supposons qu’on démarre la chaı̂ne à l’état i et qu’on atteint l’état j avant notre premier
retour à l’état i. La propriété de Markov forte nous dit qu’une fois rendu à j, c’est comme si on
recommeçait à neuf à partir de l’état j, indépendamment du passé. On a donc
E[Ti∗ | X0 = i, Tj∗ < Ti∗ ] = E[Tj∗ + (Ti∗ − Tj∗ ) | X0 = i, Tj∗ < Ti∗ ]
= E[Tj∗ | X0 = i, Tj∗ < Ti∗ ] + E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ]
> E[Ti∗ − Tj∗ | X0 = i, Tj∗ < Ti∗ ] = E[Ti∗ | X0 = j].
On a donc
E[Ti∗ | X0 = j] < E[Ti∗ | X0 = i, Tj∗ < Ti∗ ].
On a vu à l’étape 1 que le terme de droite de cette dernière équation est fini. On conclut que
Étape 3. Si on démarre à l’état j, alors on peut borner supérieurement le temps de retour à l’état
j de la façon suivante :
Tj∗ ≤ Ti∗ + U1 + U2 + · · · + UN + V.
Ici V est la durée la première excursion de i à i qui passe par j et U1 , U2 , ..., UN sont les durées
des excursions de i à i qui ne passe pas par j et qui surviennent avant la première excursion de i
à i passant par j. Ici N est une variable aléatoire avec loi géométrique sur le entiers non négatifs.
Grâce à la propriété de Markov forte, on obtient
E[Tj∗ | X0 = j] ≤ E[Ti∗ + U1 + U2 + · · · + UN + V | X0 = j]
= E[Ti∗ | X0 = j] + E[N ] E[U1 ] + E[V ].
L’étape 2 nous donne E[Ti∗ | X0 = j] < ∞ et l’étape 1 nous donne E[U1 ] < ∞ et E[V ] < ∞. On a
donc E[Tj∗ | X0 = j] < ∞. L’état j est donc récurrent positif.
49
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Considérons le cas particulier d’une chaı̂ne de Markov irréductible et apériodique sur un espace
d’états fini. On a vu à l’exemple 11 que dans ce cas tous les états sont récurrents. Le théorème
suivant va un peu plus loin.
Théorème 20. Si P est irréductible et apériodique et si S est un ensemble fini, alors tous les états
sont récurrents positifs.
Remarque. La conclusion du Théorème 20 est valide même dans le cas périodique. Mais pour la
démonstration il faut invoquer une version du Théorème 15 pour les chaı̂nes de Markov périodiques.
Nous nous concentrons ici sur le cas apériodique.
Chaı̂ne ergodique. Une chaı̂ne de Markov est dite ergodique si elle est irréductible, apériodique
et récurrente positive. Nous verrons au chapitre 4 que les chaı̂nes de Markov ergodiques possèdent
des propriétés asymptotiques remarquables.
50
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 2. On dispose de 4 boules rouges et 4 boules noires. On dispose également de deux urnes ;
l’urne A et l’urne B. Au temps 0, ces 8 boules sont sur la table. Parmi les 8 boules, on en choisit 4
au hasard et on les met dans l’urne A. On met les 4 autres boules dans l’urne B. Ensuite, à chaque
étape, on choisit une boule au hasard dans l’urne A et on l’échange avec une boule choisie au hasard
dans l’urne B. On s’intéresse à la suite de variables aléatoires (Xn ; n ≥ 0), où Xn dénote le nombre
de boules rouges dans l’urne A après n étapes. Pourquoi cette suite de variables aléatoires est-elle
une chaı̂ne de Markov ? Quelle est la loi initiale de cette chaı̂ne de Markov ? Quelle est la matrice
des probabilités de transition de cette chaı̂ne de Markov ? Dessinez le graphe de communication.
La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?
Numéro 3. Au temps 0, un panier contient 3 boules rouges et 3 boules noires. À chaque unité de
temps, on choisit 2 boules au hasard parmi les 6 boules du panier. Si la paire choisie comprend une
rouge et une noire, on met ces 2 boules de côté et on les remplace dans le panier par 2 boules bleues.
Si la paire choisie ne comprend pas une rouge et une noire, on remet ces 2 boules dans le panier. On
pose Xn = le nombre de boules rouges dans le panier au temps n. La suite (X0 , X1 , X2 , ...) est une
chaı̂ne de Markov. Quel est l’espace des états ? Quelle est la loi initiale ? Obtenez la matrice des
probabilités de transition. Dessinez le graphe de communication. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ? Obtenez la distribution de X3 .
Numéro 4. On considère 2 individus. Il sont tous les deux de génotype aA. Ces deux individus
auront 2 enfants qui constitueront la génération suivante. Chaque enfant reçoit un gène de chaque
parent. Ainsi, chaque génération est constituée de deux individus. Ces deux individus auront deux
enfants qui formeront la génération suivante. On pose Xn = l’ensemble des génotypes présents à la
génération n. L’espace des états est donc
Quelle est la loi initiale ? Obtenez la matrice des probabilités de transition. Dessinez le graphe de
communication. La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ?
Calculez P [X1 = {aa, AA}, X2 = {aA}, X3 = {aa}].
51
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 5. Voici une version élémentaire du jeu des serpents et des échelles. L’échiquier est de
dimension 3 par 3. Il y a donc 9 cases numérotées de 1 à 9. Il y a deux échelles : une qui va de la
case 2 à la case 7 et une qui va de la case 3 à la case 5. Il y a deux serpents : un qui va de la case 6
à la case 1 et un qui va de la case 8 à la case 4. On joue avec une pièce de monnaie au lieu d’un dé.
Avec Pile, on avance de une case, avec Face on avance de deux cases. La position d’un joueur après
n lancers peut être décrite à l’aide d’une chaı̂ne de Markov. Expliquez comment. Quel est votre
espace d’états ? Obtenez la matrice des probabilités de transition. La chaı̂ne est-elle irréductible ?
Apériodique ? Récurrente ? Récurrente positive ?
Numéro 6. Un village compte m individus. Ces individus sont tous des solitaires. Ils se promènent
dans le village. Certains individus sont des zombies, d’autres sont en santé. À chaque unité de temps,
deux individus se rencontrent. Les m 2 choix possibles sont équiprobables. Si ces deux individus sont
tous les deux des zombies ou tous les deux des individus en santé, rien ne se produit. Si un des deux
est un zombie et l’autre est en santé, l’individu en santé a une probabilité p de se faire mordre et de
devenir un zombie. Les zombies demeurent des zombies pour toujours. On pose Xn = le nombre de
zombies après les n premières rencontres. Obtenez la matrice stochastique de la chaı̂ne de Markov
(Xn ; n ≥ 0). La chaı̂ne est-elle irréductible ? Apériodique ? Récurrente ? Récurrente positive ? Dans
le cas où m = 20 et p = 2/5, calculez P[(X1 , X2 , X3 , X4 ) = (7, 8, 8, 9)|X0 = 6].
Numéro 7. Suite problème numéro 6. Supposons qu’au temps 0 la population compte 1 zombie et
m − 1 individus en santé. Posons
T = min{n ≥ 0 : Xn = m}.
Ce T est donc le temps que ça prendra, c’est-à-dire le nombre de rencontres que ça prendra, pour
que toute la population soit transformée en zombies.
(a) Obtenez une expression aussi simple que possible, en termes de p et N , pour E[T ].
(b) Optionnel. Montrez que
E[T ] 1
lim = .
m→∞m log(m) p
P −1
Suggestion pour la partie (a) : Écrivez T sous la forme T = N i=1 (Vi+1 − Vi ) avec Vi = min{n ≥
0 : Xn = i}. Quelle est la distribution de la variable Vi+1 − Vi ?
Numéro 8. On considère une séquence de lancers d’un dé ordinaire. On pose S(0) = 0 et, pour
chaque entier k ≥ 1, on pose S(k) = la somme des résultats des k premiers lancers. Pour chaque
entier n ≥ 0, on pose Xn = S(Kn ) − n avec Kn = min{k ≥ 0 : Sk ≥ n}. La suite (Xn ; n ≥ 0) est
une chaı̂ne de Markov.
(a) Quel est l’espace des états de cette chaı̂ne de Markov ?
(b) Quelle est la loi initiale ?
(c) Quelle est la matrice des probabilités de transition ?
(d) Dessinez le graphe de communication.
(e) Voici, dans l’ordre, les résultats des 9 premiers lancers : 6, 3, 5, 1, 6, 2, 4, 5, 2. Dessinez la
trajectoire (Xn ; 0 ≤ n ≤ 30).
Numéro 9. Soit P, une matrice stochastique sur S. Montrez que si on a, pour un certain entier
positif r, Pijr > 0 pour tout i ∈ S et j ∈ S, alors on a Pijn > 0 pour tout i ∈ S et j ∈ S et pour tout
n ≥ r.
52
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 10. On suppose que Y−1 , Y0 , Y1 , Y2 , Y3 , ... sont i.i.d. Bernoulli(1/2) et, pour n ≥ 0, on
pose Xn = Yn−1 + Yn . Exemple : les Yj représentent les résultats de lancers d’une pièce de monnaie
(pile = 1 et face = 0) et Xn représente le nombre de piles lors des deux derniers lancers. La suite
(Xn ; n ≥ 0) est-elle une chaı̂ne de Markov ? Si oui, donnez l’espace des états, la loi initiale et la
matrice des probabilités de transition. Si non, expliquez pourquoi.
Numéro 11. Dans chacun des cas suivants dessinez le graphe de communication et identifiez les
classes de communication de la matrice stochastique P. La chaı̂ne est-elle irréductible ? Y a-t-il des
classes absorbantes ? Y a-t-il des états absorbants ?
(a) L’espace des états est N0 = {0, 1, 2, 3, ...} et les probabilités de transition sont données par
les équations suivantes : Pij = 3/4 si j = i + 1 et Pij = 1/4 si j = i.
(b) L’espace des états est S = {1, 2, 3, 4, 5, 6} et la matrice des probabilités de transition est
0 1/3 1/3 1/3 0 0
0 1 0 0 0 0
0 0 1/2 0 1/2 0
P= 0 0
0 0 0 1
0 0 1/2 0 1/2 0
1 0 0 0 0 0
(c) L’espace des états est Z = {...−2, −1, 0, 1, 2, ...} et les probabilités de transition sont données
par les équations suivantes : P0,1 = 1 et...
• Si i ∈ {1, 2, 3, ....}, alors
1/100 si j =i−1
1/100 si j =i
Pi,j =
97/100 si j =i+1
1/100 si j = −i
53
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 12. L’espace des états est S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13} et la matrice des pro-
babilités de transition est
0 1/3 0 1/3 0 0 0 0 0 1/3 0 0 0
0 0 1 0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0
0 0 0 0 0 0 1 0 0 0 0 0 0
P= 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0
1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1/2 0 1/2
0 0 0 0 0 0 0 0 0 1/2 0 1/2 0
0 0 0 0 0 0 0 0 0 0 1/2 0 1/2
0 0 0 0 0 0 0 0 0 1/2 0 1/2 0
Numéro 13. On considère une chaı̂ne de Markov avec matrice stochastique P sur un espace d’états
fini S de cardinal, disons, m. On fixe i et j dans S, avec i 6= j. Montrez que si il existe un entier
n ≥ 1 tel que Pijn > 0, alors forcément il existe un entier 1 ≤ no < m tel que Pijno > 0.
Numéro 14. On suppose que les hypothèses suivantes sont valides pour le centre-ville de Vancou-
ver :
(i) Si il a plu hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.75.
(ii) Si il a fait beau hier et il pleut aujourd’hui, alors la probabilité qu’il pleuve demain est 0.55.
(iii) Si il a plu hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est 0.25.
(iv) Si il a fait beau hier et il fait beau aujourd’hui, alors la probabilité qu’il pleuve demain est
0.15.
Avec ces informations, expliquer comment on peut modéliser l’évolution de la météo au centre-ville
de Vancouver avec l’aide d’une chaı̂ne de Markov. Spécifiez l’espace des états et la matrice des
probabilités de transition.
Numéro 15. On considère le modèle de Ehrenfest avec m boules et avec Xn = le nombre de boules
dans l’urne A au temps n. On fixe 0 ≤ k ≤ m et on pose µn = E[Xn | X0 = k].
(a) En conditionnant sur Xn , montrez que µn+1 = 1 + (1 − 2/m)µn .
(b) Avec l’aide du résultat de la partie (a), exprimez µn sous une forme compacte en termes de
ℓ
n, m et k. Rappel : 1 + r + r 2 + r 3 + · · · + r ℓ−1 = 1−r
1−r .
(c) Utilisez le résultat de la partie (b) pour obtenir limn→∞ µn .
54
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 16.
(a) On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, ...} avec
−1/i2
e si j = i + 1
2
Pij = 1 − e−1/i si j = 1
0 sinon
55
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
56
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 3
Marches aléatoires
Dans le présent chapitre nous étudions un type particulier de chaı̂ne de Markov à temps discret :
les marches aléatoires. Ceci nous permettra d’illustrer plusieurs concepts étudiés au chapitre 2.
alors la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov sur Z, issue de l’origine et avec matrice
stochastique donnée par
p si j = i + 1,
Pij = 1 − p si j = i − 1,
0 si j ∈
/ {i − 1, i + 1}.
Cette chaı̂ne de Markov est appelée la marche aléatoire sur Z. Si p = 1/2, on dit que la marche
aléatoire est symétrique. Si p > 1/2, on dit qu’il y a dérive vers la droite alors que si p < 1/2 on
dit qu’il y a dérive vers la gauche. Avec la description ci-dessus, notre marche aléatoire est dite
issu de l’origine. On peut bien sûr considérer le cas où la marche aléatoire démarre à partir d’un
autre point ainsi que le cas où elle démarre à partir d’un point choisi au hasard selon une certaine
distribution de probabilité sur Z.
En examinant son graphe de communication, on constate que cette chaı̂ne de Markov est irréductible
et qu’elle est de période 2. La chaı̂ne étant irréductible, le Théorème 18 du chapitre 2 nous assure
que les états sont ou bien tous récurrents, ou bien tous transitoires. Examinons ce qui se passe avec
l’état 0. Pour déterminer
P∞si nous sommes dans le Pcas récurrent ou dans le cas transitoire, il suffit
n ∞ n < ∞.
de déterminer si on a n=0 P00 = ∞ ou si on a n=0 P00
n > 0 si
En examinant le graphe de communication de cette marche aléatoire, on constate que P00
et seulement si n est un entier pair. On obtient donc
∞
X ∞
X
n 2n
P00 = P00 .
n=0 n=0
57
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Si la marche aléatoire est à l’origine au temps zéro, alors elle sera à l’origine au temps 2n si et
seulement si il y a, parmi les 2n premiers pas, exactement n pas vers la droite et n pas vers la
gauche. Il y a en tout 2nn trajectoires différentes, de longueur 2n, avec n pas vers la droite et n
pas vers la gauche. Chacune de ces trajectoires a une probabilité égale à pn (1 − p)n . On a donc
2n 2n n
P00 = p (1 − p)n ,
n
de sorte que
∞ ∞ ∞ ∞
X
n
X
2n
X 2n n n
X (2n)!
P00 = P00 = p (1 − p) = (p (1 − p))n .
n n! n!
n=0 n=0 n=0 n=0
Est-ce que cette somme converge ou est-ce qu’elle diverge ? Pour répondre à cette question, nous
allons invoquer la formule de Stirling. Cette formule, habituellement écrite sous la forme suivante
√
n! ∼ nn e−n 2πn, (3.1)
√
nous dit que n! est asymptotiquement équivalent à nn e−n 2πn. Le sens précis de l’équation (3.1)
est le suivant :
n!
lim √ = 1.
n→∞ n en −n 2πn
En appliquant 3 fois la formule de Stirling, on obtient
√
2n (2n)! (2n)2n e−2n 2π2n 22n
= ∼ √ √ =√ .
n n! n! nn e−n 2πn nn e−n 2πn πn
On a donc
2n 2n n 22n (4p (1 − p))n
P00 = p (1 − p)n ∼ √ (p (1 − p))n = √ .
n πn πn
On a donc obtenu le résultat suivant.
58
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P∞
Démonstration. P∞ La démonstration se fait en deux partie. D’une part
P∞ on montre que si Pn=1 an
∞
converge, alors n=1 bn converge. D’autre part on montre que si n=1 an diverge, alors n=1 bn
diverge. Rappelons d’abord que notre hypothèse an ∼ bb signifie que limn→∞ abnn = 1. Cela implique,
entre autres choses, qu’il existe un entier n∗ tel que
1 an
≤ ≤ 2 pour tout n ≥ n∗ . (3.4)
2 bn
P
Première partie. Supposons que ∞ n=1 an < ∞. La première inégalité de l’équation (3.4) nous
donne bn ≤ 2an pour tout n ≥ n∗ et on obtient donc
∞
X nX
∗ −1 ∞
X nX
∗ −1 ∞
X
bn = bn + bn ≤ bn + 2 an < ∞.
n=1 n=1 n=n∗ n=1 n=n∗
P
Deuxième partie. Supposons que ∞ n=1 an = ∞. La deuxième inégalité de l’équation (3.4) nous
donne bn ≥ an /2 pour tout n ≥ n∗ et on obtient donc
∞ ∞ ∞
X X 1 X
bn ≥ bn ≥ an = ∞.
n=n∗
2 n=n
n=1 ∗
Théorème 1. Dans le cas symétrique, la marche aléatoire sur Z est récurrente. Dans le cas
asymétrique elle est transitoire.
59
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
la marche aléatoire symétrique sur Z de la façon suivante. On se donne une suite de variables
aléatoires indépendantes et identiquement distribuées, disons ξ1 , ξ2 , ξ3 , ..., avec distribution
et on pose
0P si n = 0
Xn = n
j=1 ξj si n ≥ 1.
La suite (Xn ; n ≥ 0) est alors une marche aléatoire symétrique sur Z, issue de l’origine. Avec cette
représentation, on a
X2n
2n
P00 = P[X2n = 0 | X0 = 0] = P ξj = 0 .
j=1
Pour la marche aléatoire symétrique sur Z2 , la particule démarre au point (0, 0). À chaque unité
de temps la particule se déplace vers un des quatre sites adjacents, chaque direction ayant la même
probabilité 1/4 d’être choisie. Dans le cas d = 3, chaque état possède six voisins. La particule
démarre au point (0, 0, 0) et à chaque unité de temps elle se déplace vers un des six sites adjacents,
chaque direction ayant la même probabilité 1/6 d’être choisie. Dans Zd chaque état possède 2d
voisins. Par exemple, dans Z5 , les 10 voisins de l’état (8, 3, −2, 7, 28) sont les états
(8, 3, −2, 7, 29) (8, 3, −2, 8, 28) (8, 3, −1, 7, 28) (8, 4, −2, 7, 28) (9, 3, −2, 7, 28)
(8, 3, −2, 7, 27) (8, 3, −2, 6, 28) (8, 3, −3, 7, 28) (8, 2, −2, 7, 28) (7, 3, −2, 7, 28)
Plus généralement, les voisins du point (j1 , j2 , ..., jd ) ∈ Zd sont les 2d points de Zd qui diffèrent du
point (j1 , j2 , ..., jd ) en une seule coordonnée et pour lesquels la valeur absolue de cette différence
est égale à 1. À chaque unité de temps, la marche aléatoire effectue une transition vers un des
2d états voisins. Ces transitions se font avec probabilité 1/(2d) pour chacune des 2d directions
possibles. La matrice stochastique associée à la marche aléatoire symétrique sur Zd est donc la
matrice P = (Pij ; i ∈ Zd , j ∈ Zd ), avec
(
1
2d si |i − j| = 1
Pij =
0 si |i − j| 6= 1.
60
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
À la lumière des équations (3.3) et (3.5), on pourrait être tenté de croire que pour la marche
aléatoire symétrique sur Zd on a
!d
2n
2n n 1
P00 = ∼ .
22n (πn)d/2
Attention, cette généralisation ne tient pas ! En réalité, l’égalité ci-dessus est valide seulement dans
le cas d = 1 et dans le cas d = 2. Par ailleurs, le résultat suivant est vraie pour tout d ≥ 1 :
2n dd/2 /2d−1
P00 ∼ . (3.6)
(πn)d/2
61
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. Prenons le cas d = 3. Le théorème de Polya nous dit que la marche aléatoire symétrique
sur Z3 est transitoire. Donc, partant de l’origine il n’est pas certain que nous reviendrons un jour
à l’origine. Mais alors, quelle est la probabilité de retour à l’origine ? Il existe une formule très
compliquée qui permet de calculer cette probabilité. Cette formule nous donne f0 = 0.340537330...
On suppose que 0 < p < 1. Dans ce cas, il y a 3 classes de communication. Ce sont les ensembles
{0}, {1, 2, ..., m − 1} et {m}. La classe {1, 2, ..., m − 1} est transitoire et les états 0 et m sont
absorbants. Considérons les temps
min{n ≥ 0 : Xn = 0} si {n ≥ 0 : Xn = 0} 6= ∅
T0 =
∞ sinon,
min{n ≥ 0 : Xn = m} si {n ≥ 0 : Xn = m} 6= ∅
Tm =
∞ sinon,
T{0,m} = min{T0 , Tm }.
Imaginez que notre marche aléatoire est obtenue de la façon suivante. On démarre à l’état k. À
chaque unité de temps, on lance une pièce de monnaie dont la probabilité de pile est p. Si on obtient
pile, on fait un pas vers la droite (à moins d’être déjà rendu à l’état m). Si on obtient face, on
fait un pas vers la gauche (à moins d’être déjà rendu à l’état 0). Considérons les blocs de temps
B1 = {0, 1, 2, ..., m−1}, B2 = {m, m+1, m+2, ..., 2m−1}, B3 = {2m, 2m+1, 2m+2, ..., 3m−1}, B4 =
{3m, 3m + 1, 3m + 2, ..., 4m − 1}, etc. La probabilité que la pièce de monnaie nous donne m piles
62
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
consécutives ou m faces consécutives durant le bloc de temps Bℓ est pm + (1 − p)m > 0. Il est donc
certain que pour notre séquence de lancers de la pièce de monnaie on obtiendra éventuellement
un bloc Bℓ pour lequel les m lancers auront donné la même face. La probabilité que notre marche
aléatoire n’atteigne jamais l’ensemble {0, m} est donc nulle. L’équation (3.7) est donc satisfaite.
Ce vm (k) est donc la probabilité d’absorption à m étant donnée que la marche démarre à l’état k.
Trivialement on a vm (0) = 0 et vm (m) = 1. Pour k ∈ {1, 2, 3, ..., m − 1} on obtient
On a donc
vm (0) = 0
vm (k) = (1 − p) vm (k − 1) + p vm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
vm (m) = 1
Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est donnée
par
k
vm (k) = . (3.8)
m
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est
donnée par
k
1 − 1−pp
vm (k) = m . (3.9)
1−p
1− p
Théorème 3. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m}, k
m si p = 1/2
k
P[Tm < T0 |X0 = k] =
1− 1−p p
1− 1−p m si p =
6 1/2.
p
Calculons maintenant l’espérance de la variable aléatoire T{0,m} . Pour k ∈ {0, 1, 2, ..., m}, posons
Ce wm (k) est donc le temps moyen avant absorption pour la marche aléatoire sur {0, 1, 2, ..., m}
lorsque l’état initial est l’état k. Trivialement on a wm (0) = wm (m) = 0. Pour k ∈ {1, 2, 3, ..., m−1}
63
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
on obtient
On a donc
wm (0) = 0
wm (k) = 1 + (1 − p) wm (k − 1) + p wm (k + 1) pour tout k ∈ {1, 2, 3, ..., m − 1}
wm (m) = 0
Dans le cas symétrique, c’est-à-dire le cas p = 1/2, l’unique solution de cette équation est alors
donnée par
wm (k) = k(m − k). (3.10)
Dans le cas non symétrique, c’est-à-dire le cas p 6= 1/2, l’unique solution de cette équation est alors
donnée par
k
1−p
k m 1 − p
wm (k) = − . (3.11)
1 − 2p 1 − 2p 1 − 1−p m
p
Théorème 4. Pour la marche aléatoire sur {0, 1, 2, ..., m} avec paramètre p, on a, pour tout k ∈
{0, 1, 2, ..., m},
k(m − k) si p = 1/2
k
E[T{0,m} |X0 = k] =
1− 1−p
k m p
1−2p − 1−2p 1− 1−p m si p 6= 1/2.
p
Remarque. En anglais, la technique utilisée dans la présente section est appelée first step analysis,
la raison étant que nous avons conditionné sur le résultat du premier pas.
64
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On s’intéresse au cas irréductible. On suppose donc que 0 < p < 1 et 0 < r ≤ 1. Posons
Lorsque X0 = k > 0 on a
B = ∩∞
m=k+1 Bm et Bk+1 ⊃ Bk+2 ⊃ Bk+3 ⊃ · · ·
On a donc
1−p k si p > 1/2
P[T0 < ∞|X0 = k] = p (3.12)
1 si p ≤ 1/2.
Ce résultat nous permet, entre autres choses, de conclure que dans le cas irréductible (0 < r ≤ 1 et
0 < p < 1) la marche aléatoire sur N0 est transitoire si p > 1/2 et récurrente si p ≤ 1/2.
Nous allons maintenant considérer le cas irréductible et récurrent (0 < r ≤ 1 et 0 < p ≤ 1/2) et
nous allons déterminer si la récurrence est nulle ou positive. Comme à la section précédente, posons
T{0,m} = min{T0 , Tm } et notons que si X0 = k alors on a T{0,k+1} ≤ T{0,k+2} ≤ T{0,k+3} ≤ · · · et
T0 = lim T{0,m} .
m→∞
E[T0 |X0 = k] = E[ lim T{0,m} |X0 = k] = lim E[T{0,m} |X0 = k] = lim k(m − k) = ∞
m→∞ m→∞ m→∞
On conclut que si p = 1/2 on a récurrence nulle alors que si p < 1/2 on a récurrence positive.
65
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
E[T0∗ | X0 = 0] = ∞. (3.13)
où T0∗ dénote le temps du premier retour à l’état 0, c’est-à-dire T0∗ = min{n ≥ 1 : Xn = 0}. Voici
deux méthodes différentes pour démontrer l’équation (3.13).
Première méthode. Puisqu’on démarre à l’origine, au temps 1 on se retrouve où bien à l’état 1,
ou bien à l’état -1. On a vu à la section précédente que, partant de l’état 1, l’espérance du temps
nécessaire pour atteindre l’état 0 est infini. Par symétrie il en est de même si on part de l’état -1.
On a donc
E[T0∗ | X0 = 0]
= E[T0∗ | X0 = 0, X1 = 1] P[X1 = 1 | X0 = 0] + E[T0∗ | X0 = 0, X1 = −1] P[X1 = −1 | X0 = 0]
∗ 1 ∗ 1
= (1 + E[T0 | X0 = 1]) × (1 + E[T0 | X0 = −1]) ×
2 2
1 1
= (1 + ∞) × + (1 + ∞) × = ∞.
2 2
Deuxième méthode. L’argument suivant nous permet d’obtenir l’équation (3.13). Il nous permet
également de mieux comprendre ce qui se passe entre deux visites à l’état 0. Pour tout m ∈ Z,
posons
T0∗ −1
X
Km = I{m} (Xn ).
n=0
Cette variable aléatoire Km représente donc le nombre total de visites à l’état m avant le temps
T0∗ . On a alors X
T0∗ = Km
m∈Z
et il s’ensuit que X
E[T0∗ | X0 = 0] = E[Km | X0 = 0]. (3.14)
m∈Z
Nous allons maintenant calculer, pour tout m ∈ Z, l’espérance conditionnelle E[Km | X0 = 0]. Le
cas m = 0 est trivial. On a E[K0 | X0 = 0] = 1. Pour m 6= 0, il suffit de calculer E[Km | X0 = 0]
dans le cas m > 0 puisque par symétrie on a E[K−m | X0 = 0] = E[Km | X0 = 0].
66
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
l’état m avant d’atteindre l’état 0 (ce qui survient avec probabilité 1/m en vertu du Théorème 3).
On a donc
1
P[Km ≥ 1 | X0 = 0] = .
2m
De même, on aura Km ≥ 2 si et seulement si on a Km ≥ 1 (ce qui survient avec probabilité 1/2m)
et, après notre première visite à l’état m, ou bien notre prochain pas est un pas vers la droite
(probabilité 1/2), ou bien notre prochain pas est un pas vers la gauche (probabilité 1/2) et par la
suite on atteint l’état m avant d’atteindre l’état 0 (probabilité (m − 1)/m en vertu du Théorème
3). On obtient donc
1 1 1m−1 1 1
P[Km ≥ 2 | X0 = 0] = + = 1− .
2m 2 2 m 2m 2m
L’équation (3.14) combinée avec la Proposition 4 nous donne l’équation (3.13). On a donc démontré,
de deux façons différentes, le résultat suivant.
Remarques.
1. Voici une troisième méthode pour montrer que la récurrence de la marche aléatoire symétrique
sur Z est une récurrente nulle. On peut montrer que la distribution conditionnelle de la va-
riable T0∗ sachant que X0 = 0 est donnée par
2k−2
k−1
P[T0∗ = 2k | X0 = 0] = k = 1, 2, 3, ...
k 22k−1
67
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On considère un graphe simple connexe, disons le graphe (S, A). Pour x ∈ S, on pose
Définition. Soit (S, A), un graphe simple connexe. La marche aléatoire sur (S, A) est la chaı̂ne de
Markov avec espace d’états S et avec probabilités de transition données par
1/degré(i) si j est un voisin de i
Pij =
0 sinon.
Certains des exemples étudiés dans le présent chapitre sont en fait des exemples de marche aléatoires
sur des graphes simples connexes. En voici trois.
1. La marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instantannée à 0 et à m.
L’étudiant peut vérifier que dans cet exemple on a degré(0) = degré(m) = 1 et degré(i) = 2
pour tout i ∈ {1, 2, ..., m − 1}.
2. La marche aléatoire symétrique sur Z. Dans ce cas on a degré(ℓ) = 2 pour tout ℓ ∈ Z.
3. La marche aléatoire symétrique sur Z2 . Dans ce cas on a degré(ℓ) = 4 pour tout ℓ ∈ Z2 .
Au prochain chapitre, nous verrons quelques propriétés et applications intéressantes des marches
aléatoires sur les graphes simples connexes finis.
68
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 1. André dispose de 20$ et Benoı̂t dispose de 15$. Il vont jouer à pile ou face jusqu’à ce
que l’un d’eux se ruine. À chaque pile André donne 25 cents à Benoı̂t. À chaque face Benoı̂t donne
25 cents à André. Quelle est la probabilité que André gagne ? Si la pièce est lancée à toutes les 30
secondes, le jeu durera en moyenne combien de temps ?
Numéro 2. Charles dispose de 20$ et Denis dispose de 15$. Il vont jouer à lancer un dé jusqu’à
ce que l’un d’eux se ruine. Quand le lancer du dé donne lieu à un 1 ou un 4, Denis donne 25 cents
à Charles. Quand le lancer du dé donne lieu à un 2, un 3, un 5 ou un 6, Charles donne 25 cents à
Denis. Quelle est la probabilité que Charles gagne ? Si le dé est lancé à toutes les 30 secondes, le
jeu durera en moyenne combien de temps ?
Numéro 3. Au Casino Chez Fabien, il y a un seul jeu et une seule sorte de joueur. Lorsqu’un
joueur se présente, il arrive toujours avec 40$. Il mise toujours 1$ et il finit toujours par se ruiner.
On suppose qu’à chaque fois qu’il mise 1$, il a une probabilité p de gagner 1$ (en plus de récupérer
le 1$ qu’il a misé) et une probabilité 1 − p de perdre son 1$. Le joueur mise 1$ à toutes les 30
secondes, jusqu’à ce qu’il soit complètement ruiné. On a observé les temps de jeu des 457 derniers
joueurs. Le temps moyen requis pour se ruiner était de 3h40m. Estimez p.
P
Numéro 4. En classe on a utilisé le critère basé sur ∞ n
n=0 Pii pour montrer que la marche aléatoire
sur Z est récurrente si p = 1/2 et non récurrente si p 6= 1/2. Avec l’aide de la loi des grands
nombres, donnez une démonstration alternative de la non récurrence de la marche aléatoire sur Z
lorsque p 6= 1/2. Suggestion : On écrit Xn pour dénoter la position au temps n. On suppose que
la marche démarre à l’origine. Donc X0 = 0. On peut alors exprimer Xn de la façon suivante :
Xn = η1 + η2 + · · · + ηn avec η1 , η2 , η3 , ... i.i.d. avec distribution donnée par P[ηj = −1] = 1 − p et
P[ηj = 1] = p. Quelle est l’espérance des ηj ? Qu’est-ce que la loi des grands nombres nous dit au
sujet de Xn /n ? Qu’est-ce qu’elle nous dit au sujet de Xn ?
Numéro 5. SupposonsPque η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. Poisson(1). Posons Y0 = 0
et, pour n ≥ 1, Yn = nk=1 (ηk − 1).
(a) Obtenez la fonction de masse de Yn et calculez sa moyenne et sa variance.
(b) Expliquez en quelques mots pourquoi la suite de variables aléatoires (Yn ; n ≥ 0) est une
chaı̂ne de Markov sur l’espace d’états Z.
(c) Obtenez une expression pour les probabilités de transition Pij .
(d) La chaı̂ne (Yn ; n ≥ 0) est-elle irréductible ? Est-elle apériodique ?
P
(e) La chaı̂ne (Yn ; n ≥ 0) est-elle récurrente ? Utilisez le critère basé sur ∞ n
n=0 P00 .
69
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 7. On considère la marche aléatoire (Xn ; n ≥ 0) sur le graphe suivant. L’espace des états
est l’ensemble des 13 sommets. À partir d’un sommet, on se déplace vers un sommet choisi au
hasard et de façon uniforme parmi nos voisins immédiats.
L’état situé en plein centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en
commençant par l’état situé à droite de A et en voyageant dans le sens anti-horaire, les états
B, C, D, E, F et G. Les 6 états en périphérie sont, en commençant par celui d’en haut et en voya-
geant dans le sens anti-horaire, les états H, I, J, K, L et M . On pose
0 si Xn = A
Yn = 1 si Xn ∈ {B, C, D, E, F, G}
2 si Xn ∈ {H, I, J, K, L, M }.
La suite (Yn ; n ≥ 0) est-elle une chaı̂ne de Markov sur {0, 1, 2} ? Si oui, quelle est sa matrice
stochastique ? Si non, pourquoi ?
Un joueur se présente au casino de Charlevoix avec 100$. Il joue uniquement à la roulette et il mise
toujours 10$ sur le rouge. Il joue jusqu’à ce que sa fortune atteigne 200$ ou jusqu’à ce qu’il soit
ruiné, selon le cas.
(a) Calculez la probabilité que le joueur rentrera chez lui avec 200$.
(b) En supposant que le croupier fait tourner la roulette 30 fois par heure, combien d’heures en
moyenne notre joueur passera-t-il au casino ?
(c) Le joueur vient de rentrer chez lui. Calculez la probabilité que durant son séjour au casino
sa fortune maximale aura été de 170$.
70
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 9. Une particule se déplace sur le graphe binaire infini dessiné ci-dessous. L’ensemble
des états (ou sites) est l’ensemble S de tous les sommets du graphe. À chaque unité de temps, la
particule se déplace vers un de ses voisins, c’est-à-dire vers un des sites adjacents au site où elle
se trouve présentement. Notez que le site O n’a que deux voisins alors que tous les autres sites
ont exactement trois voisins. Lors d’une transition, les sites adjacents ont tous la même probabilité
d’être choisi.
(a) Obtenez la probabilité que partant du site C la particule visitera un jour le site O.
(b) Cochez la bonne case :
L’état C est transitoire.
L’état C est récurrent nul.
L’état C est récurrent positif.
Numéro 10.
(a) Avec la notation de la section 3.3, calculez vm (50) et wm (50) dans le cas où m = 100 et
p = 0.48.
(b) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k pour laquelle la probabilité
vm (k) est le plus proche possible de 1/2.
(c) Toujours dans le cas où m = 100 et p = 0.48, trouvez la valeur k qui maximize l’espérance
wm (k).
71
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 11. On fixe m, un entier positif, et on fixe 0 < r < 1. On considère (Xn ; n ≥ 0), la marche
aléatoire symétrique sur {0, 1, 2, ..., m}, avec absorption à 0 et à m et avec ralentissement de taux r
partout ailleurs. Il s’agit de la chaı̂ne de Markov sur {0, 1, 2, ..., m} avec probabilités de transition
données par P00 = Pmm = 1 et, pour 0 < i < m,
1−r
2 si j = i − 1
Pij = r si j = i
1−r
2 si j = i + 1
(a) Dessinez le graphe de communication. Quelles sont les classes de communication ? Quels
sont les états transitoires ? Quels sont les états récurrents ? Déterminez la période de chaque
état.
(b) Partant de l’état i, quelle est la probabilité d’absorption à l’état 0 ? À l’état m ?
(c) Si cette chaı̂ne de Markov démarre à un état i autre que l’état 0 ou l’état m, quel est la
distribution du temps passé à cet état i avant de faire une première vraie transition (c’est-
à-dire une transition vers un état autre que l’état i) ?
(d) Partant de l’état i, quelle est l’espérance du temps d’absorption
Numéro 12. Dans le cas m > 0, obtenez la fonction de masse de la variable aléatoire Km de la
section 3.5, conditionnellement à X0 = 0. Dessinez le graphe de cette fonction de masse dans les
cas m = 1, m = 2, m = 3, m = 10.
Numéro 13. Considérons la marche aléatoire sur N0 = {0, 1, 2, 3, ...} avec p = 1/2. On pose
T = min{n ≥ 0 : Xn = 0}. On fixe m, un entier strictement plus grand que 0. On pose
T
X
Vm = 1{m} (Xn ).
n=0
La variable aléatoire Vm dénote donc le nombre total de visites à l’état m avant le temps T . Pour
k ≥ 0, calculez E[Vm | X0 = k].
Suggestions :
• Calculez d’abord E[Vm | X0 = m]. Pour y arriver, il suffit de voir que la distribution condi-
tionnelle de Vm sachant X0 = m est une loi géométrique sur les entiers positifs.
• Obtenez ensuite E[Vm | X0 = k] dans le cas où k > m.
• Enfin, obtenez E[Vm | X0 = k] dans le cas où 0 ≤ k < m.
Numéro 14. On considère la marche aléatoire (Xn ; n ≥ 0) sur Z, avec paramètre p > 1/2. On
pose
X∞
N= 1{0} (Xn ).
n=0
Autrement dit, N dénote le nombre total de visite à l’origine durant la vie entière de la marche
aléatoire. Pour chaque k ∈ Z, obtenez la distribution conditionnelle de N sachant X0 = k.
72
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 15. Une particule se déplace sur les 11 points du shéma ci-dessous. La particule démarre
au point A. À chaque unité de temps la particule se déplace vers un des deux points adjacents ;
elle va dans le sens horaire avec probabilité 3/5, dans le sens anti-horaire avec probabilité 2/5.
Si Xn dénote la position de la particule après n transitions, alors la suite de variables aléatoires
(Xn ; n ≥ 0) est une chaı̂ne de Markov.
(a) Il est clair que cette chaı̂ne de Markov est irréductible. Est-elle périodique ou apériodique ?
Si elle est périodique, donnez sa période. Si elle est apériodique, expliquez pourquoi.
(b) Obtenez l’espérance du temps que ça va prendre, en partant du point A, pour atteindre le
point B.
Numéro 16. On considère la marche aléatoire (Xn ; n ≥ 0) sur N0 , avec paramètre p = 1/2 et avec
réflexion instantannée à l’origine. Pour k ∈ N0 , on pose
Tk = min{n ≥ 0 : Xn = k}.
Numéro 17. Xavier se déplace sur Z selon une marche aléatoire (Xn ; n ≥ 0) issue du point 25 et
avec paramètre p = 2/3. Indépendamment de Xavier, Yvonne se déplace sur Z selon une marche
aléatoire (Yn ; n ≥ 0) issue du point 15 et avec paramètre p = 3/4. Calculez l’espérance du temps que
ça va prendre pour que Yvonne rattrape Xavier. Autrement dit, calculez l’espérance de la variable
aléatoire suivante :
T = min{n ≥ 0 : Xn = Yn }.
73
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 18. Soit (Xn ; n ≥ 0), la marche aléatoire symétrique sur N0 = {0, 1, 2, 3, ...}, avec absorp-
tion à l’état 0. On démarre cette marche aléatoire à l’état 1 et on considère la variable aléatoire
Z = max{Xn ; n ≥ 0}.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
74
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 4
Dans le présent chapitre nous étudions le concept de loi stationnaire et nous montrons que sous
certaines conditions une chaı̂ne de Markov (Xn ; n ≥ 0) possède une et une seule loi stationnaire et
la distribution de Xn converge vers cette loi stationnaire peu importe l’état initial de la chaı̂ne.
Définition. Soit P, une matrice stochastique sur l’espace d’états S. Une loi stationnaire pour P, ou
distribution stationnaire pour P, est une distribution de probabilité sur S, disons π = (πi ; i ∈ S), qui
satisfait l’équation matricielle πP = π. Autrement dit, la distribution de probabilité π = (πi ; i ∈ S)
est une loi stationnaire pour P si on a
X
πi Pij = πj pour tout j ∈ S. (4.1)
i∈S
Si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et si π est une loi stationnaire
pour P, alors on dira aussi que π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0).
On a vu au chapitre 2 que si (Xn ; n ≥ 0) est une chaı̂ne de Markov avec matrice stochastique P et
avec loi initiale ν, alors la distribution de Xn est le vecteur L(Xn ) = νP n . Supposons que π est une
loi stationnaire pour P et supposons qu’on démarre notre chaı̂ne de Markov avec la distribution π.
On a alors L(Xn ) = πP n . En utilisant l’associativité du produit matriciel et en invoquant n fois
l’équation πP = π, on obtient
75
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 1. Si π est une loi stationnaire pour la chaı̂ne de Markov (Xn ; n ≥ 0) et si L(X0 ) = π,
alors on a L(Xn ) = π pour tout n ≥ 0.
Une chaı̂ne de Markov peut posséder plusieurs lois stationnaires. Prenons le cas de la chaı̂ne de
Markov sur S = {0, 1} avec matrice stochastique
1 0
P= .
0 1
Il est facile de voir que dans ce cas toutes les distributions de probabilité sur S sont des lois
stationnaires pour P.
Considérons maintenant le cas des chaı̂nes de Markov irréductibles. C’est le cas qui nous intéresse
le plus dans les applications. Nous verrons plus loin que si une chaı̂ne de Markov est irréductible,
alors elle possède une loi stationnaire si et seulement si elle est récurrente positive. Dans ce cas,
cette loi stationnaire est unique et est donnée par
1
πi =
mi
où mi = E[Ti∗ | X0 = i] (voir la section 10 du chapitre 2). En particulier, une chaı̂ne de Markov
irréductible sur un espace d’états fini possède une et une seule loi stationnaire.
Pour trouver la loi stationnaire associée à une matrice stochastique irréductible P, il suffit de
trouver une distribution de probabilité π = (πi ; i ∈ S) qui satisfait le système d’équations linéaires
donné par l’équation (4.1). Considérons le cas où l’espace des états S est un ensemble de cardinal
m. L’équation (4.1) nous donne alors m équations linéaires avec m inconnues. Étant donné que les
sommes lignes de la matrice P sont toutes égales à 1, la me équation est forcément une combinaison
linéaire des m − 1 autres et le système d’équations
P (4.1) possèdera donc une infinité de solutions.
Si on ajoute à ces m − 1 équations la condition m i=1 πi = 1, alors on a un système de m équations
avec m inconnues et ce système possèdera une solution unique.
Exemple 1. Supposons que S = {1, 2, 3} et que la matrice stochastique P est donnée par
0 1 0
P = 1/4 1/4 1/2 .
0 3/4 1/4
P3
Si on écrit au long l’équation (4.1) avec j = 1 et avec j = 2 ainsi que l’équation i=1 πi = 1, on
obtient le système d’équations linéaires suivant :
1
4 π2 = π1
1 3
π1 + π2 + π3 = π2
4 4
π1 + π2 + π3 = 1
76
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En procédant comme dans l’exemple ci-dessus, on peut en principe trouver la loi stationnaire de
n’importe quelle chaı̂ne de Markov irréductible sur un espace d’états fini. Dans certains cas, on
peut exploiter la structure particulière de la matrice P pour trouver rapidement la loi stationnaire.
Ci-dessous on considère deux scénarios particuliers.
En d’autres mots, une matrice doublement stochastique est une matrice stochastique dont la trans-
posée est elle aussi une matrice stochastique. La notion de matrice doublement stochastique est
importante parce que d’une part on rencontre souvent ce type de matrice stochastique dans la
pratique et d’autre part on a le résultat suivant :
Théorème 2. Si P est une matrice doublement stochastique sur un espace d’états fini S, alors la
loi uniforme sur S est une loi stationnaire pour P.
Démonstration. Sans perte de généralité, supposons que S = {1, 2, 3, ..., m} pour un certain entier
positif m. Posons
1 1 1 1
π = (π1 , π2 , π3 , ...πm ) = , , , ..., .
m m m m
Il faut montrer qu’avec ce choix P
de π on a bel et bien πP = π. Autrement dit, on doit montrer que
pour tout j ∈ {1, 2, ..., m} on a mi=1 πi Pij = πj . Fixons j ∈ {1, 2, ..., m}. On obtient
m m m
X X 1 1 X 1
πi Pij = Pij = Pij = = πj .
m m m
i=1 i=1 i=1
Pour l’avant dernière égalité, on a utiliser le fait que P est doublement stochastique.
Exemple 2. Considérons la marche aléatoire symétrique sur {0, 1, 2, 3, 4, 5} avec réflexion amortie
à 50% à chacune des deux frontières. La matrice stochastique associée à cette chaı̂ne de Markov est
la matrice suivante : 1 1
2 2 0 0 0 0
1
2 0 12 0 0 0
0 1 0 1 0 0
2 2
P= .
0 0 12 0 12 0
1 1
0 0 0 2 0 2
0 0 0 0 12 21
On observe que cette matrice stochastique est en fait doublement stochastique. Le théorème 2 nous
permet de conclure que la loi de probabilité π = (1/6, 1/6, 1/6, 1/6, 1/6, 1/6) est stationnaire pour
cette marche aléatoire.
Exemple 3. On considère une jeu de cartes ordinaire. On place ce jeu de cartes sur la table, face
vers le bas. Les positions des cartes sont numérotées de 1 à 52, avec 1 pour la carte du dessus et
52 pour la carte du dessous. On mélange les cartes de la façon suivante. À chaque unité de temps,
77
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
on choisit un entier, disons l’entier k, au hasard et avec distribution uniforme sur l’ensemble des
entiers de 1 à 52, puis on prend la carte en position k et on la mets en position 1. Autrement dit,
on choisit une carte au hasard et on la place sur le dessus du paquet. On pose Xn = l’état du jeu
de cartes après n transitions. La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’espace des
états est l’ensemble des 52! permutations possibles des entiers 1 à 52. On vérifie facilement que la
matrice stochastique associée à cette chaı̂ne de Markov est une matrice carrée de dimension 52! par
52! avec les propriétés suivantes. Chaque ligne de cette matrice comprend 52 entrées qui sont égales
à 1/52. De même, chaque colonne de cette matrice comprend 52 entrées qui sont égales à 1/52.
Cette matrice est donc doublement stochastique et on conclut que la loi uniforme sur l’ensemble
des 52! permutations est une loi stationnaire pour cette chaı̂ne de Markov.
et on écrit Vi pour dénoter l’ensemble des états qui sont voisins de l’état i. Notez que le degré de
l’état i est simplement le cardinal de l’ensemble Vi et que la probabilité de transition Pij peut être
1
écrite sous la forme suivante : Pij = 1 (j). Rappelons qu’on utilise la notation 1A (x) pour
degré(i) Vi
dénoter la fonction indicatrice de l’ensemble A. Autrement dit, 1A (x) = 1 si x ∈ A et 1A (x) = 0 si
x∈ / A.
Théorème 3. Soit (Xn ; n ≥ 0), une marche aléatoire sur un graphe simple, connexe et fini. Soit
π, la distribution de probabilité sur S donnée par
degré(i)
πi = pour tout i ∈ S.
Z
Alors π est une loi stationnaire pour la chaı̂ne (Xn ; n ≥ 0).
Démonstration. Il suffit de vérifier que l’équation (4.1) est satisfaite pour tout j ∈ S. Fixons
j ∈ S. On obtient
X X degré(i) 1
πi Pij = × 1V (j)
Z degré(i) i
i∈S i∈S
1 X 1 X degré(j)
= 1Vi (j) = 1Vj (i) = = πj .
Z Z Z
i∈S i∈S
78
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 4. Considérons la marche aléatoire symétrique sur {0, 1, 2, ..., m} avec réflexion instan-
tannée aux frontières. Il s’agit d’une marche aléatoire sur un graphe simple, connexe et fini. On
a degré(0) = degré(m) = 1 et degré(i) = 2 pour tout i ∈ {1, 2, ..., m − 1}. On a Z = 2m. La loi
stationnaire est donc
1 1 1 1 1 1
π= , , , , ..., , .
2m m m m m 2m
A B C
D E F
G H I
Nous avons vu à la section 3.4 que cette marche aléatoire est une chaı̂ne de Markov irréductible
et récurrente positive. De plus, elle est apériodique si 0 < r < 1. On souhaite trouver P un vecteur
π = (π0 , π1 , π2 , ...) qui satisfait l’équation matricielle πP = π sujet à la contrainte ∞
k=0 πk = 1.
79
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
π0 (1 − r) + π1 (1 − p) = π0 (0)
π0 r + π2 (1 − p) = π1 (1)
π1 p + π3 (1 − p) = π2 (2)
π2 p + π4 (1 − p) = π3 (3)
π3 p + π3 (1 − p) = π4 (4)
.. ..
. .
À l’aide des équations (0∗ ), (1∗ ) et (2), on peut exprimer π3 en termes de π0 . On obtient
p2
π3 = rπ0 . (2∗ )
(1 − p)3
Bref, on obtient
pk−1
πk = rπ0 pour tout k ≥ 1. (4.2)
(1 − p)k
P∞
Combinée avec le fait que k=0 πk = 1, l’équation (4.2) nous donne
∞
X ∞
X
1 = πk = π0 + πk
k=0 k=1
∞
Xpk−1
= π0 + rπ0
(1 − p)k
k=1
∞ k
rπ0 X p
= π0 +
p 1−p
k=1
rπ0 p/(1 − p)
= π0 +
p 1 − (p/(1 − p))
r
= π0 1 + .
1 − 2p
On obtient donc
1 1 − 2p
π0 = r = .
1+ 1−2p 1 − 2p + r
Lorsqu’on insère ce résultat dans l’équation (4.2), on obtient finalement notre loi stationnaire :
1−2p
1−2p+r si k = 0
πk = k
1−2p r p
si k ≥ 1.
1−2p+r p 1−p
80
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
πk = (1 − p∗ )k p∗ pour tout k ≥ 0,
avec
1 − 2p
p∗ = .
1−p
On reconnaı̂t la loi géométrique(p∗ ) sur {0, 1, 2, 3, ...}.
Exemple 7. On considère une séquence de lancers d’un dé. On pose S0 = 0 et, pour m ≥ 1,
Sm = V1 + V2 + · · · + Vm . Ici Vk dénote le résultat du k e lancer du dé. Pour n ≥ 1, on pose
pn = P [∪∞
m=1 {Sm = n}] = P [∃ m ≥ 1 : Sm = n] .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Avec cette interprétation, pn est simplement la probabilité que le jeton atterrira sur la case numéro
n durant son voyage vers l’infini. Le raisonnement suivant nous permet de deviner la réponse à la
question posée. Ici les variables aléatoires V1 , V2 , V3 , ... sont i.i.d. avec loi uniforme sur l’ensemble
{1, 2, 3, 4, 5, 6}. L’espérance de cette loi est 7/2. La longueur moyenne des pas du jeton est donc
7/2. Après 2000 pas, la distance totale parcourue par le jeton sera donc environ 2000 × 27 = 7000.
Donc après 2000 pas le jeton sera aux alentours de la case numéro 7000 et il aura visité 2000 cases.
La proportion de cases visitées par le jeton est donc environ 2000/7000, c’est-à-dire 2/7. Il est donc
raisonnable de croire que
2
lim pn = . (4.3)
n→∞ 7
Quelques remarques au sujet de cet exemple.
1. Le raisonnement ci-dessus demeure valide si on utilise un dé non équilibré,
P à condition de
faire les ajustements suivants. La longueur moyenne des pas sera µ = 6ℓ=1 ℓ P[V1 = ℓ] plutôt
que 7/2 et la limite qui apparaı̂t à l’équation (4.3) sera 1/µ plutôt que 2/7. De plus, il n’est
pas nécessaire que les faces soient numérotées 1, 2, 3, 4, 5, 6 et il n’est pas nécessaire que le
dé utilisé soit un dé à 6 faces.
81
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
2. Le raisonnement ci-dessus demeure valide si, pour le premier pas, on utilise un dé différent
de celui utilisé pour tous les autres pas.
3. Le raisonnement ci-dessus ne tient pas toujours. Par exemple, si on utilise un dé équilibré
à 6 faces et si les valeurs de ces 6 faces sont les valeurs 2, 4, 6, 8, 10, 12 plutôt que 1, 2,
3, 4, 5, 6, alors limn→∞ pn n’existe pas. Dans ce cas on a p2n+1 = 0 pour tout n ≥ 0 et
limn→∞ p2n = 2/7.
À la lumière de l’exemple et des remarques ci-dessus, le résultat suivant n’est pas surprenant.
Théorème 4. [Le Théorème du renouvellement ; cas discret].
On considère des variables aléatoires indépendantes, disons U, V1 , V2 , V3 , .... On suppose que
(i) Les variables V1 , V2 , V3 , ..., sont i.i.d. à valeurs dans {1, 2, 3, ...}.
(ii) La variable aléatoire U est à valeurs dans {0, 1, 2, 3, ...}.
(iii) p.g.c.d.{n ≥ 1 : P[V1 = n] > 0} = 1.
On pose
S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m tel que U + Sm = n], pour tout n ≥ 1
µ = E[V1 ].
Nous allons prendre ce résultat pour acquis. Une démontration sera présentée à la section 4.5.
Théorème 5. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive. Alors
(a) Pour tout i et j dans S on a
1
lim Pijn = . (4.5)
n→∞ mj
Pour la suite, on pose πj = 1/mj , pour tout j ∈ S.
(b) Le vecteur π = (πj ; j ∈ S) est une distribution de probabilité sur S.
(c) En fait, le vecteur π = (πj ; j ∈ S) est une loi stationnaire pour P.
(d) En fait, le vecteur π = (πj ; j ∈ S) est la seule loi stationnaire pour P.
82
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
U (j) = min{n ≥ 0 : Xn = j}
(j)
V1 = min{n ≥ 1 : XU (j) +n = j}
(j)
V2 = min{n ≥ 1 : XU (j) +V (j) +n = j}
1
(j)
V3 = min{n ≥ 1 : XU (j) +V (j) +V (j) +n = j}
1 2
..
.
L’irréductibilité et la récurrence de notre chaı̂ne de Markov entraine que P[U (j) < ∞|X0 = i] = 1
(j)
et P[Vn < ∞|X0 = i] = 1 pour tout i et j dans S et pour tout n ≥ 1. L’apériodicité de notre
chaı̂ne de Markov entraine que la condition
(j)
pgcd{n ≥ 1 : P[V1 = n|X0 = i] > 0} = 1,
c’est-à-dire
1
lim P[Xn = j|X0 = i] = ,
n→∞ mj
c’est-à-dire
1
lim Pijn = .
n→∞ mj
Remarque. La démonstration ci-dessus montre que la partie (a) du théorème est valide aussi bien
dans le cas récurrent nul que dans le cas récurrent positif puisque le théorème du renouvellement
est valide même dans le cas où µ = ∞ (avec l’interprétation 1/µ = 1/∞ = 0). En fait il est facile
de voir que que l’équation (4.5) est valide aussi dans le cas transitoire.
Pour les parties (b), (c) et (d), on a besoin de l’hypothèse de récurrence positive.
SiPS est un ensemble fini,Palors la somme ci-dessus est une somme finie et la deuxième égalité
( j∈S limn→∞ = limn→∞ j∈S ) est triviale. Dans le cas où S est un espace d’états infini, on peut
justifier la deuxième égalité en utilisant l’hypothèse de récurrence positive. Les détails techniques
seront présentés à la section 4.6.
83
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (c). Il faut montrer Pque πP = π. Autrement dit, il faut montrer
que pour tout j ∈ S on a (πP)j = πj , c’est-à-dire i∈S πi Pij = πj . Voici comment y arriver. On
fixe un état k ∈ S et on utilise le résultat de la partie (a) :
X X X X
n n n n+1
πi Pij = lim Pki Pij = lim Pki Pij = lim Pki Pij = lim Pkj = πj .
n→∞ n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S
À nouveau le point délicat est le passage de la somme à l’intérieure de la limite. C’est trivial si
S est un ensemble fini et c’est plus compliqué dans le cas où S est un ensemble infini. Les détails
techniques pour le cas où S est un ensemble infini seront présentés à la section 4.6.
Démonstration de la partie (d). Supposons que le vecteur π ∗ = (πj∗ ; j ∈ S) est aussi une loi
stationnaire pour P. On a alors π ∗ = π ∗ P. De là on conclut que π ∗ = π ∗ P n pour tout n ≥ 1. Donc
si on fixe un état j ∈ S, on a
X
πj∗ = (π ∗ P n )j = πi∗ Pijn pour tout n ≥ 1.
i∈S
On obtient donc
X X X X X
πj∗ = lim πi∗ Pijn = lim πi∗ Pijn = πi∗ lim Pijn = πi∗ πj = πj πi∗ = πj .
n→∞ n→∞ n→∞
i∈S i∈S i∈S i∈S i∈S
À nouveau le point délicat est la justification de la deuxième égalité. C’est trivial si S est fini et ça
plus compliqué dans le cas où S est infini. Les détails techniques pour le cas où S est un ensemble
infini seront présentés à la section 4.6.
Remarque 1. On a vu que toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états
fini est récurrente positive. On a donc le corollaire suivant :
Corollaire. Toute chaı̂ne de Markov irréductible et apériodique sur un espace d’états fini possède
une et une seule loi stationnaire. Cette loi stationnaire est la loi π = (πj ; j ∈ S) avec πj = 1/mj .
Remarque 2. Le théorème 5 admet la réciproque suivante : Si une chaı̂ne de Markov irréductible
et apériodique possède un loi stationnaire, alors cette chaı̂ne de Markov est récurrente positive. La
démonstration, qui n’est pas très difficile, ne sera pas présentée ici.
Pour le prochain théorème, on utilisera la notation suivante :
n
X
Nj (n) = 1{j} (Xℓ ).
ℓ=0
La variable aléatoire Nj (n) est donc le nombre total de visites à l’état j du temps 0 au temps n.
Théorème 6. Supposons que la chaı̂ne est irréductible, apériodique et récurrente positive et
écrivons π = (πj ; j ∈ S) pour dénoter la loi stationnaire. Alors pour tout i et j dans S on a
Nj (n)
P lim = πj X0 = i = 1.
(4.6)
n→∞ n + 1
Autrement dit, peu importe où on démarre la chaı̂ne, la proportion de temps passé à l’état j durant
l’intervalle de temps de 0 à n converge vers πj quand n tend vers l’infini.
84
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
donc
Nj (n) 1
P lim = X0 = i = 1.
n→∞ n mj
Cette dernière équation est équivalente à l’équation (4.6). Ceci complète donc la démonstration du
Théorème 6.
Pn
Démonstration. Il suffit d’exprimer la somme ℓ=0 f (Xℓ ) comme une somme sur les états :
n
X X
f (Xℓ ) = f (j) Nj (n).
ℓ=0 j∈S
85
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On obtient donc
n
1 X 1 X
lim f (Xℓ ) = lim f (j) Nj (n)
n→∞ n + 1 n→∞ n + 1
ℓ=0 j∈S
X Nj (n)
= lim f (j)
n→∞ n+1
j∈S
X Nj (n)
= lim f (j)
n→∞ n+1
j∈S
X Nj (n) X
= f (j) lim = f (j) πj .
n→∞ n + 1
j∈S j∈S
Pour la dernière égalité, on a utilisé le Théorème 6. À nouveau le point délicat de cette démonstration
est la justification pour la troisième égalité ci-dessus, c’est-à-dire le passage de la limite à l’intérieur
de la somme. Dans le cas où S est un ensemble fini il n’y a pas de problème. Dans le cas où S est
un ensemble infini le passage de la limite à l’intérieur de la somme peut être justifié avec l’aide d’un
théorème d’analyse appelé le théorème de la convergence dominée.
Remarques.
1. Le côté droit de l’équation (4.9) peut-être interprété comme étant l’espérance de f (X ∗ ) où
X ∗ est une variable aléatoire à valeurs dans S et avec distribution π.
2. Le côté gauche de l’équation (4.9) peut être interprétée comme étant la limite (quand n tend
vers l’infini) du loyer moyen par unité de temps, en dollars, pour la période allant du temps
0 au temps n dans le scénario où à chaque visite à l’état j on doit payer un loyer égal à f (j)
dollars.
3. Sur le côté gauche de l’équation (4.9) on a une moyenne dans le temps alors que sur le côté
droit on a une moyenne sur l’espace des états. Le Théorème 7 nous dit que la moyenne dans
le temps converge vers la moyenne sur l’espace des états. Il s’agit d’un exemple de ce qu’on
appelle un théorème ergodique.
86
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le Théorème 5 nous dit également que pour tout i et j dans S on a limn→∞ Pijn = πj . Dans le
présent scénario, ceci veut dire
n = b
limn→∞ P00 a+b ,
n a
limn→∞ P01 = a+b ,
n = b
(4.11)
limn→∞ P10 a+b ,
n = a
limn→∞ P11 a+b .
Dans le présent scénario, on peut obtenir le résultat (4.11) et calculant explicitement les Pijn . En
effet, en procédant par induction sur n, on montre facilement que
b n a a n a
!
n a+b + (1 − (a + b)) a+b a+b − (1 − (a + b)) a+b
P =
b n b a n b
a+b − (1 − (a + b)) a+b a+b + (1 − (a + b)) a+b
lim (1 − (a + b))n = 0.
n→∞
c’est-à-dire
! ! !
n n n n b a
P00 P01 limn→∞ P00 limn→∞ P01 a+b a+b
lim n n
= n n
= b a
. (4.13)
n→∞ P10 P11 limn→∞ P10 limn→∞ P11 a+b a+b
Remarque. En examinant l’équation (4.12), on constate que non seulement on a limn→∞ Pijn = πj
pour tout i et j dans S mais en fait on a le résultat plus fort que voici :
n
Pij − πj ≤ (1 − (a + b))n pour tout i et j dans S et pour tout n ≥ 1.
Ce résultat nous dit que les Pijn convergent vers les πj à une vitesse géométrique. Il s’agit d’un cas
particulier du théorème suivant. La démonstration sera omise.
Théorème 8. Si P est une matrice stochastique irréductible et apériodique sur un espace d’états
fini et si π = (πj ; j ∈ S) dénote sa loi stationnaire, alors il existe des constantes c > 0 et 0 < ρ < 1
telles que
max Pijn − πj ≤ c ρn pour tout n ≥ 1.
i,j∈S
87
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
marche aléatoire est alors une chaı̂ne de Markov irréductible, apériodique et récurrente positive.
D’après notre Théorème 5, cette chaı̂ne de Markov possède une et une seule loi stationnaire. Pour
simplifier la discussion, considérons le cas où r = p. On a vu à l’exemple 6 que dans ce cas la loi
stationnaire est la loi π = (π0 , π1 , π2 , ...) donnée par
πk = (1 − p∗ )k p∗ pour tout k ≥ 0,
avec
1 − 2p
p∗ = .
1−p
1
Cette loi est appelée la loi géométrique(p∗ ) sur les entiers non négatifs. Son espérance est p∗ − 1 et
1−p∗
sa variance est Les théorèmes de la section précédentes nous permettent d’arriver à diverses
p2∗ .
conclusions, dont les suivantes :
• Partant de l’état k, le temps moyen de retour à l’état k est
1 1 1−p 1−p k
mk = = = .
πk (1 − p∗ )k p∗ 1 − 2p p
• Peu importe l’état initial i, la distribution de Xn converge, quand n → ∞, vers la loi
géométrique(p∗ ) sur les entiers non négatifs.
Exemple 10. On considère une chaı̂ne de Markov sur l’espace d’états S = N0 = {0, 1, 2, 3, ...}.
Voici la matrice des probabilités de transition :
1/2 1/2 0 0 0 0 ···
1/3 1/3 1/3 0
0 0 ···
P = 1/4 1/4 1/4 1/4 0 0 · · · .
1/5 1/5 1/5 1/5 1/5 0 · · ·
.. .. .. .. .. .. . .
. . . . . . .
En examinant le graphe de communication, on constate que cette chaı̂ne est irréductible et apé-
riodique. En comparant cette chaı̂ne avec la marche aléatoire récurrente positive sur N0 , on peut
montrer que notre chaı̂ne est récurrente positive. Voir l’exercice 17. Donc, d’après notre Théorème
5, cette chaı̂ne de Markov possède une loi stationnaire unique. Soit π = (π0 , π1 , π2 , π3 , ...), cette loi
stationnaire. On doit avoir πP = π. Cela nous donne les équations suivantes.
1 1 1 1
π0 + π1 + π2 + π3 + ... = π0 (4.14)
2 3 4 5
1 1 1 1
π0 + π1 + π2 + π3 + ... = π1 (4.15)
2 3 4 5
1 1 1
π1 + π2 + π3 + ... = π2 (4.16)
3 4 5
1 1
π2 + π3 + ... = π3 (4.17)
4 5
1
π3 + ... = π4 (4.18)
5
..
. .
On remarque que l’on peut exprimer π1 , π2 , π3 , ... en fonction de π0 . Les équations (4.14) et (4.15)
nous donne π1 = π0 . Ensuite (4.15) et (4.16) nous donne π2 = π1 − 12 π0 = 12 π0 . Si on poursuit dans
88
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 11. On fixe k et ℓ, des entiers positifs. On fixe r, un entier tel que 1 ≤ r ≤ k + ℓ. On
considère deux urnes, disons l’urne A et l’urne B. L’urne A contient k boules et l’urne B en contient
ℓ. Parmi ces k + ℓ boules, il y a r boules rouges et (k + ℓ) − r boules blanches. À chaque unité de
temps on choisit au hasard une boule à partir de l’urne A et une boule à partir de l’urne B et on
les échange ; la boule tirée de l’urne A est déposée dans l’urne B et la boule tirée de l’urne B est
déposée dans l’urne A. Notez que dans chaque urne le nombre de boules ne change jamais ; l’urne
A contient toujours k boules et l’urne B en contient toujours ℓ. Ce modèle est appelé le modèle de
Bernoulli et Laplace pour les gaz incompressibles. On pose
La suite (Xn ; n ≥ 0) est alors une chaı̂ne de Markov. L’étudiant peut vérifier les faits suivants :
(a) L’espace des états est l’ensemble des entiers i tels que max{0, r − ℓ} ≤ i ≤ min{k, r}.
(b) La chaı̂ne est irréductible.
(c) Sauf dans le cas où k = ℓ = r = 1, la chaı̂ne est apériodique.
(d) La chaı̂ne est récurrente positive.
(e) La loi stationnaire est la loi hypergéométrique(k, r, k + ℓ). Autrement dit, les πj de la loi
stationnaire sont donnés par
r k+ℓ−r
j k−j
πj = k+ℓ
pour tout j ∈ S.
k
S0 = 0
S m = V1 + V2 + · · · + Vm , pour tout m ≥ 1
pn = P[ il existe un m ≥ 0 tel que Sm = n], pour tout n ≥ 0
µ = E[V1 ].
89
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a alors
1
lim pn = . (4.19)
n→∞ µ
alors on a P[An ] = 1. Par ailleurs, avant d’aller au-delà de la case n − 1, le jeton va visiter au moins
une des ℓ case situées juste à gauche de la case numéro n. Le schéma ci-dessous illustre le cas où
ℓ = 6.
Si on pose
alors on a
Bn,1 ∪ Bn,2 ∪ · · · ∪ Bn,ℓ = An .
Combiné avec le fait que P[An ] = 1 et le fait que les événements Bn,1 , Bn,2 , ..., Bn,ℓ sont mutuelle-
ment exclusifs, on obtient
P[Bn,1 ] + P[Bn,2 ] + · · · + P[Bn,ℓ ] = 1. (4.20)
Pour 1 ≤ j ≤ ℓ, on a
P[Bn,j ]
= P[( le jeton visite la case n − j ) ∩ ( le jeton fait ensuite un pas de longueur au moins j )]
= P[ le jeton visite la case n − j ]
×P[ le prochain pas est de longueur au moins j | le jeton vient de visiter la case n − j ]
= pn−j P[V1 ≥ j].
90
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
L = lim pn .
n→∞
c’est-à-dire
L (P[V1 ≥ 1] + P[V1 ≥ 2] + · · · + P[V1 ≥ ℓ]) = 1.
La somme qui apparait ci-dessus est simplement l’espérance de V1 , c’est-à-dire µ. On a donc L µ = 1,
c’est-à-dire L = 1/µ.
Remarque. La démonstration ci-dessus est incomplète. Nous avons montré que si limn→∞ pn existe,
alors limn→∞ pn = 1/µ. Pour compléter la démonstration, il faudrait montrer que cette limite existe
bel et bien. C’est là qu’on utiliserait l’hypothèse à l’effet que p.g.c.d.{j ≥ 1 : P[V1 = j > 0} = 1.
91
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 2. On fixe m, un entier positif, et on considère une chaı̂ne de Markov qui évolue de la
façon suivante sur l’espace S = {0, 1, 2, ..., m} :
• Si au temps n on est à l’état 0, alors au temps n + 1 on sera à l’état m.
• Si au temps n on est à l’état 0 < i ≤ m, alors au temps n + 1 on sera à un état choisi avec
distribution uniforme sur l’ensemble {0, 1, ..., i − 1}.
Donnez la matrice des probabilités de transition P. Dans le cas où m = 3, obtenez la loi stationnaire
π = (π0 , π1 , π2 , π3 ).
Numéro 3. On considère une puce qui se déplace sur les six sommets d’un hexagone régulier. À
chaque unité de temps, la puce fait un saut vers un des deux sommets adjacents au sommet sur
lequel elle se trouve. Elle va dans le sens horaire avec probabilité p et dans le sens anti-horaire avec
probabilité 1 − p. On suppose que 0 < p < 1. Les six sommets sont étiquetés 1, 2, 3, 4, 5 et 6 (en
allant dans le sens horaire). Au temps 0 on choisit un des sommets selon le résultat du lancer d’un
dé et on place la puce sur le sommet choisi. Obtenez la probabilité qu’après 37 sauts la puce sera
au sommet numéro 4.
Numéro 4. Montrez que la loi binomiale(m, 1/2) est une loi stationnaire pour le modèle de Eh-
renfest avec m boules.
Nous avons rencontré cette marche aléatoire dans les exercices du chapitre 3. L’état situé en plein
centre du graphe est l’état A. Les 6 états qui lui sont voisins sont, en commençant par l’état situé
à droite de A et en voyageant dans le sens anti-horaire, les états B, C, D, E, F et G. Les 6 états en
périphérie sont, en commençant par celui d’en haut et en voyageant dans le sens anti-horaire, les
états H, I, J, K, L et M .
92
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 6. Une particule se déplace sur m points placés sur un cercle. (Imaginez que ces m points
sont situés sur le cercle de rayon 1 aux angles k × 2π m , k = 0, 1, 2, ..., m − 1). À chaque unité de
temps, la particule fait un pas dans le sens anti-horaire avec probabilité a, elle reste sur place avec
probabilité b et elle fait un pas dans le sens horaire avec probabilité c. On suppose que a, b et c
sont positifs et que a + b + c = 1. On pose Xn = la position de la particule au temps n.
(a) Expliquez pourquoi la suite (Xn ; n ≥ 0) est une chaı̂ne de Markov.
(b) La chaı̂ne est-elle irréductible ? Expliquez.
(c) La chaı̂ne est-elle apériodique ? Expliquez.
(d) Obtenez la loi stationnaire.
93
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 10. On considère un jeu ordinaire de 52 cartes. On suppose que le jeu est neuf ; les cartes
sont dans l’ordre usuel des jeux de carte neufs (d’abord les piques de as à roi, puis les coeurs de
as à roi, puis les trèfles de as à roi, et enfin les carreaux de as à roi). On mélange les cartes selon
la méthode suivante. On choisit un nombre au hasard et de façon uniforme parmi les nombres 1 à
52. Si le nombre choisi est le nombre k, alors on prend la carte en position k et on la place sur le
dessus du paquet c’est-à-dire en position 1. Si on fait une transition par seconde, combien de temps
ça prendra, en moyenne, pour que le jeu de carte revienne à son état initial ?
Numéro 11. Pour la pièce A, la probabilité de pile est 9/10. Pour la pièce B, la probabilité de pile
est 5/10. Au départ, je choisis une pièce au hasard. Je lance cette pièce jusqu’à ce que j’obtienne
le côté face. Je change alors de pièce et je lance ma nouvelle pièce jusqu’à ce que j’obtienne le côté
face. Dès que j’obtiens face, je change de pièce. Et ainsi de suite. À la longue, quelle proportion des
lancers utilisent la pièce A ?
Numéro 12. On fixe 0 < p < 1 et on considère la chaı̂ne de Markov qui évolue de la façon
suivante sur l’espace S = {a, b, c, d}. À chaque unité de temps, on lance une pièce de monnaie avec
probabilité de pile égale à p. Si on obtient le côté face, alors on reste où on est. Si on obtient le
côté pile, alors on se déplace vers un des 3 autres états, chacun avec la même probabilité.
(a) Obtenez P, la matrice des probabilités de transition de cette chaı̂ne de Markov.
(b) Obtenez la loi stationnaire
(c) [Difficile]. Calculez explicitement la matrice P n et vérifiez que P n converge bel et bien vers
la matrice dont chacune des lignes est la loi stationnaire.
Numéro 13. On fixe m, un entier positif. On considère une séquence de lancers d’un dé. On écrit
Sn pour dénoter le total des n premiers lancers et on écrit pm (n) pour dénoter la probabilité que Sn
est un multiple de m. Obtenez limn→∞ pm (n). Suggestion : examinez la chaı̂ne de Markov définie
par Xn = le reste de la division de Sn par m.
Numéro 14. On considère la chaı̂ne de Markov sur S = {1, 2, 3, 4, 5} avec matrice des probabilités
de transition donnée par
0 1/5 4/5 0 0
0 0 0 1/2 1/2
P= 0 0 0 1/4 3/4
1 0 0 0 0
1 0 0 0 0
Calculez directement les mj = E[Tj∗ | X0 = j] et déduisez-en la loi stationnaire.
Numéro 15. On considère une chaı̂ne de Markov irréductible et apériodique sur l’espace d’états
S = {A, B, C, D}. Supposons que
• le temps moyen entre deux visites successives à l’état A est 3,
• le temps moyen entre deux visites successives à l’état B est 4,
• le temps moyen entre deux visites successives à l’état C est 6.
Quel est le temps moyen entre deux visites successives à l’état D ?
Numéro 16. Un consultant en statistique a des clients à Montréal, à Ottawa et à Québec. Il passe
toutes ses nuits dans l’une ou l’autre de ces trois villes. Il se déplace de ville en ville selon une
chaı̂ne de Markov avec les règles suivantes :
94
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
• Si un jour il est à Ottawa, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 1/2 qu’il restera à Ottawa.
• Si un jour il est à Montréal, alors il y a probabilité 1/8 qu’il sera à Ottawa le lendemain,
probabilité 1/8 qu’il sera à Québec le lendemain et probabilité 3/4 qu’il restera à Montréal.
• Si un jour il est à Québec, alors il y a probabilité 3/8 qu’il sera à Montréal le lendemain,
probabilité 1/8 qu’il sera à Ottawa le lendemain et probabilité 1/2 qu’il sera à Québec.
À Ottawa le consultant paie 135$ pour une nuit à l’hôtel. À Montréal il paie 170$ et à Québec il
paie 110$. À la longue il paie en moyenne combien par nuit ?
A C D
E F G
Numéro 18. Voici la matrice stochastique d’une chaı̂ne de Markov sur l’ensemble S = {1, 2, 3, 4, 5} :
0 1/2 1/2 0 0
1/3 0 2/3 0 0
P= 1/4 1/4 0 1/4 1/4
0 0 2/3 0 1/3
0 0 1/2 1/2 0
Numéro 19. On considère le modèle de Bernoulli et Laplace décrit à l’exemple 11, section 4.4.
(a) Obtenez la matrice des probabilités de transition de cette chaı̂ne de Markov dans le cas où
l’urne A contient 7 boules, l’urne B contient 10 boules et seulement 5 de ces 17 boules sont
rouges.
(b) Obtenez les probabilités de transition Pij dans le cas général. Notez qu’on peut avoir Pij > 0
seulement si j ∈ {i − 1, i, i + 1}. Il suffit donc de calculer les probabilités Pi,i−1 , Pii et Pi,i+1 .
Numéro 20. [Difficile mais joli]. On considère la chaı̂ne de Markov sur S = {0, 1, 2, 3, ...} avec
P0,0 = 3/4 et P0,1 = 1/4 et, pour i ≥ 1,
1 1 1 1
Pi,i+1 = 1− et Pi,i−1 = 1+ .
2 i+2 2 i+2
95
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
96
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 5
Processus de branchement
5.1 Introduction
On suppose que ξn,ℓ , n ≥ 0, ℓ ≥ 1, sont des variables aléatoires à valeurs dans N0 = {0, 1, 2, ...},
indépendantes et identiquement distribuées. On pose pj = P[ξn,ℓ = j] et on écrit p = (p0 , p1 , p2 , ...).
On fixe k ∈ N0 , on pose X0 = k et on définit X1 , X2 , X3 , ... de façon itérative à l’aide de l’équation
Xn
X
Xn+1 = ξn,ℓ n ≥ 0. (5.1)
ℓ=1
Watson proposa une solution et, en 1875, Galton et Watson publièrent ensemble un article intitulé
On the probability of extinction of family names dans le Journal of the Anthropological Institute of
Great Britain and Ireland. En réalité, le mathématicien français Irénée-Jules Bienaymé (1796-1878)
avait étudié ce modèle dès 1845. C’est pourquoi on dit parfois “le processus de branchement de
Bienaymé-Galton-Watson”.
Le processus de Galton et Watson est une chaı̂ne de Markov à temps discret. L’espace des états est
l’ensemble des entiers non négatifs N0 . La matrice des probabilités de transitions est donnée par la
proposition suivante. Rappelons d’abord le concept de convolution de distributions de probabilité.
97
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Rappel. Si u = (u0 , u1 , u2 , ...) et v = (v0 , v1 , v2 , ...) sont des distributions de probabilité sur N0 ,
alors la convolution de u et v est la distribution de probabilité sur N0 , disons w = (w0 , w1 , w2 , ...),
donnée par
X k
wk = ui vk−i k ≥ 0.
i=0
La convolution
P de u et v est parfois dénotée u ⋆ v. On peut donc écrire w = u ⋆ v. On a donc
(u ⋆ v)k = ki=0 ui vk−i . Le concept de convolution est important à cause du résultat suivant : si X
et Y sont des variables aléatoires indépendantes, avec distributions u et v respectivement, alors la
distribution de la variable aléatoire X + Y est la convolution u ⋆ v. Il s’ensuit que si X1 , X2 , ..., Xm
sont desPvariables aléatoires i.i.d. avec distribution u = (u0 , u1 , u2 , ...), alors la distribution de la
somme m i=1 Xi est la convolution u ⋆ u ⋆ u ⋆ · · · ⋆ u. Cette convolution est parfois notée u
⋆m et elle
est appelée la convolution d’odre m de la distribution de probabilité u (avec elle-même). Notez que
la convolution d’odre 1 de la loi u est simplement la loi u et la convolution d’odre 0 de la loi u est
simplement la distribution concentrée à l’état 0.
Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,i étant i.i.d. avec distribution p, il suit que la distribution de
ξn,1 + ξn,2 + · · · + ξn,i est la convolution d’ordre i de la distribution de progéniture p = (p0 , p1 , p2 , ...).
Dans ce qui suit, on s’intéresse surtout au cas où il y a un seul individu à la génération 0. Les
questions concernant le cas général peuvent facilement se ramener à ce cas spécial ; s’il y a k
individus à la génération 0, avec k > 1, alors le processus de branchement de Galton et Watson
peut être vu comme étant la superposition de k processus de branchement de Galton et Watson
indépendants les uns des autres et ayant chacun exactement un individu à la génération 0.
Proposition 2. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...).
(a) L’état 0 est absorbant.
(b) Si p1 = 1, alors tous les états sont absorbants.
(c) Si p1 < 1, alors tous les états autres que l’état 0 sont transitoires.
Démonstration.
(a) Si on a 0 individu à la génération n, alors il est clair qu’on aura 0 individu à la génération
suivante. Autrement dit, P00 = 1. L’état 0 est donc un état absorbant.
98
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) Si p1 = 1, c’est-à-dire si p = (0, 1, 0, 0, 0, ...), alors les individus de notre population ont
toujours exactement 1 enfant. Il s’ensuit que la taille de la population est constante ! Donc
on a Pii = 1 pour tout i ∈ N0 . Les états sont donc tous absorbants !
(c) Nous allons considérer séparément le cas où p1 < 1 et p0 > 0 et le cas où p1 < 1 et p0 = 0.
Le cas où p1 < 1 et p0 > 0. Dans ce cas on obtient, pour tout i ≥ 1, P[X1 = 0|X0 = i] =
pi0 > 0. Or l’état 0 est absorbant. Donc, partant de l’état i, on a une probabilité positive de
ne plus jamais revenir à l’état i. L’état i est donc transitoire.
Génération 0
Génération 1
Génération 2
Génération 3
Génération 4
Exemple 1. On considère une population d’amibes dans une expérience en laboratoire. Au temps
0 notre population compte seulement 3 amibes. Après une unité de temps, indépendamment les
unes des autres, chaque amibe a une probabilité 0.45 de mourir et une probabilité 0.55 de se
diviser en 2 nouvelles amibes. Si on pose Xn = “le nombre d’amibes au temps n”, alors la suite
(Xn ; n ≥ 0) est un processus de branchement de Galton et Watson avec distribution de progéniture
p = (0.45, 0, 0.55, 0, 0, 0, ...).
99
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. La moyenne µ est toujours bien définie mais elle peut être infinie. Dans le cas où
µ = ∞, on dit que la variance n’existe pas.
Proposition 3. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ. Alors
Pour la première égalité, on a simplement conditionné sur Xn . Pour la deuxième égalité, on a utilisé
la propriété de Markov. Enfin, pour la troisième égalité on a utilisé le fait que si Xn = j, alors
l’équation (5.1) nous donne Xn+1 = ξn,1 + ξn,2 + · · · + ξn,j . Les variables aléatoires ξn,1 , ξn,2 , ..., ξn,j
étant i.i.d. avec moyenne µ, on a E[ξn,1 + ξn,2 + · · · + ξn,j ] = jµ. L’équation précédente nous donne
donc
∞
X
E[Xn+1 |X0 = 1] = jµ P[Xn = j|X0 = 1]
j=0
∞
X
= µ j P[Xn = j|X0 = 1] = µ E[Xn |X0 = 1].
j=0
On a donc
E[X1 |X0 = 1] = µ
et E[Xn+1 |X0 = 1] = µ E[Xn |X0 = 1] pour tout n ≥ 1.
100
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Proposition 4. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distri-
bution de progéniture p = (p0 , p1 , p2 , ...) de moyenne µ < ∞ et de variance σ 2 . Alors
nσ 2 si µ = 1
Var[Xn |X0 = 1] = µn−1 (µn − 1) 2 (5.3)
σ si µ 6= 1.
µ−1
Var[X1 |X0 = 1] = σ 2
Var[X2 |X0 = 1] = σ 2 µ (1 + µ)
Var[X3 |X0 = 1] = σ 2 µ2 1 + µ + µ2
Var[X4 |X0 = 1] = σ 2 µ3 1 + µ + µ2 + µ3
..
.
On en déduit que
On obtient donc
µ10 = 7.781 et σ10 = 10.565.
101
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Définition. Soit N , une variable aléatoire à valeurs dans N0 = {0, 1, 2, ...} et avec fonction de
masse pk = P[N = k]. La fonction génératrice des probabilités de la variable aléatoire N , ou de la
distribution de probabilité p = (p0 , p1 , p2 , ...), est la fonction dénotée ϕ(s) et définie par
∞
X ∞
X
ϕ(s) = E[sN ] = sk P[N = k] = s k pk .
k=0 k=0
Proposition 5. Soit p = (p0 , p1 , p2 , ...), une distribution de probabilité sur N0 , avec fonction
génératrice des probabilités ϕ(s) et avec moyenne µ. Donc
∞
X ∞
X
ϕ(s) = s j pj et µ= jpj .
j=0 j=0
Quelques explications.
• Les parties (a) et (b) sont élémentaires.
• Les parties (c), (d) et (e) sont des conséquences du fait que si |s| ≤ 1, alors
∞
X ∞ ∞
j X X
s pj = |s|j pj ≤ pj = 1 < ∞.
j=0 j=0 j=0
102
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
P
Ceci montre que la série ∞ j
j=0 s pj converge absolument en tout point s ∈ [−1, 1]. Pour voir
que ceci entraı̂ne les points (c), (d) et (e) de la proposition, l’étudiant devrait revoir la partir
du cours Analyse I qui porte sur les séries de puissances.
• Pour le point (f), on note d’abord qu’en vertu du point (e) on a, pour tout s ∈ (−1, 1),
Puisque leurs coefficients sont tous non négatifs, ces séries de puissances prennent seulement
des valeurs non négatives lorsqu’on les évalue en un point s ∈ [0, 1).
• Le point (g). Lorsqu’on prends la limite s ↑ 1 dans l’équation (5.5), on obtient
lim ϕ′ (s) = lim p1 + 2p2 s + 3p3 s2 + 4p4 s3 + · · · = p1 + 2p2 + 3p3 + 4p4 + · · · = µ.
s↑1 s↑1
Pour justifier le passage de “limite de la somme” à “somme des limites”, l’étudiant devrait
revoir la partie du cours Analyse I portant sur les séries de puissances.
• Pour le point (h), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.5), on obtient ϕ′ (s) ≥ 0. De plus, si p0 < 1 alors on a pj > 0 pour au moins une valeur
j ≥ 1 ; dans ce cas on obtient ϕ′ (s) > 0 pour tout 0 < s < 1.
• Pour le point (i), il suffit de noter que si on insère une valeur 0 < s < 1 dans l’équation
(5.6), on obtient ϕ′′ (s) ≥ 0. De plus, si p0 + p1 < 1 alors on a pj > 0 pour au moins une
valeur j ≥ 2 ; dans ce cas on obtient ϕ′′ (s) > 0 pour tout 0 < s < 1.
L’étudiant est familier avec le fait que la fonction génératrice des moments d’une somme de variables
aléatoires indépendantes est égale au produit des fonctions génératrices des moments de ces variables
aléatoires. La proposition suivante nous dit qu’il en est de même pour la fonction génératrice des
probabilités.
Proposition 6. Si X et Y sont des variables aléatoires indépendantes et à valeurs dans N0 , alors
la f.g.p. de la variable aléatoire X + Y est égale au produit des f.g.p. de X et de Y . Il en est de
même pour toute somme d’un nombre fini de variables aléatoires indépendantes et à valeurs dans
l’ensemble des entiers non négatifs N0 .
Démonstration. Posons T = X + Y . Sous les hypothèses énoncées ci-dessus, on obtient
L’égalité E[sX sY ] = E[sX ] E[sY ] vient du fait que l’espérance d’un produit de variables aléatoires
indépendantes est égale au produit de leurs espérances. Ici les variables aléatoires sX et sY sont
indépendantes puisque X et Y sont indépendantes.
103
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Corollaire.
∞ j
!
X Y
= ϕξn,ℓ (s) P[Xn = j|X0 = 1]
j=0 ℓ=1
∞
X
= (ϕ(s))j P[Xn = j|X0 = 1]
j=0
104
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Définition. Soit (Xn ; n ≥ 0), un processus de Galton et Watson. La probabilité de disparition est
notée θ et est définie par l’équation
θ = P[D|X0 = 1] = P [ ∪∞
n=0 {Xn = 0} | X0 = 1] .
Le résultat suivant nous dit qu’il est suffisant de considérer le cas où X0 = 1.
P[D|X0 = k] = θ k .
θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = lim P[Xn = 0|X0 = 1].
n→∞
Proposition 9. h i
θ = P lim Xn = 0|X0 = 1
n→∞
Démonstration. Puisque la suite (Xn ; n ≥ 0) est à valeurs dans N0 et puisque l’état 0 est absor-
bant, on a n o
∪∞n=0 {X n = 0} = ω ∈ Ω : lim X n (ω) = 0 .
n→∞
On a donc
θ = P[D|X0 = 1] = P[∪∞
n=0 {Xn = 0}|X0 = 1] = P[ lim Xn = 0 | X0 = 1].
n→∞
105
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le résultat suivant est fondamental. Il nous dit que si on exclut le cas trivial où p1 = 1 alors
ou bien la population disparaı̂t (c’est-à-dire limn→∞ Xn = 0), ou bien elle explose (c’est-à-dire
limn→∞ Xn = ∞).
Théorème 2. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). Supposons que p1 < 1. Alors on a
P[ lim Xn = 0|X0 = 1] = θ,
n→∞
P[ lim Xn = ∞|X0 = 1] = 1 − θ.
n→∞
Démonstration. On a vu à la Proposition 2 que si p1 < 1, alors tous les états autres que 0 sont
transitoires. Ceci implique que pour tout k ≥ 1, la chaı̂ne visitera l’ensemble {1, 2, 3, ..., k} seulement
un nombre fini de fois. Comme l’état 0 est absorbant, il suit que ou bien on aura limn→∞ Xn = 0,
ou bien on aura limn→∞ Xn = ∞. Donc
Combiné avec la Proposition 9, cette dernière équation nous donne la conclusion souhaitée.
Le théorème suivant est le principal résultat du présent chapitre. Il nous donne une recette pour
calculer θ, la probabilité de disparition d’un processus de Galton et Watson. La partie (a) peut
être utilisée pour calculer une approximation de θ. La partie (b) peut être utilisée pour calculer la
valeur exacte de θ.
Théorème 3. Soit (Xn ; n ≥ 0), un processus de Galton et Watson avec distribution de progéniture
p = (p0 , p1 , p2 , ...). Soit ϕ(s), la f.g.p. de la distribution de progéniture. Soit ϕn (s), la f.g.p. de la
distribution conditionnelle de Xn sachant que X0 = 1. Soit θ, la probabilité de disparition de la
population.
(a) On a toujours θ = lim ϕn (0) = limn→∞ (ϕ ◦ ϕ ◦ ϕ ◦ · · · ◦ ϕ)(0).
n→∞ | {z }
n fois
(b) La probabilité de disparition θ est la plus petite solution non négative de l’équation s = ϕ(s).
Démonstration de la partie (a). La partie (a) est une conséquence immédiate de la Proposition
8 et du Corollaire du Théorème 1.
Démonstration de la partie (b). À partir du résultat de la partie (a) on obtient ϕ(θ) =
ϕ (limn→∞ ϕn (0)). La fonction ϕ(s) étant continue, on a ϕ(limn→∞ sn ) = limn→∞ ϕ(sn ) pour toute
suite convergente sn avec sn ∈ [0, 1]. En particulier on obtient
ϕ(θ) = ϕ lim ϕn (0) = lim ϕ(ϕn (0)) = lim ϕn+1 (0) = θ.
n→∞ n→∞ n→∞
Ceci montre que θ est solution de l’équation s = ϕ(s). Pour une démonstration alternative, voir
l’exercice 14.
La probabilité de disparition θ est donc une solution de l’équation s = ϕ(s). Etant une probabilité,
ce θ est une solution non négative de l’équation s = ϕ(s). Il reste à montrer que c’est la plus petite
solution non négative de l’équation s = ϕ(s). Nous allons considérer les 4 cas exhaustifs suivants.
106
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le cas où p0 = 0 : Si p0 = 0, alors les individus de notre population ont toujours au moins un
enfant de sorte que la population ne disparaı̂t jamais. On a donc θ = 0. Notre θ est donc bel et
bien la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où p0 = 1 : Si p0 = 1, alors avec probabilité 1 la population disparaı̂t dès la génération
1. On a donc θ = 1. Par ailleurs, si p0 = 1 alors on a ϕ(s) = 1 pour tout s et la seule solution de
l’équation s = ϕ(s) est la solution s = 1. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ ≤ 1 : D’après la Proposition 5, les conditions suivantes sont satisfaites :
(i) ϕ(0) = p0 ∈ (0, 1),
(ii) ϕ(1) = 1,
(iii) lims↑1 ϕ′ (s) = µ,
(iv) ϕ′ (s) > 0 pour tout s ∈ (0, 1),
(v) ϕ′′ (s) = 0 pour tout s ∈ (0, 1) si p0 + p1 = 1.
(vi) ϕ′′ (s) > 0 pour tout s ∈ (0, 1) si p0 + p1 < 1.
Lorsque µ ≤ 1, ces conditions entraı̂nent que ϕ(s) > s pour tout s ∈ [0, 1). L’équation s = ϕ(s)
possède donc une seule solution sur l’intervalle [0, 1], la solution s = 1. Notre θ est donc bel et bien
la plus petite solution non négative de l’équation s = ϕ(s).
Le cas où 0 < p0 < 1 et µ > 1 : Lorsque µ > 1, les conditions (i) à (vi) énoncées ci-dessus
entraı̂nent que l’équation s = ϕ(s) possède exactement deux solutions sur l’intervalle [0, 1] : la
solution s = 1 et une solution s∗ ∈ (0, 1). Il nous reste à montrer que ce s∗ est notre probabilité
de disparition θ. À la partie (a) du théorème, on a montré que θ = limn→∞ ϕn (0). En examinant
le graphe de la fonction ϕ(s), présenté à la page suivante, on constate que la suite (ϕn (0); n ≥ 0)
converge vers s∗ . On conclut que s∗ = θ. Notre θ est donc bel et bien la plus petite solution non
négative de l’équation s = ϕ(s).
107
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
p0
p0 ϕ(p0) θ
108
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le cas où p1 = 1 n’est pas très intéressant puisque dans ce cas il n’y a rien d’aléatoire et tous les
états sont absorbants. Pour le dernier théorème de la présente section, on considère seulement le
cas où p1 < 1.
Théorème 4. Soit (Xn ; n ≥ 0), un processus de branchement de Galton et Watson avec distribution
de progéniture p = (p0 , p1 , p2 , ...). On suppose que p1 < 1.
(a) Si µ < 1, alors θ = 1.
(b) Si µ = 1, alors θ = 1.
(c) Si µ > 1, alors θ < 1.
Retour à l’exemple 1. Dans notre exemple, on a µ > 1. Le Théorème 4 nous assure que θ < 1.
Calculons ce θ.
Calcul de θ via la partie (a) du Théorème 3. Avec le logiciel R on obtient
> varphi(20)
[1] 0.8023
> varphi(40)
[1] 0.8164
> varphi(60)
[1] 0.8080
> varphi(80)
[1] 0.8182
> varphi(100)
[1] 0.8182
109
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
110
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
individus rouges peuvent avoir des enfants rouges et des enfants bleus. Les individus bleus peuvent
avoir des enfants rouges et des enfants bleus. On pose
R
ξnℓ = le nombre d’enfants rouges du ℓe individu rouge de la génération n
B
ξnℓ = le nombre d’enfants bleus du ℓe individu rouge de la génération n
R
ηnℓ = le nombre d’enfants rouges du ℓe individu bleu de la génération n
B
ηnℓ = le nombre d’enfants bleus du ℓe individu bleu de la génération n
R , ξ B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution sur N2 .
On suppose que les couples (ξn,ℓ n,ℓ 0
De même on suppose que les couples (ηn,ℓ R , η B ), n ≥ 0, ℓ ≥ 1 sont i.i.d. avec une certaine distribution
n,ℓ
sur N20 . De plus, on suppose que la famille de couples aléatoires ((ξn,ℓ R , ξ B ), n ≥ 0, ℓ ≥ 1) est
n,ℓ
indépendante de la famille de couples aléatoires ((ηn,ℓR , η B ), n ≥ 0, ℓ ≥ 1). La plupart des résultats
n,ℓ
obtenus dans le présent chapitre ont des versions analogues pour le processus de Galton et Watson
à deux types.
111
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
112
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 7. On suppose que Y est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
1
ϕ(s) = 1 + 2s + 3s2 + 4s3 + 5s4 + 6s5 pour tout s ∈ R.
21
(a) Calculez E[Y ].
(b) Obtenez la distribution (c’est-à-dire la fonction de masse) de Y .
(c) On considère le processus de Galton et Watson dont la distribution de progéniture est la
distribution de la variable aléatoire Y ci-dessus. Calculez la probabilité de disparition θ avec
une précision de cinq décimales.
Numéro 8. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. En général il n’y a pas d’expression simple pour la distribution de Xn
sachant X0 = 1. Voici un cas particulier où il est relativement facile d’obtenir cette distribution
avec les outils du présent chapitre : On suppose que la distribution de progéniture est la distribution
p = (p0 , p1 , p2 , ...) donnée par pk = 1/2k+1 pour tout k ≥ 1.
(a) Obtenez l’espérance µ de la distribution de progéniture.
(b) Obtenez la probabilité de disparition θ de ce processus de Galton et Watson.
(c) Obtenez la f.g.p. ϕ(s) de la distribution de progéniture.
113
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
T = min{n ≥ 0 : Xn = 0}.
Numéro 10. On considère un processus de Galton et Watson, disons (Xn ; n ≥ 0), avec un seul
individu à la génération 0. Dans le cas sous-critique, obtenez une expression (en termes du paramètre
µ) pour l’espérance du nombre total d’individus qui auront vécu, de la génération 0 jusqu’à la
disparition de la population.
Numéro 11. La Figure 2 nous donne le graphe de la f.g.p. d’un processus de Galton et Watson
dans le cas où 0 < p0 < 1 et µ > 1. Dans chacun des cas suivants, dessinez le graphe de cette
fonction et déterminez si on a θ = 0 ou 0 < θ < 1 ou θ = 1.
(a) p0 = 1.
(b) 0 < p0 < 1 et p0 + p1 = 1.
(c) 0 < p0 < 1, 0 < p0 + p1 < 1 et µ < 1.
(d) 0 < p0 < 1 et µ = 1.
(e) p1 = 1.
(f) p0 = 0 et p1 < 1.
Numéro 12. On considère un processus de Galton et Watson. Comme d’habitude, on écrit ϕ(s)
pour dénoter la f.g.p. de la distribution de progéniture et on écrit µ et σ 2 pour dénoter la moyenne et
la variance de cette distribution. Pour simplifier le problème, on suppose que le rayon de convergence
de la série de puissances qui définit ϕ(s) est strictement plus grand que 1. Sous ces condition on a
µ = ϕ′ (1). Voir la partie (g) de la Proposition 5. Montrez que σ 2 = ϕ′ (1) + ϕ′′ (1) − (ϕ′ (1))2 .
Numéro 13. On suppose que X est une variable aléatoire à valeurs entières non négatives et on
suppose que sa fonction génératrice des probabilités est la suivante :
√
2
1− s1−s si − 1 < s < 1
ϕ(s) = 1 si s = 1
−1 si s = −1.
114
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(c) La version générale du théorème du binôme de Newton permet d’obtenir le résultat suivant :
P[X = 1], P[X = 3], P[X = 5], P[X = 7], P[X = 9].
Numéro 14. Voici une autre façon de démontrer que la probabilité de disparition θ est solution
de l’équation s = ϕ(s). On écrit d’abord
∞
X
θ = P[D | X0 = 1] = P[D | X0 = 1, X1 = j] P[X1 = j | X0 = 1].
j=0
115
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
116
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 6
Processus de Poisson
Le présent chapitre est une introduction aux processus de Poisson. Nous ferons d’abord quelques
rappels au sujet de trois distributions de probabilité qui jouent un rôle essentiel dans l’étude des
processus de Poisson : la loi exponentielle, la loi gamma et la loi de Poisson.
On écrit T ∼ exponentielle(λ) pour signifier que T est une variable aléatoire avec loi exponentielle
avec paramètre λ. Dans les applications en science et génie, la loi exponentielle est souvent utilisée
pour modéliser des durées de vie, les temps entre les arrivées successives de clients dans des modèles
de files d’attente, etc.
En particulier, on obtient
1 1
E[T ] = et Var[T ] = 2
λ λ
La fonction de répartition de la loi exponentielle seR calcule facilement. Pour t < 0 on a FT (t) =
t
P[T ≤ t] = 0 et pour t ≥ 0 on a FT (t) = P[T ≤ t] = 0 λe−λu du = 1 − e−λt . Donc
1 − e−λt si t ≥ 0
FT (t) =
0 si t < 0.
117
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Un autre calcul élémentaire permet d’obtenir la fonction génératrice des moments de la loi expo-
nentielle. Pour u ≥ λ, on obtient
Z ∞ Z ∞
uT ut −λt
MT (u) = E[e ] = e λe dt = λ e−(λ−u)t dt = ∞.
0 0
Pour u < λ on obtient
Z ∞ Z ∞
uT ut −λt λ
MT (u) = E[e ]= e λe dt = λ e−(λ−u)t dt = .
0 0 λ−u
On a donc
λ
si u < λ
MT (u) = λ−u
∞ si u ≥ λ.
Si N ∼ géométrique(p), avec 0 < p < 1, alors un calcul élémentaire montre que pour tout choix
d’entiers non négatifs k et ℓ on a
P[N > k + ℓ|N > ℓ] = P[N > k].
Pour des raisons évidentes cette propriété est appelée propriété d’absence de mémoire. Notez que
l’équation précédente est équivalente à l’équation suivante :
P[N > k + ℓ] = P[N > ℓ] P[N > k].
En fait, on peut montrer que la loi géométrique est la seule distribution sur les entiers non négatifs
possédant cette propriété d’absence de mémoire. Le théorème suivant nous dit que la loi exponen-
tielle possède une propriété d’absence de mémoire analogue à celle de la loi géométrique :
Théorème 1. Soit T , une variable aléatoire à valeurs dans l’intervalle (0, ∞), l’ensemble des
nombres réels positifs. Alors T est une variable aléatoire exponentielle si et seulement si pour
tout nombre réel t > 0 et tout nombre réel s > 0 on a
P[T > t + s] = P[T > t] P[T > s].
118
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) φ(0) = 1.
(b) 0 < φ(t) < 1 pour tout t > 0 ;
(c) φ est décroissante (0 ≤ t1 < t2 < ∞ ⇒ φ(t1 ) ≥ φ(t2 )) ;
(d) φ est continue à droite (pour tout t ≥ 0, limu↓t φ(u) = φ(t)) ;
(e) φ(u + v) = φ(u) × φ(v) pout tout u ≥ 0 et tout v ≥ 0.
Autrement dit, on a φ(t) = (φ(1))t pour tout nombre rationnel t ≥ 0. La continuité à droite de la
fonction φ(t) nous donne donc
L’analogie entre la loi géométrique et la loi exponentielle est également illustrée par le calcul suivant.
Ce calcul montre qu’on peut voir la loi exponentielle comme un cas limite de la loi géométrique.
Fixons λ > 0 et pour chaque entier positif n tel que λ/n < 1, considérons une variable aléatoire
Wn avec loi géométrique avec paramètre pn = λ/n. Posons Tn = Wn /n. Pour t ≥ 0 on obtient
119
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En d’autre mots, Wn /n converge en loi vers la loi exponentielle avec paramètre λ. On a donc
démontré le résultat suivant :
On peut aussi démontrer le théorème 2 via la fonction génératrice des moments. Pour terminer
cette section, voici un résultat élémentaire, mais très important, concernant la loi exponentielle.
Il est facile de montrer que l’intégrale ci-dessus est bien définie et que 0 < Γ(α) < ∞ pour tout
0 < α < ∞. Parmi les principales propriétés de cette fonction, notons les suivantes :
1. La fonction gamma est continue et différentiable.
2. Pour tout α > 0, on a Γ(α + 1) = αΓ(α).
3. Pour n = 1, 2, 3, . . . , on a Γ(n) = (n − 1)!.
√
4. Γ(1/2) = π
√
(2n)! π
5. Pour n = 1, 2, 3, . . . , on a Γ((2n + 1)/2) = .
22n n!
120
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La loi gamma
Fixons α > 0 et λ > 0. La loi gamma avec paramètre α > 0 et λ > 0 est la loi continue avec densité
donnée par α
λ tα−1 e−λt si t > 0
f (t) = Γ(α)
0 si t ≤ 0
Il s’agit bel et bien d’une densité de probabilité. En effet, d’une part on a f (t) ≥ 0 pour tout t ∈ R
et d’autre part on a
Z ∞ Z ∞ α Z ∞
λ α−1 −λt 1
f (t)dt = t e dt = (λt)α−1 e−λt λdt
−∞ 0 Γ(α) Γ(α) 0
Z ∞
1 Γ(α)
= uα−1 e−u du = =1
Γ(α) 0 Γ(α)
On écrit T ∼ gamma(α, λ) pour indiquer que T est une variable aléatoire dont la distribution
est la loi gamma avec paramètres α et λ. Si α = 1, alors cette loi est tout simplement la loi
exponentielle(λ) étudiée à la section précédente. En effet, pour tout λ > 0,
gamma(1, λ) = exponentielle(λ).
Si T est une variable aléatoire de loi gamma(α, λ), un calcul élémentaire donne
Z ∞ Z ∞
n n λα α−1 −λt
E[T ] = t fT (t)dt = tn t e dt
−∞ 0 Γ(α)
Z ∞
1 Γ(n + α)
= n
(λt)(n+α)−1 e−λt λdt = .
Γ(α) λ 0 Γ(α)λn
En particulier, on obtient
α α
E[T ] = et Var[T ] = 2
λ λ
On peut aussi calculer la fonction génératrice des moments de la loi gamma. Si T ∼ gamma(α, λ),
alors pour u ≥ λ on obtient MT (u) = ∞ et pour u < λ on obtient
Z ∞
λα α−1 −λt
MT (u) = E[euT ] = eut t e dt
0 Γ(α)
Z ∞
λα
= tα−1 e−(λ−u)t dt
Γ(α) 0
Z ∞
λα
= ((λ − u)t)α−1 e−(λ−u)t (λ − u) dt
(λ − u)α Γ(α) 0
Z ∞
λα
= v α−1 e−v dv
(λ − u)α Γ(α) 0
α
λα λ
= Γ(α) = .
(λ − u)α Γ(α) λ−u
On a donc α
λ
si u < λ
MT (u) = λ−u
∞ si u ≥ λ
121
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La loi gamma possède une propriété d’additivité analogue à celle de la loi binomiale :
Théorème 4. Supposons que U et V sont des variables aléatoires indépendantes. Supposons que
la distribution de U est la loi gamma (α1 , λ) et que la distribution de V est la loi gamma (α2 , λ).
Posons S = U + V . Alors la distribution de la variable aléatoire S est la loi gamma (α1 + α2 , λ).
Plus généralement, si T1 , T2 , . . . , Tk sont des variables aléatoires mutuellement indépendantes et si,
pour j = 1, 2, . . . , k, la distribution de Tj est la loi gamma (αj , λ), alors la distribution de la variable
P P
aléatoire S = kj=1 Tj est la loi gamma (α, λ), avec α = kj=1 αj .
Puisque la loi gamma(1, λ) est simplement la loi exponentielle(λ), le corollaire suivant est une
conséquence immédiate du théorème précédent :
On reconnait ici la fonction génératrice des moments de la loi gamma(α, λ), avec α = α1 + α2 +
· · · + αk . On conclut que S ∼ gamma(α, λ) avec α = α1 + α2 + · · · + αk .
Le théorème suivant est un résultat qui concerne la loi exponentielle. Toutefois, sa démonstration
fait appel à la loi gamma. C’est pourquoi il est inclus dans la présente section.
P
Démonstration. Posons V = G j=1 Tj . Pour démontrer le théorème, il suffit de calculer la fonction
de répartition de la variable aléatoire V et de constater qu’il s’agit de la fonction de répartition de
la loi exponentielle(λp). Pour v ≤ 0 on obtient FV (v) = P[V ≤ v] = 0. Fixons v > 0. On obtient
122
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
XG
FV (v) = P[V ≤ v] = P Tj ≤ v
j=1
∞
X G
X
= P Tj ≤ v G = n P[G = n]
n=1 j=1
X∞ X n
= P Tj ≤ v P[G = n]
n=1 j=1
∞ Z v
X
= fn (s) ds (1 − p)n−1 p
n=1 0
∞ Z v
X λn
= sn−1 e−λs ds (1 − p)n−1 p
n=1 0
(n − 1)!
Z v ∞
!
−λs
X (λ(1 − p)s)n−1
= λpe ds
0 (n − 1)!
n=1
Z v Z v
−λs λ(1−p)s
= λpe e ds = λpe−λps ds = 1 − e−λpv .
0 0
Les moments factoriels de la loi de Poisson sont faciles à calculer. Si X est une variable aléatoire
avec loi de Poisson de paramètre ν et si m est un entier positif, alors le me moment factoriel de X
est donnée par
123
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
∞
X e−ν ν k
= k(k − 1)(k − 2) · · · (k − (m − 1))
k!
k=m
∞ ∞
−ν m
X ν k−m X νℓ
= e ν = e−ν ν m = e−ν ν m eν = ν m .
(k − m)! ℓ!
k=m ℓ=0
En particulier, on obtient
E[X] = ν
et
Var[X] = E[X 2 ] − (E[X])2
= E[X(X − 1)] + E[X] − (E[X])2
= E[X(X − 1)] − E[X](E[X] − 1)
= ν 2 − ν(ν − 1) = ν
124
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En pratique, ce résultat nous dit que si n est grand et si p est petit, alors on peut approximer la
loi binomiale(n, p) par la loi de Poisson avec paramètre ν = np :
binomiale(n, p) ≈ Poisson(np).
La loi de Poisson possède une propriété d’additivité semblable à la propriété d’additivité de la loi
binomiale :
Démonstration. Sous les hypothèses du théorème, il est clair que l’ensemble des valeurs possibles
de la variable aléatoire X + Y est l’ensemble N0 = {0, 1, 2, ...}. Fixons n ∈ N0 . Alors
n
X
P[X + Y = n] = P[(X = k) ∩ (Y = n − k)]
k=0
Xn
= P[X = k] P[Y = n − k]
k=0
n
X ν1k −ν2 ν2n−k
= e−ν1 e
k! (n − k)!
k=0
n
−(ν1 +ν2 ) 1 n k n−k
X
= e ν ν
n! k 1 2
k=0
(ν1 + ν2 )n
= e−(ν1 +ν2 )
n!
On reconnaı̂t ici la fonction de masse de la loi de Poisson de paramètre ν1 + ν2 . On conclut que
X + Y ∼ Poisson(ν1 + ν2 ). Notez que pour la dernière égalité ci-dessus on a simplement utilisé le
théorème du binôme.
125
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Autrement dit,
0 si 0 ≤ t < S1
1 si S1 ≤ t < S2
2
si S2 ≤ t < S3
N (t) = ..
.
k si Sk ≤ t < Sk+1
.
.
.
Si S1 , S2 , S3 ,... représente les temps où surviennent certains événements, alors N (t) représente
le nombre total d’événements qui sont survenus durant l’intervalle de temps [0, t]. Ceci justifie la
définition suivante.
Dans certaines applications, les variables aléatoires T1 , T2 , T3 , ... représentent les durées de vie de
composantes électroniques qu’on utilise les unes après les autres. Supposons par exemple qu’on dis-
pose d’une grande quantité de piles électriques, disons la pile 1, la pile 2, la pile 3, etc. et supposons
qu’on utilise ces piles de façon séquentielle dans un certain système électronique. Donc, au temps 0,
on installe la pile 1. Cette pile dure T1 unités de temps, après quoi elle doit être jetée et remplacée
par la pile 2. Celle-ci dure T2 unités de temps, après quoi elle doit être jetée et remplacée par la
pile 3. Et ainsi de suite. La variable aléatoire N (t) représente alors le nombre de changements de
pile qui ont été effectués durant l’intervalle de temps [0, t]. Dans d’autres applications, les variables
aléatoires T1 , T2 , T3 , ... représentent les temps d’attentes entre les arrivées successives de clients dans
une file d’attente. La variable aléatoire N (t) représente alors le nombre de clients qui sont arrivés
durant l’intervalle de temps [0, t]. Dans l’étude des processus de dénombrement, les variables T1 ,
T2 , T3 ,... sont donc souvent appelées les durées de vie du processus (N (t); t ≥ 0), ou encore les
temps d’attente du processus (N (t); t ≥ 0).
Le cas particulier où les durées de vie sont indépendantes et identiquement distribuées est par-
ticulièrement facile à analyser. Prenons l’exemple des piles électriques du paragraphe précédent
et supposons que les durées de vie T1 , T2 , T3 ,... sont des variables aléatoires indépendantes et
identiquement distribuées. Lorsqu’on installe une nouvelle pile dans le système, on dit qu’il y a
renouvellement du système parce que c’est comme si le système recommençait à neuf. La variable
aléatoire N (t) représente alors le nombre de renouvellements du système durant l’intervalle de
temps [0, t], d’où la définition suivante.
L’exemple le plus important d’un processus de renouvellement est le processus de Poisson. En voici
la définition la plus simple :
126
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Sn ∼ gamma(n, λ).
= P[Sn ≤ t] − P[Sn+1 ≤ t]
Z t Z t n+1
λn n−1 −λs λ
= s e ds − sn e−λs ds
0 (n − 1)! 0 n!
Z t
λn n−1 −λs λn+1 n −λs
= s e − s e ds
0 (n − 1)! n!
n
λ n −λs s=t
Z t
d λn n −λs −λt (λt)
n
= s e ds = s e = e .
0 ds n! n! n!
s=0
(b) pour tout entier positif n et pour tout choix de nombres réels 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤
sn ≤ tn < ∞, les variables aléatoires
Nous allons maintenant voir que l’inverse est aussi vrai. Soit (N (t); t ≥ 0), un processus de
dénombrement satisfaisant les conditions (a) et (b) données ci-dessus. Calculons la distribution
du temps du premier renouvellement, T1 = min{t > 0 : N (t) = 1}. Pour t > 0 on a
(λt)0
P[T1 > t] = P[N (t) = 0] = e−λt = e−λt
0!
127
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
1 − e−λt si t ≥ 0
FT1 (t) =
0 si t < 0.
Ceci montre que T1 ∼ exponentielle(λ). De façon similaire, on peut montrer que chacune des
variables
Tk = min{t > 0 : N (t) = k} − min{t > 0 : N (t) = k − 1}
suit la loi exponentielle(λ) et que ces variables T1 , T2 , T3 , ... sont indépendantes les unes des autres.
Donc, si (N (t); t ≥ 0) est un processus de dénombrement satisfaisant les conditions (a) et (b), alors
(N (t); t ≥ 0) est un processus de Poisson avec intensité λ.
Notons en passant que si (Xt ; t ≥ 0) est un processus aléatoire, alors la variable aléatoire Xv − Xu
s’appelle l’accroissement du processus (Xt ; t ≥ 0) sur l’intervalle (u, v]. On dit que (Xt ; t ≥ 0) est un
processus à accroissements stationnaires lorsque la distribution de l’accroissement sur un intervalle
dépend seulement de la longueur de l’intervalle, c’est-à-dire lorsque
On dit que (Xt ; t ≥ 0) est un processus à accroissements indépendants lorsque les accroissements
correspondants à des intervalles disjoints sont des variables aléatoires indépendantes, c’est-à-dire
lorsque pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞, les variables aléatoires
sont des variables mutuellement indépendantes. La condition (b) ci-dessus nous dit donc que
(N (t); t ≥ 0) est un processus à accroissements indépendants. La condition (a), quant à elle, nous
dit, entre autres choses, que (N (t); t ≥ 0) est un processus à accroissements stationnaires. La
première définition de processus de Poisson, donnée ci-dessus, est donc équivalente à la définition
suivante.
Théorème 10. Le processus aléatoire (Nt ; t ≥ 0) est une processus de Poisson avec intensité λ au
sens de la définition 1 si et seulement si c’est un processus de Poisson avec intensité λ au sens de
la définition 2.
128
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Maintenant, calculons la loi conditionnelle du couple (S1 , S2 ) sachant que N (t) = 2. Notons d’abord
que lorsque N (t) = 2, l’ensemble des valeurs possibles du couple (S1 , S2 ) est l’ensemble {(s1 , s2 ) ∈
R2 : 0 ≤ s1 ≤ s2 ≤ t}. Calculons la fonction de répartition conjointe de (S1 , S2 ) sachant N (t) = 2
en un point (s1 , s2 ) satisfaisant 0 ≤ s1 ≤ s2 ≤ t. On obtient
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 )|N (t) = 2]
P[(S1 ≤ s1 ) ∩ (S2 ≤ s2 ) ∩ (N (t) = 2)]
=
P[N (t) = 2]
P[(N (s1 ) = 1) ∩ (N (s2 ) − N (s1 ) = 1) ∩ (N (t) − N (s2 ) = 0)]
=
P[N (t) = 2]
P[(N (s1 ) = 2) ∩ (N (s2 ) − N (s1 ) = 0) ∩ (N (t) − N (s2 ) = 0)]
+
P[N (t) = 2]
P[N (s1 ) = 1] P[N (s2 ) − N (s1 ) = 1] P[N (t) − N (s2 ) = 0]
=
P[N (t) = 2]
P[N (s1 ) = 2] P[N (s2 ) − N (s1 ) = 0] P[N (t) − N (s2 ) = 0]
+
P[N (t) = 2]
−λs
−λ(s −s ) −λ(t−s )
e 1 λs1 e 2 1 λ(s − s ) e 2
2 1
= −λt 2
e (λt) /2!
e 1 (λs1 ) /2! e−λ(s2 −s1 ) e−λ(t−s2 )
−λs 2
+
e−λt (λt)2 /2!
2s1 (s2 − s1 ) s21
= + 2.
t2 t
129
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La densité conjointe conditionnelle de (S1 , S2 ) sachant N (t) = 2 est donc donnée par
∂2 2s1 (s2 − s1 ) s21
+ 2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) = ∂s2 ∂s1 t2 t
0 sinon
On obtient donc
2/t2 si 0 ≤ s1 ≤ s2 ≤ t
f (s1 , s2 ) =
0 sinon
Cette distribution de probabilité est aussi la loi conjointe des statistiques d’ordre d’un échantillon
de taille 2 issu de la loi uniforme sur l’intervalle [0, t]. Autrement dit, si U1 et U2 sont des variables
aléatoires indépendantes et identiquement distribuées, avec loi uniforme sur [0, t] et si U(1) et U(2)
dénote les statistiques d’ordre du couple (U1 , U2 ), c’est-à-dire
Théorème 11. Soit (Nt ; t ≥ 0), un processus de Poisson avec intensité λ. La densité conditionnelle
de (S1 , S2 , ..., Sn ) sachant Nt = n est donnée par
n!/tn si 0 ≤ s1 ≤ s2 ≤ · · · ≤ sn ≤ t
f (s1 , s2 , ..., sn ) =
0 sinon
Autrement dit,
L((S1 , S2 , ..., Sn )|Nt = n) = L(U(1) , U(2) , ..., U(n) )
où U(1) , U(2) , ..., U(n) dénotent les statistiques d’ordre d’un échantillon aléatoire de taille n issu de
la loi uniforme sur [0, t].
130
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Théorème 12. Fixons λ1 , λ2 , ..., λm , des nombres réels strictement plus grands que 0, et posons
λ = λ1 + λ2 + · · · + λm . Supposons que, pour chaque j ∈ {1, 2, ..., m}, le processus (Nj (t); t ≥ 0)
est un processus de Poisson avec intensité λj et supposons que ces m processus de Poisson sont
indépendants les uns des autres. Pour chaque t ≥ 0, posons
Remarques.
• Avec le scénario du Théorème 12, on dit que ce processus (N (t); t ≥ 0) est la superposition
des processus (Nj (t); t ≥ 0), j = 1, 2, ..., m.
• Pour la démonstration ci-dessus, nous sommes passés par notre première définition de pro-
cessus de Poisson. Nous aurions pu passer par la deuxième définition.
131
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
m
X
N (t1 ) − N (s1 ) = (Nj (t1 ) − Nj (s1 )) ,
j=1
Xm
N (t2 ) − N (s2 ) = (Nj (t2 ) − Nj (s2 )) ,
j=1
m
X
N (t3 ) − N (s3 ) = (Nj (t3 ) − Nj (s3 )) ,
j=1
..
.
m
X
N (tn ) − N (sn ) = (Nj (tn ) − Nj (sn )) .
j=1
Puisque les n intervalles (s1 , t1 ], (s2 , t2 ], ..., (sn , tn ] sont disjoints deux à deux et puisque les m
processus (Nj (t); t ≥ 0), j = 1, 2, ..., m sont indépendants les uns des autres, les nm accroissements
qui apparaissent sur le côté droit des équations ci-dessus sont indépendants les uns des autres. On
conclut que les n accroissements
sont indépendants les uns des autres. De plus, puisqu’on a Nj (t) − Nj (s) ∼ Poisson(λj (t − s)), la
propriété d’additivité de la loi de Poisson nous permet de conclure que N (t) − N (s) suit la loi de
Poisson avec paramètre λ(t − s), avec λ = λ1 + λ2 + · · · + λm . Le processus (N (t); t ≥ 0) est donc
bel et bien un processus de Poisson d’intensité λ = λ1 + λ2 + · · · + λm , au sens de la Définition 2.
Théorème 13. Fixons m, un entier positif, et fixons (p1 , p2 , ..., pm ), un vecteur satisfaisant 0 <
pj < 1 pour tout j et p1 + p2 + · · · + pm = 1. Fixons λ > 0 et considérons un processus de Poisson
avec intensité λ, disons (N (t); t ≥ 0). Supposons que
(1) il y a m types d’événements dans le processus (N (t); t ≥ 0) ;
(2) à chaque fois que survient un événement, on a une probabilité p1 que ce soit un événement
de type 1, une probabilité p2 que ce soit un événement de type 2, une probabilité p3 que ce
soit un événement de type 3, etc. ;
(3) les attributions de types sont indépendantes les unes des autres et sont indépendantes des
durées de vie T1 , T2 , T3 , ...
Pour chaque j ∈ {1, 2, ..., m}, dénotons par (Nj (t); t ≥ 0) le processus de dénombrement des
événements de type j. Alors
(i) (Nj (t); t ≥ 0) est un processus de Poisson avec intensité(λpj ) ;
(ii) les processus (Nj (t); t ≥ 0) sont indépendants les uns des autres.
132
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration de la partie (i). L’énoncé (i) est facile à démontrer. Fixons j ∈ {1, 2, ..., m} et
(j)
considérons le processus (Nj (t); t ≥ 0). Le temps du premier événement de ce processus, disons T1
peut s’écrire sous la forme
Gj
(j)
X
T1 = Tk
k=1
où T1 , T2 , T3 , ... sont les temps d’attente du processus (N (t); t ≥ 0) et où Gj dénote le nombre
d’événements qu’il faudra observer pour obtenir notre premier événement de type j. Les va-
riables T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λ), et
la variable Gj est géométrique(pj ) sur {1, 2, 3, ...} et est indépendante des variables T1 , T2 , T3 , ...
(j)
Le Théorème 5 de la section 2 nous permet de conclure que T1 ∼ exponentielle(λpj ). Grâce
à la propriété d’absence de mémoire de la loi exponentielle, on peut montrer que les variables
(j) (j) (j)
T1 , T2 , T3 , ... sont indépendantes et identiquement distribuées, avec loi exponentielle(λpj ). Le
processus (Nj (t); t ≥ 0) est donc bel et bien un processus de Poisson avec intensité λpj .
Démonstration de la partie (ii). La démonstration de l’énoncé (ii) est un peu plus délicate.
Pour fixer les idées et simplifier la notation, considérons le cas où m = 3. On a donc trois types
d’événements et chaque fois qu’un événement survient on a une probabilité p1 que ce soit un
événement de type 1, une probabilité p2 que ce soit un événement de type 2 et une probabilité
p3 que ce soit un événement de type 3. On suppose que 0 < pj < 1 pour j = 1, 2, 3 et que
p1 + p2 + p3 = 1. D’après la partie (i), les processus aléatoires
sont des processus de Poisson avec intensités respectives λp1 , λp2 et λp3 . On souhaite démontrer que
ces trois processus aléatoires sont indépendants. Autrement dit, on souhaite démontrer que pour
tout choix d’entiers positifs ℓ, m et n et pour tout choix de nombres réels positifs u1 < u2 < · · · < uℓ ,
v1 < v2 < · · · < vm et w1 < w2 < · · · < wn , les trois vecteurs aléatoires
(N1 (u1 ), N1 (u2 ), ..., N1 (uℓ )), (N2 (v1 ), N2 (v2 ), ..., N2 (vm )), (N3 (w1 ), N3 (w3 ), ..., N3 (wn ))
sont indépendants. Nous allons démontrer le cas spécial suivant : pour tout t > 0 les variables
aléatoire N1 (t), N2 (t) et N3 (t) sont indépendantes. À première vue cet objectif semble être beaucoup
plus modeste que l’objectif souhaité ci-dessus. Mais en fait ce cas spécial capture l’essentiel de notre
problème et, bien que nous omettrons les détails, il n’est pas très difficile de passer du cas spécial
au cas général.
Fixons t > 0 et calculons la fonction de masse conjointe des variables aléatoires N1 (t), N2 (t) et
N3 (t). Pour tout choix d’entiers non négatifs i, j et k, on obtient
133
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour la dernière égalité, on a utilisé le résultat de la partie (i). On a donc montré que la fonction de
masse conjointe des variables aléatoires N1 (t), N2 (t) et N3 (t) est égale au produit de leurs fonctions
de masse marginales. Les variables aléatoires N1 (t), N2 (t) et N3 (t) sont donc indépendantes.
Remarques.
(a) Dans le scénario du Théorème 13, chacun des processus de Poisson (Nj (t); t ≥ 0) est appelé
un amincissement du processus N (t); t ≥ 0).
(b) Dans la démonstration ci-dessus on a utilisé le fait que
(i + j + k)! i j k
P[(N1 (t) = i) ∩ (N2 (t) = j) ∩ (N3 (t) = k) | N (t) = i + j + k] = p1 p2 p3 .
i! j! k!
Il s’agit d’une probabilité multinomiale. En effet, la distribution conjointe des variables
aléatoires N1 (t), N2 (t) et N3 (t) sachant que N (t) = i + j + k est la loi multinomiale(i + j +
k, (p1 , p2 , p3 )).
134
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On suppose bien
R t sûr que la fonction intensité λ(t) est une fonction non négative. On suppose
également que 0 λ(u) du < ∞ pour tout t > 0.
Exemple. On suppose que (N (t); t ≥ 0) est un processus de Poisson avec fonction intensité donnée
par λ(t) = 2 + t e−t . Calculez la probabilité qu’il y aura au moins 4 événements durant l’intervalle
de temps (1, 3].
Solution. La probabilité demandée est la probabilité P[N (3) − N (1) ≥ 4]. D’abord on note que la
distribution de l’accroissement N (3) − N (1) est la loi de Poisson avec moyenne
Z 3 Z 3
E[N (3) − N (1)] = m(3) − m(1) = λ(t) dt = (2 + t e−t )dt ≈ 4.53661.
1 1
On obtient ensuite
est appelé un processus de Poisson composé, avec intensité λ et avec distribution de gain F .
135
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
E[X(t)] = λtµ
Var[X(t)] = λt(σ 2 + µ2 )
Le dernier point s’obtient par conditionnement sur N (t). Pour l’espérance, on obtient
La notation o(t) : Supposons que g(u) soit une fonction définie sur (0, ∞) et à valeurs dans R.
On dit que la fonction g(u) est un petit ordre de u lorsque u tend vers 0, et on écrit
si on a
g(u)
lim = 0.
u↓0 u
136
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Intuitivement, cette condition signifir que lorsque u tend vers 0, g(u) tend vers 0 plus rapidement
que u. Par exemple, la fonction g(u) = u2 est un petit ordre de u quand u → 0 puisque
u2
lim = lim u = 0.
u↓0 u u↓0
Par ailleurs, bien que limu→0 sin(u) = 0, la fonction g(u) = sin(u) n’est pas un petit ordre de u
quand u → 0 puisque
sin(u)
lim = 1.
u↓0 u
On utilise la notation o(u) pour représenter n’importe quelle fonction g(u) qui satisfait la condition
limu→0 g(u)/u = 0. Lorsque la notation o(u) est utilisé à plusieurs reprises dans une même équation
ou dans une série d’équations, les différents o(u) ne représentent pas nécessairement la même
quantité.
avec g(h) = e−λh − 1 + λh. La première égalité vient du fait que les accroissements du processus de
Poisson sont indépendants. La deuxième égalité vient du fait que N (t + h)− N (t) ∼ Poisson(λh). Il
ne reste plus qu’à vérifier que cette fonction g(h) est un petit ordre de h lorsque h → 0, c’est-à-dire
e−λh − 1 + λh
lim = 0.
h→0 h
On y arrive facilement en appliquant la règle de l’Hospital. Les point (b) et (c) s’obtiennent de
façon semblable.
137
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
f0 (t + h) = P[N (t + h) = 0]
= P[N (t) = 0] P[N (t + h) − N (t) = 0|N (t) = 0]
= f0 (t) (1 − λh + o(h))
On a donc
f0 (t + h) − f0 (t) o(h)
= f0 (t) −λ +
h h
et lorsqu’on prend la limite quand h → 0 on obtient
Avec la condition initiale f0 (0) = P[N (0) = 0] = 1, la solution de cette équation différentielle est
f0 (t) = e−λt . On a donc
P[N (t) = 0] = e−λt .
Maintenant, considérons la fonction f1 (t). À l’aide de (a) et (b), on obtient
f1 (t + h) = P[N (t + h) = 1]
= P[N (t) = 0] P[N (t + h) − N (t) = 1|N (t) = 0]
+ P[N (t) = 1] P[N (t + h) − N (t) = 0|N (t) = 1]
= f0 (t) (λh + o(h)) + f1 (t) (1 − λh + o(h)) .
On a donc
f1 (t + h) − f1 (t) o(h) o(h)
= e−λt λ+ + f1 (t) −λ +
h h h
et lorsqu’on prend la limite quand h → 0 on obtient
Avec la condition initiale f1 (0) = P[N (0) = 1] = 0, la solution de cette équation différentielle est
f1 (t) = λte−λt . On a donc
P[N (t) = 1] = λte−λt .
On peut continuer de la même façon avec les fonctions f2 (t), f3 (t), f4 (t), ... et on obtient alors
(λt)k
P[N (t) = k] = e−λt
k!
Ceci montre que
N (t) ∼ Poisson(λt) pour tout t ≥ 0.
Nous avons donc démontré que la définition suivante de processus de Poisson est équivalente aux
deux définitions données à la section 4.
138
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
L’approche utilisé dans la présente section présente certains avantages. Par exemple, on peut mon-
trer qu’un processus de dénombrement (N (t); t ≥ 0) est un processus de Poisson avec fonction
intensité λ(t) si et seulement si les trois conditions suivantes sont satisfaites :
(a) P[N (t + h) − N (t) = 0|N (t) = k] = 1 − λ(t)h + o(h) quand h → 0.
(b) P[N (t + h) − N (t) = 1|N (t) = k] = λ(t)h + o(h) quand h → 0.
(c) P[N (t + h) − N (t) ≥ 2|N (t) = k] = o(h) quand h → 0.
Dans les sections précédentes, nous avons étudié en détails le cas particulier des processus de
Poisson. Dans la présente section nous étudions le cas général des processus de renouvellement. Il
s’avère que plusieurs résultats obtenus pour les processus de Poisson sont également valides, sous
une forme appropriée, pour les processus de renouvellement. Voici la notation et les hypothèses qui
seront utilisées dans la présente section :
• Les durées de vie T1 , T2 , T3 , ... sont des variables aléatoires i.i.d. avec P[0 < Tk < ∞] = 1.
• µ et σ 2 dénotent la moyenne et la variance de la distribution des durées de vie.
• F (t) dénote la fonction de répartition de la distribution des durées de vie.
P
• S0 = 0 et, pour n ≥ 1, Sn = nj=1 Tj .
• Pour t ≥ 0, Nt = max{n ≥ 0 : Sn ≤ t}.
139
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Les notations N (t) et Nt signifient la même chose et seront toutes les deux utilisées. Le nombre
total de renouvellements durant la vie entière du processus est parfois dénoté N∞ ou N (∞). On a
donc
N∞ = lim Nt .
t→∞
Voici d’abord un résultat élémentaire. Ce résultat nous dit qu’avec un processus de renouvellement
on ne peut jamais avoir une infinité de renouvellements à l’intérieur d’un intervalle de temps fini et
on a toujours un nombre infini de renouvellements durant la vie entière du processus, c’est-à-dire
durant l’intervalle de temps [0, ∞).
Théorème 14 : Si (Nt ; t ≥ 0) est un processus de renouvellement, alors
(a) P[Nt = ∞] = 0 pour tout 0 ≤ t < ∞ ;
(b) P[N∞ = ∞] = 1.
Démonstration. Considérons d’abord le point (a). D’après la loi forte des grands nombres, on a
P[ lim Sn /n = µ] = 1.
n→∞
P[∩∞
n=1 (Sn ≤ t)] = 0,
c’est-à-dire P[Nt = ∞] = 0. Considérons maintenant le point (b). Pour que le nombre total de
renouvellements soit fini, il faut qu’au moins une des durées de vie soit infini. On obtient donc
m(t) = E[Nt ].
Nous verrons ci-dessous que la fonction de moyenne peut être exprimée en termes des fonctions
de répartition des temps de renouvellement. La fonction de répartition de Sn , le temps du ne
renouvellement, sera dénotée Fn (t). Donc, pour t ≥ 0,
Ces fonctions de répartitions peuvent être calculées à partir de la fonction de répartition des durées
de vie. Par exemple, si la fonction de répartition des durées de vie possède une densité, disons f (t),
alors la densité de probabilité de la variable aléatoire Sn peut être calculée avec l’aide de la formule
de convolution.
140
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple. Supposons que la distribution des durée de vie est la loi gamma(α, λ). Alors la distri-
bution de la variable aléatoire Sn est la loi gamma(nα, λ).
Théorème 15 :
∞
X
m(t) = Fn (t).
n=1
Démonstration. Rappelons queP si M est une variable aléatoire à valeurs dans l’ensemble des
entiers non négatifs, alors E[M ] = ∞ m=1 P[M ≥ m]. Rappelons aussi qu’on a Nt ≥ n si et seulement
si Sn ≤ t. On obtient donc
∞
X ∞
X ∞
X
m(t) = E[N (t)] = P[Nt ≥ n] = P[Sn ≤ t] = Fn (t).
n=1 n=1 n=1
La partie (a) du théorème 14 nous dit que P[Nt < ∞] = 1. Il est donc raisonnable de penser que
E[Nt ] < ∞, c’est-à-dire m(t) < ∞. Toutefois, il faut être prudent ! Une variable aléatoire N peut
avoir une espérance infini même si elle satisfait la condition P[0 < N < ∞] = 1. Le théorème
suivant n’est donc pas complètement trivial.
Démonstration. Fixons t ≥ 0. Considérons le cas où t est tel que F (t) < 1. On a alors
Fn (t) = P[Sn ≤ t]
≤ P[∩nj=1 (Tj ≤ t)]
Yn
= P[Tj ≤ t] = (F (t))n .
j=1
L’inégalité ci-dessus vient du fait que si Sn ≤ t, alors les variables T1 , T2 , ..., Tn sont toutes plus
petites où égales à t. Le théorème 15 nous permet de conclure :
∞
X ∞
X
m(t) = Fn (t) ≤ (F (t))n < ∞.
n=1 n=1
Ceci complète la démonstration dans le cas où t est tel que F (t) < 1. Dans le cas où t est tel que
F (t) = 1, la démonstration est un peu plus délicate et elle sera omise.
Voici deux exemples où la fonction de moyenne m(t) est facile à calculer.
Exemple 1. Si (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors m(t) = λt. Ici, la
durée de vie moyenne est µ = 1/λ. On a donc m(t) = t/µ.
141
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Il est clair que si deux processus de renouvellement ont la même distribution de durée de vie, alors
ils ont la même fonction de moyenne. L’inverse est vrai. Avec l’aide de la transformée de Laplace,
on peut montrer que si deux processus de renouvellement ont la même fonction de moyenne, alors
ils ont la même distribution de durée de vie. Un processus de renouvellement est donc caractérisé
par sa fonction de moyenne. On a donc le théorème suivant.
Théorème 17. Soit (N1 (t); t ≥ 0), un processus de renouvellement avec distribution de durée de
vie F1 (t) et avec fonction de moyenne m1 (t). Soit (N2 (t); t ≥ 0), un processus de renouvellement
avec distribution de durée de vie F2 (t) et avec fonction de moyenne m2 (t). Alors
Exemple 3. La fonction de moyenne d’un processus de renouvellement est m(t) = 7t. Obtenez la
probabilité d’avoir exactement 10 renouvellements durant l’intervalle de temps (3, 5].
Solution. On sait que la fonction de moyenne d’un processus de Poisson avec intensité λ = 7
est précisément la fonction m(t) = 7t. Le théorème 17 nous permet donc de conclure que notre
processus de renouvellement est en fait un processus de Poisson avec intensité λ = 7. Le nombre
d’évènements durant l’intervalle de temps (3, 5] suit donc la loi de Poisson avec moyenne 2λ = 14.
La probabilité demandée est donc e−14 1410 /10!.
Nous terminons la présente section avec un autre résultat au sujet de la fonction de moyenne m(t).
La démonstration sera omise.
Théorème 18.
Si (N (t); t ≥ 0) est un processus de renouvellement avec durée de vie moyenne µ, alors
m(t) 1
lim = .
t→∞ t µ
142
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le cas d’un processus de Poisson, le Théorème 18 est trivial. En effet, si (N (t); t ≥ 0) est un
processus de Poisson avec intensité λ, alors m(t) = λt, donc m(t)/t = λ, donc limt→∞ m(t)/t = λ.
Or dans le cas d’un processus de Poisson avec intensité λ, les durées de vie sont exponentielle(λ)
de sorte que µ = 1/λ, c’est-à-dire λ = 1/µ. Donc pour un processus de Poisson avec intensité λ on
a bel et bien limt→∞ m(t)/t = 1/µ.
P
La notation −→ se lit “converge en probabilité”. Dans le cas où la variance des Vj est finie, la loi
faible des grands nombres se démontre facilement à l’aide de l’inégalité de Chebyshev.
Autrement dit, on a
n
1 X
P lim Vj = µ = 1.
n→∞ n
j=1
p.s.
La notation −→ se lit “converge presque sûrement”, ou encore “converge avec probabilité 1”. Dans
le cas où E[V14 ] < ∞, on peut démontrer la loi forte des grands nombres avec l’aide de l’inégalité de
Chebyshev et du lemme de Borel et Cantelli. Dans le cas général, la démonstration de la loi forte
des grands nombres est beaucoup plus difficile.
Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires
143
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
sont indépendantes et identiquement distribuées avec moyenne λ et la loi forte des grands nombres
nous donne donc
n
N (n) 1X p.s.
= (N (j) − N (j − 1)) −→ λ.
n n
j=1
N (t) p.s.
−→ λ. (6.1)
t
Avec le processus de Poisson, la moyenne de la distribution des durées de vie est simplement
µ = 1/λ. Le résultat (6.1) peut donc s’écrire sous la forme suivante :
N (t) p.s. 1
−→ . (6.2)
t µ
Le résultat suivant nous dit que l’équation (6.2) est valide pour tous les processus de renouvellement.
N (t) p.s. 1
−→ . (6.3)
t µ
SN (t) ≤ t ≤ SN (t)+1 .
On obtient donc
SN (t) t SN (t)+1 SN (t)+1 N (t) + 1
≤ ≤ = (6.4)
N (t) N (t) N (t) N (t) + 1 N (t)
La loi forte des grands nombres appliquée aux durées de vie T1 , T2 , T3 , ... nous donne
Sn p.s.
−→ µ lorsque n → ∞
n
et la partie (b) du théorème de la section 10.1 nous dit que
p.s.
N (t) −→ ∞ lorsque t → ∞.
144
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
N (t) + 1 p.s.
−→ 1,
N (t)
SN (t) p.s.
−→ µ
N (t)
SN (t)+1 p.s.
−→ µ
N (t) + 1
N (t) P 1
−→ .
t µ
Si (N (t); t ≥ 0) est un processus de Poisson avec intensité λ, alors les variables aléatoires
145
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Comme à la section 10.3, on peut montrer que la limite précédente est également valide avec n
remplacé par t. On a donc le résultat suivant :
N (t) − tλ L
√ −→ N (0, 1). (6.5)
tλ
Tout comme la loi des grands nombres, le théorème limite central pour les processus de Poisson se
généralise aux processus de renouvellement.
N (t) − t/µ L
p −→ N (0, 1). (6.6)
tσ 2 /µ3
Aperçu de la démonstration :
On fixe x ∈ R. On doit montrer que
" #
N (t) − t/µ
lim P p ≤ x = Φ(x)
t→∞ tσ 2 /µ3
p
Or si t est très grand et si m dénote la partie entière de t/µ + x tσ 2 /µ3 , alors on a
" #
N (t) − t/µ t p
2 3
P p ≤x = P N (t) ≤ + x tσ /µ
tσ 2 /µ3 µ
≈ P [N (t) < m]
= P[Sm > t]
Sm − mµ t − mµ
= P √ > √
σ m σ m
Sm − mµ t − mµ
= 1−P √ ≤ √
σ m σ m
t − mµ
≈ 1−Φ √
σ m
≈ 1 − Φ(−x) = Φ(x).
Pour l’avant-dernière approximation, on a utilisé le théorème limite central classique (qui nous dit
√
que (Sm − mµ)/σ m suit, à peu près, la loi N (0, 1)). Pour la dernière approximation, on a utilisé
146
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
p
le fait que m ≈ t/µ + x tσ 2 /µ3 et on a obtenu
p
t − t/µ + x tσ 2 /µ3 µ
t − mµ −x
√ ≈ q =p √ ≈ −x
σ m p
1 + xσ/ tµ
σ t/µ + x tσ 2 /µ3
Pour obtenir une démonstration rigoureuse, il suffirait de justifier les approximations précédentes
pour obtenir " #
N (t) − t/µ
lim P p ≤ x = Φ(x).
t→∞ tσ 2 /µ3
Ceci complète l’aperçu de la démonstration.
L
En général, lorsqu’on a Wn −→ W , on ne peut pas prendre la variance de chaque côté et conclure
que Var[Wn ] → Var[W ]. Mais dans le cas du théorème limite central pour les processus de renou-
vellement, on peut justifier ce calcul. On obtient alors
" #
N (t) − t/µ
Var p →1
tσ 2 /µ3
Var[N (t)] σ2
lim = 3.
t→∞ t µ
Théorème 24.
lim E[TN (t)+1 ] = µ + (σ 2 /µ). (6.7)
t→∞
Ce résultat est parfois appelé le paradoxe de l’échantillonnage. Imaginez par exemple un pro-
cessus de renouvellement où les variables T1 , T2 , T3 , ... représentent les durées de vie d’ampoules
électriques qui sont utilisées séquen-tiellement dans une lampe. La variable TN (t)+1 représente alors
la durée de vie de l’ampoule en service au temps t. Les variables T1 , T2 , T3 , ... sont indépendantes
et identiquement distribuées avec moyenne µ mais pourtant le théorème précédent nous dit que
E[TN (t)+1 ] ≈ µ + (σ 2 /µ).
On peut même obtenir la distribution limite de la variable TN (t)+1 . Par exemple, dans le cas où la
distribution des durées de vie est une loi continue avec densité fT (t), on a le résultat suivant :
147
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Autrement dit, on a
L
TN (t)+1 −→ V (6.8)
où V est une variable aléatoire avec densité
vfT (v)
fV (v) = . (6.9)
µ
Pour comprendre ce qui se passe, examinons un cas simple. Supposons que la distribution des durées
de vie d’un certain type de piles électriques est la loi discrète suivante :
µ=3 et σ 2 = 2.
Donc on utilise nos piles de façon séquentielle et à chaque renouvellement on a une probabilité 2/3
de choisir une pile qui durera 2 heures et une probabilité 1/3 de choisir une pile qui durera 5 heures.
Parmi les 300 premières piles, il y en aura environ 200 qui dureront 2 heures et environ 100 qui
dureront 5 heures. La durée de vie totale des 300 premières piles sera donc d’environ 900 heures,
dont 400 heures couvertes par des piles qui durent 2 heures et 500 heures par des piles qui durent
5 heures. À la longue, la proportion du temps couvert par des piles qui durent 2 heures est donc
148
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
de 4/9 alors que la proportion du temps couvert par des piles qui durent 5 heures est de 5/9. On
conclut donc que pour t très grand, la durée de vie de la pile en service au temps t est une variable
aléatoire dont la fonction de masse est environ
4/9 si v = 2
pV (v) = 5/9 si v = 5
0 si v ∈
/ {2, 5}
σ2
µV = 11/3 = 3 + 2/3 = µ + .
µ
4 2 (2/3) 2 pT (2)
pV (2) = = =
9 3 µ
5 5 (1/3) 5 pT (5)
pV (5) = = = ,
9 3 µ
c’est-à-dire
v pT (v)
pV (v) = .
µ
Ceci est la version discrète de l’équation (6.9).
Remarque. Si F est une distribution de probabilité sur les réels positifs, avec densité f (t) et avec
moyenne 0 < µ < ∞, alors la distribution de probabilité avec densité f˜(t) = tfµ(t) est dénotée F̃ et
est appelée la transformation de F par biais de longueur.
149
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 2. On suppose que X suit la loi gamma avec moyenne 4 et avec écart-type 3. Calculez
P[2 ≤ X ≤ 4], P[2 ≤ X ≤ 4|1 ≤ X ≤ 6], P[2 ≤ X ≤ 4|X ≥ 1], et P[2 ≤ X ≤ 4|X ≤ 5].
Numéro 4. Le Théorème 1 du présent chapitre nous dit que si T est une variable aléatoire à
valeurs dans l’intervalle (0, ∞), c’est-à-dire si P[0 < T < ∞] = 1, alors T suit une loi exponentielle
si et seulement si T possède la propriété d’absence de mémoire (P[T > u + v] = P[T > u]P[T > v]
pour tout 0 ≤ u < ∞ et pour tout 0 ≤ v < ∞). Voici le résultat analogue pour les distributions
sur {1, 2, 3, ...}. Démontrez-le.
Théorème. Soit K, une variable aléatoire à valeurs dans l’ensemble {1, 2, 3, ...}. Alors K suit une
loi géométrique (sur {1, 2, 3, ...}) si et seulement si on a
Numéro 5. Le Théorème 3 du présent chapitre nous dit que si T1 , T2 , ..., Tn sont des variables
aléatoires indépendantes, si Tj ∼ exponentielle(λj ), et si
W = min{T1 , T2 , ..., Tn }
150
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 8. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec une intensité de 4
événements par heure.
(a) Calculez la probabilité qu’il y aura au moins 6 événements durant les 2 prochaines heures.
(b) Sachant qu’il y a eu 7 événements durant les 2 dernières heures, quelle est la probabilité
qu’il n’y ait eu aucun événement durant les 30 dernières minutes ?
Numéro 9. Chaque matin Marie prend l’autobus 801 pour se rendre au travail. On suppose que
les autobus passent comme un processus de Poisson avec une intensité de 10 autobus par heure.
Chaque fois qu’un autobus passe, on a une probabilité 1/5 que le chauffeur soit une femme et une
probabilité 4/5 que ce soit un homme. Marie prend toujours le premier autobus conduit par une
femme. Obtenez l’espérance et l’écart-type du temps d’attente de Marie.
Numéro 10. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. Comme
d’habitude, on écrit T1 , T2 , T3 , ... pour dénoter les durées de vie de ce processus et S1 , S2 , S3 , ... pour
dénoter les temps de renouvellement. Maintenant on pose Vt = t − SNt . La variable Vt représente
l’âge de la composante en service au temps t.
(a) Obtenez la distribution de la variable Vt .
(b) Obtenez la limite, quand t → ∞, de la distribution obtenue en (a).
Numéro 11. On imagine des points aléatoires dans le plan R2 et, pour B ⊂ R2 , on pose NB = le
nombre de points dans l’ensemble B. On écrit m(B) pour dénoter la surface de B. On fixe λ > 0
et on suppose que les conditions suivantes sont satisfaites :
(i) Si B est un sous-ensemble de R2 avec m(B) < ∞, alors NB ∼ Poisson(λ m(B)).
(ii) Si B1 , B2 ,..., Bℓ sont des sous-ensembles disjoints de R2 , tous avec surface finie, alors les
variables aléatoires NB1 , NB2 , ..., NBℓ sont indépendantes.
Le processus (NB ; B ⊂ R2 ) s’appelle alors un processus de Poisson dans le plan, avec une intensité
de λ points par unité de surface.
(a) Vérifiez que la procédure suivante donne bel et bien un processus de Poisson dans le plan,
avec une intensité de λ points par unité de surface :
On se donne une famille de variables aléatoires i.i.d. Poisson(λ), disons (X(k,ℓ) , (k, ℓ) ∈
Z2 ). On divise le plan en petits carrés de surface 1, disons R2 = ∪(k,ℓ)∈Z2 Ck,ℓ , où
Ck,ℓ = [k, k + 1) × [ℓ, ℓ + 1). Pour chaque (k, ℓ) ∈ Z2 , on observe X(k,ℓ) puis on choisit
X(k,ℓ) points i.i.d. avec distribution uniforme dans le carré Ck,ℓ .
On peut se concentrer sur un seul petit carré, disons le carré C0,0 = [0, 1)×[0, 1). Il faut alors
vérifier le point (i) avec B ⊂ C0,0 et le point (ii) avec B1 , B2 ,..., Bℓ tous des sous-ensembles
de C0,0 .
(b) On pose R = la distance entre l’origine du plan et le point (de notre processus de Poisson)
situé le plus près de l’origine. Obtenez la distribution de la variable R. Suggestion : calculez
P[R > r].
Numéro 12. On suppose que le processus de Poisson avec intensité λ = 6 par heure est un bon
modèle pour décrire les passages d’automobiles du Canada vers les États-Unis au poste frontalier
américain situé sur la route qui relie Whitehorse (Yukon) et Fairbanks (Alaska). Autrement dit, on
suppose que les temps entre les passages successifs d’automobiles allant du Canada vers les États-
Unis à ce poste frontalier sont des variables aléatoires exponentielle(6) indépendantes les unes des
autres.
151
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(a) Quelle est la probabilité que durant la prochaine heure exactement 4 automobiles franchiront
ce poste frontalier en direction des États-Unis ?
(b) Les douaniers américains inspectent une automobile sur dix. Ils viennent tout juste d’inpecter
une automobile. Ils vont donc laisser passer les 9 prochaines automobiles sans les inspecter,
puis ils vont inspecter la suivante. Et ainsi de suite. Calculez l’espérance et l’écart-type du
temps qui s’écoule entre 2 inspections successives.
(c) Quel est l’espérance et l’écart-type du nombre d’automobiles qui franchiront ce poste fron-
talier (en direction des États-Unis) durant les prochaines 24 heures ?
(d) Calculez une approximation pour la probabilité qu’il y ait au moins 150 automobiles qui
franchissent ce poste frontalier (en direction des États-Unis) durant les prochaines 24 heures.
Numéro 13. Dans un centre d’urgence 9-1-1, les appels arrivent comme un processus de Poisson
avec une intensité de 5 appels par heure. À chaque fois qu’un appel arrive, on a une chance sur 5
que ce soit un appel pour un incendie. Obtenez
(a) La probabilité qu’il y aura exactement 3 appels durant les 30 prochaines minutes.
(b) L’espérance et la variance du nombre d’appels durant les 30 prochaines minutes.
(c) La probabilité conditionnelle qu’il y aura, durant les 4 prochaines heures, exactement 3
appels pour des incendies sachant que durant cette période il y a en tout 12 appels.
(d) L’espérance conditionnelle du nombre d’appels pour incendie durant les 4 prochaines heures
sachant qu’il y a en tout 12 appels durant cette période.
(e) La probabilité qu’il y aura, durant les 4 prochaines heures, exactement 3 appels pour des
incendies.
(f) L’espérance du nombre d’appels pour incendie durant les 4 prochaines heures.
Numéro 14. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On pose
Ws = inf{t ≥ 0 : Nt+s − Nt = 0}.
Obtenez P[Ws = 0] et E[Ws ]. Suggestion : pour obtenir E[Ws ], conditionnez sur le temps du premier
événement.
Numéro 15. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et que T
est une variable aléatoire non négative avec moyenne µ et variance σ 2 , indépendante du processus
(Nt ; t ≥ 0). Obtenez le coefficient de corrélation entre T et NT .
Numéro 16. Dans un grand magasin, les clients arrivent comme un processus de Poisson avec
intensité λ = 10 clients par heure.
(a) Si chaque client a une probabilité p = 0.3 de faire un achat, quelle est la probabilité qu’il y
aura au moins un achat durant les 30 prochaines minutes ?
(b) On suppose que les achats effectués par les clients sont des variables aléatoires i.i.d. avec
moyenne 30$ et avec écart-type 10$. Calculez l’espérance et l’écart-type du total des ventes
sur une période de 8 heures.
Numéro 17. On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ. On suppose
que les événements de ce processus de Poisson sont ou bien des événements rouges, ou bien des
événement noirs. Indépendamment de tout le reste, chaque événement a une probabilité p d’être
noir et 1 − p d’être rouge. On pose T = le temps du premier événement noir et M = le nombre
d’événements rouges qui surviennent avant le premier événement noir.
152
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 18. Une population contient N individus. Ici N est une variable aléatoire qui suit la loi
de Poisson avec paramètre ν. Les durées de vie de ces individus sont des variables aléatoires i.i.d.
avec une certaine distribution avec fonction de répartition G(t). On pose
Numéro 19. On suppose que (Nt ; t ≥ 0) est un processus de Poisson non homogène avec intensité
λ(t) = 1 + sin(t). Calculez P[Nπ = 4] et P[N2π − Nπ = 4].
Numéro 20. [Optionnel.] On suppose que (Nt ; t ≥ 0) est un processus de Poisson avec intensité λ
et que h(t) est une fonction non négative bornée par λ. On amincit notre processus (Nt ; t ≥ 0) de
la façon suivante : si un événement survient au temps t, on l’accepte avec probabilité h(t)/λ. On
écrit (Nt∗ ; t ≥ 0) pour dénoter le processus de dénombrement des événements acceptés. Vérifiez que
(Nt∗ ; t ≥ 0) est un processus de Poisson non homogène et déterminez sa fonction intensité.
Numéro 21. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus
de Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ, et avec moyenne des gains µ et écart-type des
gains σ. Calculez le coefficient de corrélation entre Nt et Xt .
Numéro 22. On considère un processus de Poisson composé, disons (Xt ; t ≥ 0) avec processus de
Poisson sous-jacent (Nt ; t ≥ 0), avec intensité λ = 2, et avec distribution des gains donnée par la
loi N (0, 1). Calculez P[X1 = 0] et P[ 12 < X1 < 32 ] à 3 décimales près.
P Nt
Numéro 23. Soit (Xt ; t ≥ 0), un processus de Poisson composé. On a donc Xt = j=1 Yj où
(Nt ; t ≥ 0) est un processus de Poisson avec intensité λ et où Y1 , Y2 , Y3 , ... sont indépendantes du
processus (Nt ; t ≥ 0) et sont i.i.d. avec loi F . Montrez que
Numéro 25. [Exercice de révision du cours STT-1500]. Sous les conditions suivantes
(a) les variables aléatoires T1 , T2 , T3 , ... sont i.i.d. exponentielle(λ),
153
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 27. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec durée de vie
moyenne égale à 2 et avec écart-type des durées de vie égal à 1. Calculez
• une approximation pour l’espérance de N (800) ;
• une approximation pour l’écart-type de N (800) ;
• une approximation pour P[N (800) ≥ 420] ;
• une approximation pour l’espérance de la durée de vie en cours au temps 800.
Numéro 28. On considère un processus de renouvellement, disons (Nt ; t ≥ 0), dont la densité des
durées de vie est donnée par
4t e−2t si t ≥ 0
f (t) =
0 si t < 0.
(a) Calculez la probabilité qu’il y aura au moins un renouvellement durant l’intervalle de temps
(0, 2].
(b) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle de
temps (0, 2].
(c) Calculez l’espérance du nombre de renouvellements qui surviendront durant l’intervalle (2, 5].
(d) Calculez une approximation pour P[48 ≤ N50 ≤ 55].
(e) Donnez l’espérance et la variance de la septième durée de vie.
(f) Donnez des approximations pour l’espérance et la variance de la durée de vie en cours au
temps 200.
Suggestion : pour les parties (b) et (c), calculez d’abord la fonction de moyenne m(t) en procédant
comme à l’exemple 2 de la section 10.
Numéro 29. Supposons que (N (t); t ≥ 0) soit un processus de renouvellement avec distribution
limite (quand t → ∞) de la durée de vie en cours au temps t donnée par
(4/3) v 4 e−2v si v ≥ 0
f (v) =
0 si v < 0
Calculez
(a) une approximation pour l’espérance de N (800) ;
(b) une approximation pour l’écart-type de N (800) ;
(c) une approximation pour P[N (800) ≥ 420] ;
154
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 30. Si (N (t); t ≥ 0) est un processus de renouvellement avec fonction de moyenne m(t) =
4t, alors que vaut P[N (2) ≤ 5] ?
Numéro 32. On considère des composantes électroniques qu’on utilise séquentiellement, une après
l’autre. On suppose que les durées de vie de nos composantes sont des variables aléatoires i.i.d.
avec densité f (t) et fonction de répartition F (t). Dès qu’une composante tombe en panne, on la
remplace immédiatement par une nouvelle composante. Dès qu’une composante a servi pendant
to unités de temps, on la remplace par une nouvelle composante. À la longue, quel est le nombre
moyen de remplacement par unité de temps ?
Numéro 33. Soit (Nt ; t ≥ 0), un processus de renouvellement pour lequel la distribution des durées
de vie est la loi gamma(3, λ). Expliquez pourquoi on a, pour tout entier k ≥ 0,
e−λt (λt)3k λt (λt)2
P[Nt = k] = 1+ + .
(3k)! 3k + 1 (3k + 1)(3k + 2)
Numéro 34. Processus de renouvellement composé. La section 6.8 porte sur les processus de
Poisson composés. On peut également parler de processus de renouvellement composés. Il suffit
de reprendre la section 6.8 et de remplacer l’hypothèse “(Nt ; t ≥ 0) est un processus de Poisson
avec intensité λ” par l’hypothèse “(N Pt ; tt ≥ 0) est un processus de renouvellement avec densité des
durées de vie f (t)”. On a donc Xt = N j=1 Yj où (Nt ; t ≥ 0) est un processus de renouvellement avec
densité des durées de vie f (t) avec moyenne µT et variance σT2 et où Y1 , Y2 , Y3 , ... sont des variables
aléatoires i.i.d. avec moyenne µY et variance σY2 . En procédant comme à la section 6.8, exprimez
E[Xt ] et Var[Xt ] en termes de µY , σY2 , E[Nt ] et Var[Nt ]. Puis, avec l’aide des approximations de
E[Nt ] et Var[Nt ] qu’on trouve à la section 10, obtenez des approximations pour E[Xt ] et Var[Xt ]
en termes des paramètres µT , σT2 , µY , σY2 .
Numéro 35. On suppose que (Nt ; t ≥ 0) est un processus de renouvellement avec distribution des
durées de vie des composantes donnée par la densité de probabilité suivante :
( 1 2 −t/2
16 t e si t ≥ 0
f (t) =
0 si t < 0.
155
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
156
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 7
7.1 Introduction
On se donne un ensemble non-vide, disons l’ensemble S, fini ou infini dénombrable. On se donne
une matrice stochastique P = (Pij ; i ∈ S, j ∈ S) sur S. On suppose que les éléments de la diagonale
de P sont tous nuls : Pii = 0 pour tout i ∈ S. On se donne un ensemble de paramètres positifs
q = (qi ; i ∈ S). Enfin, on se donne une distribution de probabilité sur S, disons ν = (νi ; i ∈ S).
Définition 1. Une chaı̂ne de Markov à temps continu, avec espace d’états S, avec loi initiale ν,
avec taux de départ (qi ; i ∈ S) et avec matrice des probabilités de transitions véritables P est un
processus aléatoire (Xt ; t ≥ 0), à valeurs dans S, satisfaisant les propriétés suivantes :
(i) L’état initial du processus, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque le processus arrive à un état i, il y demeure pendant un temps exponentiel avec
paramètre qi , indépendant de toute l’histoire antérieure du processus.
(iii) Lorsque le processus quitte un état i, il fait une transition vers un état j choisi selon la
distribution (Pij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
(iv) Les trajectoires du processus sont continues à droite.
Étant donné la propriété d’absence de mémoire de la loi exponentielle, il est facile de voir qu’un
tel processus satisfait la propriété de Markov et la propriété d’homogénéité des probabilités de
transition :
pour tout choix de temps 0 ≤ s1 < s2 < · · · < sk < s < s + t < ∞ et pour tout choix d’états
i1 , i2 , ..., ik , i et j dans S. Dans l’équation ci-dessus, la première égalité est la propriété de Markov
et la deuxième égalité est la propriété d’homogénéité dans le temps.
Définition 2. La probabilité conditionnelle P[Xt = j | X0 = i] est notée Pij (t) et est appelée
probabilité de transition d’ordre t. On a donc
La matrice P(t) = (Pij (t); i, j ∈ S) est appelée la matrice des probabilités de transition d’ordre t.
157
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour simplifier la discussion, considérons une chaı̂ne de Markov à temps discret sur un espace
d’états fini, disons S = {1, 2, 3, ..., m}, avec loi initiale ν = (νi ; i ∈ S) et avec matrice stochastique
P = (Pij ; i ∈ S, j ∈ S). De plus, supposons qu’on a 0 < Pii < 1 pour tout i ∈ S. Il est facile
de voir que lorsqu’on arrive à l’état i, on y reste pendant un temps aléatoire avec distribution
géométrique(pi ), où pi = 1 − Pii . Et lorsqu’on quitte l’état i, on fait une transition vers un état
j ∈ S − {i} choisi avec distribution
( Pij
1−Pii si j 6= i
P̃ij =
0 si j = i.
Bref, on peut décrire notre chaı̂ne de Markov à temps discret avec les trois ingrédients suivants :
la loi initiale ν, les probabilités de départs (pi ; i ∈ S) et la matrice des probabilités de transitions
véritables P̃ = (Pij ; i ∈ S, j ∈ S). En termes de ces ingrédients, la chaı̂ne de Markov à temps discret
évolue de la façon suivante :
(i) L’état initial de la chaı̂ne, c’est-à-dire X0 , est choisi selon la distribution de probabilité ν.
(ii) Lorsque la chaı̂ne arrive à un état i, elle y demeure pendant un temps géométrique avec
paramètre pi , indépendant de toute l’histoire antérieure de la chaı̂ne.
(iii) Lorsque la chaı̂ne quitte un état i, elle fait une transition vers un état j choisi selon la
distribution (P̃ij ; j ∈ S), indépendamment de toute l’histoire antérieure du processus.
Avec cette nouvelle façon de voir nos chaı̂nes de Markov à temps discret, le passage de temps discret
à temps continu est trivial. Il suffit de remplacer les temps d’attente géométriques par des temps
d’attente exponentiels.
Pour terminer, mentionnons que l’équation (7.1) de la page précédente est l’analogue de l’équation
suivante (voir chapitre 2) :
pour tout choix de temps 0 ≤ m1 < m2 < · · · < mk < m < m + n < ∞ et pour tout choix
d’états i1 , i2 , ..., ik , i et j dans S. De même, l’équation (7.2) est l’analogue de l’équation suivante
(voir chapitre 2) :
Pijn = P[Xn = j | X0 = i].
158
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
τ0 = 0
τ1 = min{t ≥ τ0 : X(t) 6= X(τ0 )}
τ2 = min{t ≥ τ1 : X(t) 6= X(τ1 )}
τ3 = min{t ≥ τ2 : X(t) 6= X(τ2 )}
etc.
Les temps aléatoires τ1 , τ2 , τ3 ... sont simplement les instants où la chaı̂ne (Xt ; t ≥ 0) effectue ses
transitions. Pour n ≥ 0, posons Yn = X(τn ). La suite (Yn ; n ≥ 0) est alors une chaı̂ne de Markov à
temps discret. Sa matrice stochastique est la matrice P. Cette chaı̂ne de Markov à temps discret
(Yn ; n ≥ 0) est appelée la chaı̂ne des sauts (en anglais jump chain) associée à la chaı̂ne de Markov
(Xt ; t ≥ 0).
159
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
λi
P[ prochain événement est une naissance ] = P[U < V ] =
λi + µ i
µi
P[ prochain événement est un décès ] = P[V < U ] =
λi + µ i
Bref, pour i ≥ 1, on a
λi
λi +µi si j = i + 1
µi
Pij = λi +µi si j = i − 1
0 si j ∈
/ {i − 1, i + 1}.
Dans le cas i = 0, il ne peut pas y avoir de décès ; le prochain événement est donc nécessairement
une naissance. Bref on a
1 si j = 1
P0j =
0 si j 6= 1.
Ceci explique l’équation (7.4) ci-dessus.
Remarque. En général, l’espace des états d’un processus de naissance et de mort est l’ensemble
S = {0, 1, 2, 3, ...}, tel qu’indiqué à l’équation (7.3). Dans certains cas on préfère travailler avec
l’espace d’états S = {1, 2, 3, ...}. C’est le cas du processus de Yule présenté ci-dessous.
160
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
où
Tn = min{t ≥ 0 : Xt = n}.
La propriété de Markov nous permet d’écrire
n−1
X
h(k, n) = h(ℓ, ℓ + 1). (7.6)
ℓ=k
Il nous suffit donc de calculer, pour tout ℓ ≥ 0, la quantité h(ℓ, ℓ + 1). Le cas ℓ = 0 est trivial. En
effet, si X0 = 0 alors on a T1 ∼ exponentielle(λ0 ). On obtient donc
161
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
162
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le cas où λ 6= µ, l’équation (7.9) peut être simplifiée de la façon suivante :
µ ℓ
1 µ µ 2
h(ℓ, ℓ + 1) = 1+ + + ··· +
λ λ λ λ
!
1 1 − (µ/λ)ℓ+1
=
λ 1 − (µ/λ)
1 − (µ/λ)ℓ+1
= .
λ−µ
L’équation (7.6) nous donne alors
n−1 n−1
X X 1 − (µ/λ)ℓ+1
h(k, n) = h(ℓ, ℓ + 1) = .
λ−µ
ℓ=k ℓ=k
Dans la présente section, nous considérons un cas simple : les processus de naissance et de mort
avec µi = 0 pour tout i ≥ 1 et λi > 0 pour tout i ≥ 0. Un tel processus est parfois appelé un
processus de naissances pur. Le processus de Poisson et le processus de Yule sont des exemples de
processus de naissances pur. Le comportement d’un tel processus est très simple : si on est à l’état
i, alors on reste à l’état i un temps exponentiel avec moyenne 1/λi après quoi on passe à l’état i + 1.
Donc, si j < i on a
Pij (t) = P[Xt = j|X0 = i] = 0
et pour j ≥ i on obtient
avec, comme à la section précédente, Tn = min{t ≥ 0 : Xt = n}. Or, pour un processus de naissance
pur, on a, pour tout choix de n > i,
où Vi , Vi+1 , Vi+2 , ..., Vn−1 sont des variables aléatoires indépendantes, avec Vi ∼ exponentielle(λi ).
On obtient donc
Pij (t) = P[Vi + Vi+1 + · · · + Vj > t] − P[Vi + Vi+1 + · · · + Vj−1 > t].
163
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Donc, pour être capable de calculer les probabilités de transition Pij (t) d’un processus de naissance
pur, il suffit d’être capable de calculer la distribution de la somme d’un nombre fini de variables
aléatoires indépendantes les unes des autres ayant toutes des distributions exponentielles, mais pas
nécessairement avec le même paramètre λ. Le résultat suivant est donc très utile.
Théorème. Supposons que R = W1 +W2 +· · ·+Wm , où W1 , W2 , ..., Wm sont des variables aléatoires
indépendantes et telles que, pour j = 1, 2, ..., m, Wj ∼ exponentielle(λj ).
(a) Si les λj sont tous égaux, disons λj = λ pour tout j, alors R ∼ gamma(m, λ).
(b) Si les λj sont tous distincts, i.e. si on a λi 6= λj pour tout i 6= j, alors la densité de R est
donnée par
m m
λk
X
Y
λℓ e−λℓ r si r ≥ 0
fR (r) = λk − λℓ
ℓ=1 k=1
k6=ℓ
0 si r < 0.
Démonstration. La partie (a) est bien connue et a été démontrée lorsqu’on a étudié en détails la
loi exponentielle et la loi gamma. Voici une démonstration de la partie (b) dans le cas m = 2. Dans
ce cas, on obtient, pour tout r ≥ 0,
Z r Z r
fR (r) = fW1 (u)fW2 (r − u)du = λ1 e−λ1 u λ2 e−λ2 (r−u) du
0 0
Z r
1 − e−(λ1 −λ2 )r
= λ1 λ2 e−λ2 r e−(λ1 −λ2 )u du = λ1 λ2 e−λ2 r
0 λ1 − λ2
λ1 λ2 −λ2 r λ2 λ1
= e − e−λ1 r = λ1 e−λ1 r + λ2 e−λ2 r .
λ1 − λ2 λ2 − λ1 λ1 − λ2
Ceci complète la démonstration de la partie (b) dans le cas où m = 2. Le cas général peut se
démontrer par induction sur m.
Le cas le plus simple d’un processus de naissance pur est le processus de Poisson avec intensité λ.
Dans ce cas, on sait que pour tout i ≤ j on a
(λt)j−i
Pij (t) = P[Xt = j|X0 = i] = P[Nt = j − i] = e−λt .
(j − i)!
En fait, dans le chapitre sur les processus de Poisson, nous avons obtenu ce résultat en suivant la
démarche décrite juste avant le théorème ci-dessus et en appliquant la partie (a) du théorème. Ici
Nt représente le nombre d’événements dans notre processus de Poisson durant l’intervalle de temps
[0, t], c’est-à-dire le nombre de transitions véritables de notre chaı̂ne de Markov durant l’intervalle
de temps [0, t]. [Notez que conditionnellement à X(0) = i, on a X(t) = i + Nt ]. L’exemple suivant
est moins trivial.
164
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Considérons le processus de Yule avec paramètre λ. Il s’agit d’un processus de naissance pur, avec
λi = iλ. Pour j ≥ 1, on obtient
On a donc
j−1
! j−1 j−1
Y k X j Y k
P1j (t) = e−jλt + −1 e−ℓλt
k−j j−ℓ k − ℓ
k=1 ℓ=1 k=1
k6=ℓ
j−1
j−1 −jλt
X
ℓ−1 j − 1 −ℓλt
= (−1) e + (−1) e
ℓ−1
ℓ=1
j
X
ℓ−1 j − 1 −ℓλt
= (−1) e
ℓ−1
ℓ=1
j−1
−λt
X j − 1 −mλt
m
j−1
= e (−1) e = e−λt 1 − e−λt .
m
m=0
Pour faire ce calcul, nous avons utilisé les deux identités suivantes :
j−1
Y k
= (−1)j−1
k−j
k=1
j−1
j k = (−1)ℓ−1 j − 1 .
Y
−1
j−ℓ
k=1
k − ℓ ℓ−1
k6=ℓ
165
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
L’étudiant peut vérifier ces deux identités en écrivant au long les produits apparaissant sur les côtés
gauches. Nous avons donc, pour tout j ≥ 1,
j−1
P1j (t) = e−λt 1 − e−λt . (7.10)
Pour calculer les Pij (t) pour i ≥ 2, on pourrait procéder de la même façon. Mais il y a une façon
simple d’obtenir les Pij (t), pour i ≥ 2, à partir des P1j (t). D’abord on note que l’équation (7.10)
nous dit que la distribution de Xt sachant que X0 = 1 est la loi géométrique avec paramètre
p = e−λt . Autrement dit, on a
L(Xt |X0 = 1) = géométrique e−λt .
Maintenant fixons i > 1 et examinons la distribution de Xt sachant que X0 = i. Supposons que les
i individus présents dans la population au temps 0 s’appellent I1 , I2 , ...Ii . On peut alors écrire
où Xℓ (t) dénote le nombre d’individus au temps t qui sont des descendants de l’individu Iℓ . Les va-
riables X1 (t), X2 (t), ..., Xi (t) sont i.i.d. et, en vertu du calcul précédent, sont des géométrique e−λt .
On obtient donc
L(Xt |X0 = i) = binomiale négative i, e−λt .
Les probabilités de transition du processus de Yule sont donc données par l’équation suivante.
j − 1 −iλt j−i
Pij (t) = e 1 − e−λt j ≥ i.
i−1
Interprétation : Dans le cas où i 6= j, le paramètre qij représente le taux de transition de l’état
i vers l’état j. Pour comprendre cette interprétation, il suffit d’imaginer que pour chaque état
i ∈ S, on a un processus de Poisson avec intensité qi décrivant les instants où la chaı̂ne quitte
l’état i (si elle s’y trouve). On imagine que tous ces processus de Poisson évoluent simultanément
et indépendamment les uns des autres. On peut alors décrire notre chaı̂ne de Markov de la façon
suivante. Si on est à l’état i, on observe le processus de Poisson associé à l’état i et on quitte l’état
i lors du prochain événement de ce processus (donc dans un temps exponentiel avec paramètre qi ).
Lorsqu’on quitte l’état i, on fait une transition véritable vers un état j choisi selon la distribution
donnée par la ligne i de la matrice P. On peut décomposer le processus de Poisson associé à l’état
i selon la destination des transitions. Par exemple, si S = {1, 2, 3, 4} alors le processus de Poisson
166
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
d’intensité q2 associé à l’état 2 peut être décomposé en 3 processus de Poisson indépendants les
uns des autres : le processus des transitions de l’état 2 vers l’état 1, le processus des transitions de
l’état 2 vers l’état 3 et le processus des transitions de l’état 2 vers l’état 4. Les intensités de ces
processus amincis sont, respectivement, q2 P2,1 , q2 P2,3 et q2 P2,4 , c’est-à-dire q2,1 , q2,3 et q2,4 . Voir la
section 6 du chapitre 6.
Remarque : L’équation (7.11) nous permet de calculer les qij à partir des qi et des Pij . On peut
aussi calculer les qi et les Pij à partir des qij . D’une part on a
qi = −qii .
1/7 0 6/7 0
alors
−2 1 1/2 1/2
5/3 −5 5/3 5/3
Q=
3/5 6/5 −3 6/5
2/7 0 12/7 −2
Exemple 2. Si S = {1, 2, 3, 4} et si
−5 1 2 2
5 −8 1 2
Q=
1 0 −3 2
0 3/4 1/4 −1
Proposition. Si Q est la matrice infinitésimale d’une chaı̂ne de Markov à temps continu, alors elle
satisfait les trois propriétés suivantes.
(a) Les éléments de la diagonale de Q sont tous négatifs : qii < 0 pour tout i ∈ S.
(b) Les éléments hors diagonale sont tous non-négatifs : qij ≥ 0 pour tout i 6= j ∈ S.
P
(c) Les sommes-lignes sont toutes nulles : j∈S qij = 0 pour tout i ∈ S.
167
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration. Les points (a) et (b) sont des conséquences immédiates de la définition. Voir
l’équation (7.11). Par ailleurs, pour tout i ∈ S on a
X X X X
qij = qii + qij = −qi + qi Pij = −qi + qi Pij = −qi + qi = 0.
j∈S j∈S j∈S j∈S
j6=i j6=i j6=i
Pour l’avant-dernière égalité, on a utilisé le fait que la matrice P est une matrice stochastique avec
des éléments diagonaux tous nuls.
Nous avons vu que si (Xt ; t ≥ 0) est un processus de Poisson avec intensité λ, alors quand h → 0
1 − λh + o(h) si j = i
P[Xt+h = j|Xt = i] = λh + o(h) si j = i + 1
o(h) si j ∈
/ {i, i + 1}.
Proposition. Si (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu avec taux de départ
(qi ; i ∈ S) et matrice des probabilités de transitions véritables P, alors, quand h → 0,
1 − qi h + o(h) si j = i
Pij (h) = P[Xt+h = j|Xt = i] =
qi Pij h + o(h) si j 6= i;
Théorème : On a P ′ (0) = Q. En d’autres mots, on a Pij′ (0) = qij pour tout i et j dans S,
c’est-à-dire (
d −qi si i = j
Pij (t) = qij =
dt t=0 qi Pij si i 6= j.
d Pii (h) − Pii (0)
Pii′ (0) = Pii (t) = lim
dt t=0 h→0 h
168
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Remarque. La démonstration précédente est valide dans le cas où l’espace des états S est un
ensemble fini. Si S est un ensemble infini dénombrable, le théorème demeure valide sous certaines
conditions (et la démonstration présentée ci-dessus nécessite une plus grande attention).
P m+n = P m P n (7.12)
c’est-à-dire X
Pijm+n = Piℓm Pℓjn
ℓ∈S
pour tout i et j dans S. Ce résultat élémentaire, qu’on démontre facilement avec la loi des proba-
bilités totales, est appelé l’équation de Chapman et Kolmogorov. Notons en passant que l’équation
(7.12) permet de calculer tous les P n à partir de la matrice P.
Pij (s + t) = P[Xs+t = j | X0 = i]
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k, X0 = i]
k∈S
X
= P[Xs = k | X0 = i] P[Xs+t = j | Xs = k]
k∈S
X X
= P[Xs = k | X0 = i] P[Xt = j | X0 = k] = Pik (s)Pkj (t).
k∈S k∈S
La première égalité est simplement la définition de la probabilité de transition Pij (t). Pour obtenir
la deuxième égalité on a simplement utilisé la loi des probabilités totales. Pour la troisième égalité
on a utilisé la propriété de Markov. Pour la quatrième égalité on a utilisé la propriété d’homogénéité
dans le temps.
169
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Proposition. Si pour un certain ǫ > 0 on connaı̂t P(t) pour tout t ∈ [0, ǫ), alors on connaı̂t P(t)
pour tout t ≥ 0.
Démonstration. Fixons t > ǫ. Choisissons un entier positif n suffisamment grand pour qu’on ait
t/n ∈ [0, ǫ]. L’équation (7.13) nous donne
d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P
k∈S Pik (h)Pkj (t) − Pij (t)
= lim
h→0 h
P
k∈S Pik (h)P kj (t) + Pii (h)Pij (t) − Pij (t)
k6=i
= lim
h→0 h
X P (h) − 0 P (h) − 1
ik ii
= lim P kj (t) + P ij (t)
h→0
h h
k∈S
k6=i
X Pik (h) − 0
Pii (h) − 1
= lim Pkj (t) + lim Pij (t)
k∈S
h→0 h h→0 h
k6=i
X X
= qik Pkj (t) − qi Pij (t) = qik Pkj (t).
k∈S k∈S
k6=i
d
P(t) = QP(t). (7.14)
dt
Cette équation différentielle matricielle est appelée l’équation différentielle retardée de Kolmogorov.
170
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
d
Pij′ (t) = Pij (t)
dt
Pij (t + h) − Pij (t)
= lim
h→0 h
P
k∈S Pik (t)Pkj (h) − Pij (t)
= lim
h→0 h
P
k∈S Pik (t)Pkj (h) + Pij (t)Pjj (h) − Pij (t)
k6=j
= lim
h→0 h
X P (h) − 0 P (h) − 1
kj jj
= lim Pik (t) + Pij (t)
h→0
h h
k∈S
k6=j
X Pkj (h) − 0 Pjj (h) − 1
= Pik (t) lim + Pij (t) lim
h→0 h h→0 h
k∈S
k6=j
X X
= Pik (t)qkj − Pij (t)qj = Pik (t)qkj .
k∈S k∈S
k6=j
On reconnaı̂t en cette dernière somme le produit de la ie ligne de la matrice P(t) avec la j e colonne
de la matrice Q. On a donc
d
P(t) = P(t)Q. (7.15)
dt
Cette équation différentielle matricielle s’appelle l’équation différentielle avancée de Kolmogorov.
On a donc démontré le résultat suivant :
Remarque. Les démonstrations des équations (7.14) et (7.15) présentées ci-dessus sont valides
dans le cas où l’espace des états S est un ensemble fini. Si S est un ensemble infini dénombrable, les
équations (7.14) et (7.15) demeurent valide sous certaines conditions de régularité habituellement
satisfaites dans les exemples qu’on rencontre en pratique, mais les démonstrations présentées ci-
dessus nécessitent une plus grande attention, notamment pour le passage de la limite sous la somme.
171
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Application. Dans certain cas, il est possible d’obtenir les probabilités de transition Pij (t) en
solutionnant l’équation (7.14) ou l’équation (7.15). Nous allons considérer deux exemples.
c’est-à-dire
Puisque P0 0 (t)+P0 1 (t) = 1 et P1 0 (t)+P1 1 (t) = 1, il suffit de trouver P0 0 (t) et P1 0 (t). Pour trouver
ces deux fonctions, il suffit de résoudre les équations (7.16) et (7.17). Si on multiplie l’équation (7.16)
par µ et l’équation (7.17) par λ, on obtient
c’est-à-dire
d
(µP0 0 (t) + λP1 0 (t)) = 0.
dt
La fonction µP0 0 (t) + λP1 0 (t) est donc constante, disons
172
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
On a donc
λP1 0 (t) = µ (1 − P0 0 (t)) . (7.23)
On insère (7.23) dans (7.16) et on obtient
c’est-à-dire
P0′ 0 (t) = µ − (λ + µ)P0 0 (t). (7.24)
L’équation (7.24) est valide pour tout t ≥ 0 et elle est sujette à la condition initiale P0 0 (0) = 1.
L’étudiant peut vérifier que la solution est alors
µ λ
P0 0 (t) = + e−(λ+µ)t . (7.25)
λ+µ λ+µ
L’étudiant devrait comparer l’équation (7.29) avec le résultat obtenu à la section 4 du chapitre 4
pour les probabilités de transition d’ordre n de la chaı̂ne de Markov à temps discret sur un espace
à deux états.
173
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
d
La première ligne de l’équation matricielle dt P(t) = P(t)Q nous donne les équations suivantes, avec
les conditions initialles indiquées à droite :
On résout ces équations de façon séquentielle : on résout (7.30a), on insère la solution dans (7.30b),
on résout (7.30b), on insère la solution dans (7.30c), on résout (7.30c), on insère la solution dans
(7.30d), etc. On obtient ainsi les solutions suivantes :
P1 1 (t) = e−λt
P1 2 (t) = 1 − e−λt e−λt
2
P1 3 (t) = 1 − e−λt e−λt
3
P1 4 (t) = 1 − e−λt e−λt
..
.
Il s’agit d’un des premiers exemples qu’on rencontre dans un cours d’équations différentielles. Voici
à nouveau notre équation différentielle (avancée) de Kolmogorov :
où I dénote la matrice identité. L’analogie entre les équations (7.32) et (7.31) suggère que la
“solution” de l’équation (7.32) devrait être donnée par
174
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour que la “solution” (7.33) ait un sens, il faut donner un sens à l’expression eA , où A est une
P xk
matrice carrée. Inspirée par la série de Taylor ex = ∞ A
k=0 k! , l’approche usuelle pour définir e est
la suivante :
Définition. Soit A, une matrice carrée. La matrice carrée eA est définie par l’équation suivante :
∞
A
X Ak A2 A3 A4
e = =I +A+ + + + ···
k! 2 3! 4!
k=0
À la lumière de cette définition, la “solution” (7.33) peut être réécrite sous la forme suivante :
∞
X (Qt)k Q2 t2 Q3 t3 Q4 t4
P(t) = = I + Qt + + + + ··· (7.34)
k! 2 3! 4!
k=0
Pour voir que l’expression donnée dans l’équation précédente est bel et bien solution de l’équation
différentielle (7.32), il suffit de dériver terme à terme :
′ d d Q2 t2 Q3 t3 Q4 t4
P (t) = P(t) = I + Qt + + + + ···
dt dt 2 3! 4!
Q3 t2 Q4 t3
= 0 + Q + Q2 t + + + ···
2 3!
Q2 t2 Q3 t3 Q4 t4
= Q I + Qt + + + + ···
2 3! 4!
= QP(t).
Dans certains cas simples, il est possible d’obtenir la matrice P(t) en évaluant le côté droit de
l’équation (7.34). On peut aussi utiliser l’équation (7.34) pour calculer une approximation de la
matrice P(t). En effet, si m est un entier suffisamment grand, on aura
Q2 t2 Q3 t3 Qm tm
P(t) ≈ I + Qt + + + ··· + .
2 3! m!
On a donc
!
P0 0 (t) P0 1 (t)
lim P(t) = lim
t→∞ t→∞ P1 0 (t) P1 1 (t)
!
limt→∞ P0 0 (t) limt→∞ P0 1 (t)
=
limt→∞ P1 0 (t) limt→∞ P1 1 (t)
µ λ !
λ+µ λ+µ
= µ
.
λ
λ+µ λ+µ
175
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Donc, si on pose
µ λ
π = (π0 , π1 ) = , ,
λ+µ λ+µ
alors on a
lim Pij (t) = πj , pour tout i ∈ S et j ∈ S. (7.36)
t→∞
On a également
πP(t) = π, pour tout t ≥ 0. (7.37)
Le résultat (7.37) nous dit que la loi π est stationnaire pour notre chaı̂ne de Markov. Ce résultat
est analogue au résultat
πP n = π, pour tout n ≥ 0,
qu’on avait pour les chaı̂nes de Markov à temps discret. Le résultat (7.36) nous dit que peu importe
l’état initial, la distribution de X(t) converge vers la loi stationnaire. Ce résultat est analogue au
résultat
lim Pijn = πj , pour tout i ∈ S et j ∈ S
n→∞
L’exemple ci-dessus est typique. Étant donné une chaı̂ne de Markov à temps continu, il arrive
souvent que
(a) il existe une et une seule loi stationnaire,
(b) peu importe la loi initiale, la distribution de X(t) converge vers la loi stationnaire.
Voici deux méthodes simples pour trouver la loi stationnaire d’une chaı̂ne de Markov à temps
continu.
π̃i /qi
πi = P , (7.38)
ℓ∈S π̃ℓ /qℓ
alors la loi π = (πi ; i ∈ S) est la loi stationnaire (et la loi limite) pour la chaı̂ne de Markov
(Xt ; t ≥ 0).
176
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En supposant que les points (a) et (b) ci-dessus sont satisfaits, on devrait avoir
lim Pij (t) = πj pour tout i ∈ S et j ∈ S
t→∞
177
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Exemple 2. Considérons la file d’attente M/M/1. Intuitivement, dans le cas où le taux d’arrivée λ
est plus grand que le taux de service µ, le système s’engorge et il n’y a donc pas de loi stationnaire.
Dans le cas où le taux d’arrivée λ est inférieur au taux de service µ, on s’attend à ce que le système
se stabilise et donc à ce qu’il y ait une loi stationnaire. Nous allons donc supposer que λ < µ et
nous allons essayer de trouver la loi stationnaire d’abord par la méthode 1, puis par la méthode 2.
avec p = λ/(λ + µ). Puisque 0 < λ < µ, on a 0 < p < 1/2. La matrice P est donc la matrice des
probabilités de transition de la marche aléatoire sur {0, 1, 2, ...} avec réflexion instantanée à l’origine.
Cette matrice stochastique est périodique, avec période 2. Comme nous n’avons pas étudié en détails
le cas périodique, passons à la méthode 2.
178
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
etc.
L’équation (7.41) nous donne
λ
π1 =π0 . (7.46)
µ
Si on insère (7.46) dans (7.42), on obtient, après simplification,
2
λ
π2 = π0 . (7.47)
µ
Si on insère (7.46) et (7.47) dans (7.42), on obtient, après simplification,
3
λ
π3 = π0 .
µ
Il est donc clair qu’on obtient, pour tout k ≥ 0,
k
λ
πk = π0 . (7.48)
µ
P
La condition ∞ k=0 πk = 1 peut donc s’écrire sous la forme
∞ k
X λ
π0 = 1,
µ
k=0
c’est-à-dire
1
π0 = 1,
1 − (λ/µ)
c’est-à-dire
µ−λ λ
π0 = =1− .
µ µ
On a donc, pour k ≥ 0,
k
λ λ
πk = 1−
µ µ
On reconnaı̂t ici la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de succès 1 − (λ/µ).
Nous avons vu que l’espérance de la loi géométrique sur {1, 2, 3, ...} avec probabilité de succès p est
égale à 1/p. Il s’en suit que l’espérance de la loi géométrique sur {0, 1, 2, 3, ...} avec probabilité de
succès p est égale à (1/p) − 1. Donc, pour la file d’attente M/M/1, il y a, à la longue, en moyenne
1 1 λ 1
−1 = −1 = =
p 1 − (λ/µ) µ−λ (µ/λ) − 1
clients dans le système.
179
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
où h(1) = 3, h(2) = 9 et h(3) = 13. Interprétation : si h(j) représente le loyer Rqu’on paie
t
(exprimé en dollars par unité de temps) lorsqu’on est à l’état j, alors limt→∞ 1t 0 h(Xs ) ds
représente le loyer moyen par unité de temps à la longue.
Numéro 2. Soit (Xt ; t ≥ 0), une chaı̂ne de Markov à temps continu sur l’ensemble S = {1, 2, 3}.
Voici la matrice infinitésimale de cette chaı̂ne de Markov :
−6 2 4
Q = 1 −2 1
4 2 −6
Numéro 3. Considérons une chaı̂ne de Markov (Xt ; t ≥ 0) sur S = {0, 1, 2, 3, 4}, avec les conditions
infinitésimales suivantes.
h + o(h) si j =4
o(h) si j =3
P[Xt+h = j|Xt = 0] = o(h) si j =2
h + o(h) si j =1
1 − 2h + o(h) si j =0
1 − 8h + o(h) si j =4
4h + o(h) si j =3
P[Xt+h = j|Xt = 4] = o(h) si j =2
o(h) si j =1
4h + o(h) si j =0
180
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
λi = λ eai et µi = µ ebi .
Ici, λ et µ sont des constantes positives et a et b sont des réels quelconques. Quelles conditions
les paramètres λ, µ, a et b doivent-ils satisfaire pour que ce processus soit stable, c’est-à-dire
pour qu’il possède une loi stationnaire ?
Numéro 5. On considère une population de cellules. Chaque cellule est ou bien à l’état A, ou
bien à l’état B. Lorsqu’une cellule est à l’état A, elle y demeure pendant un temps exponentiel de
paramètre λA , puis elle passe à l’état B. Lorsqu’une cellule est à l’état B, elle y demeure pendant
un temps exponentiel de paramètre λB , puis elle se divise en deux cellules qui sont toutes les deux
à l’état A. Définissez une chaı̂ne de Markov appropriée pour décrire l’évolution de cette population
et spécifiez les paramètres de cette chaı̂ne de Markov. Suggestion : Posez X(t) = (XA (t), XB (t)), où
XA (t) et XB (t) dénotent respectivement le nombre de cellules de type A au temps t et le nombre
de cellules de type B au temps t.
Numéro 6. Voici une variation du modèle de file d’attente à un serveur. On fait les mêmes
hypothèses que pour le modèle M/M/1, mais avec la tournure suivante. Les clients sont impatients.
1
Lorsqu’un nouveau client arrive, il se joint à la file d’attente avec probabilité n+1 , où n est le
nombre total de clients présents dans le système au moment où le nouveau client arrive. Spécifiez
les paramètres de cette chaı̂ne de Markov.
Numéro 7. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne. À la longue, quel est le
nombre moyen de clients dans le système ?
Numéro 8. Voici une variation du modèle de file d’attente à k serveurs. On fait les mêmes hy-
pothèses que pour le modèle M/M/k, mais avec la tournure suivante. Le système peut recevoir
au plus m clients à la fois. On suppose m > k. Lorsqu’un nouveau client arrive, il entre dans le
181
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
système seulement s’il y a de la place, c’est-à-dire seulement s’il y a moins que m clients présents
dans le système. S’il y a déjà m clients dans le système, le nouveau client est refusé. Spécifiez les
paramètres de cette chaı̂ne de Markov.
Numéro 9. Au numéro précédent, obtenez la loi stationnaire de la chaı̂ne dans le cas spécial où
λ = 2, µ = 1, k = 2 et m = 4. À la longue, quelle est la proportion de clients qui sont refusés ?
Numéro 10. En classe nous avons obtenu les P1j (t) du processus de Yule. Voici une autre approche
pour obtenir ces P1j (t).
(a) En exploitant la propriété d’absence de mémoire, montrez que si V1 , V2 , ..., Vm sont indépendantes
avec Vi ∼ exponentielle(iλ) et si W1 , W2 , ..., Wm sont i.i.d. exponentielle(λ), alors
L
V1 + V2 + · · · + Vm = max{W1 , W2 , ..., Wm };
concluez que
(b) À partir du résultat de la partie (a), obtenez les P1j (t) du processus de Yule.
Numéro 11. Une population comprend n individus dont certains sont des zombies. Si A et B
sont des individus encore en vie (ou bien en santé, ou bien zombie), alors les rencontres entre
A et B se produisent comme un processus de Poisson avec intensité λ. Ces processus de Poisson
sont indépendants les uns des autres. Si on a en tout k individus en vie (en santé ou zombie),
le processus
superposé de toutes les rencontres est donc un processus de Poisson avec intensité
λ k2 = 21 k(k − 1)λ. Lorsqu’une rencontre survient, il s’agit toujours d’exactement deux individus
et chacune de N2t paires possibles a la même probabilité de survenir. Ici Nt dénote le nombre total
d’individus au temps t. Lorsque deux zombies se rencontrent, ils se saluent et poursuivent leur
chemin. Lorsque deux individus en santé se rencontrent, ils se saluent et poursuivent leur chemin.
Lorsqu’un zombie rencontre un individu en santé, il y a confrontation. On a alors une probabilité p
que l’individu en santé devienne un zombie et une probabilité 1 − p qu’il tue le zombie. Au temps 0,
il y a un seul zombie dans la population. Définissez une chaı̂ne de Markov appropriée pour décrire
ce scénario. Précisez les paramètres de cette chaı̂ne. Que va-t-il se produire ? Les zombies vont-ils
disparaı̂tre ? Les individus en santé vont-ils tous devenir des zombies ? Suggestion : Considérez le
couple (Xt , Yt ) où Xt et Yt dénotent respectivement le nombre de zombies et le nombre d’individus
en santé au temps t.
Numéro 12. Denis travaille au CDA. Il est le seul dépanneur en statistique. Ses clients arrivent
comme un processus de Poisson avec intensité λ. Lorsqu’un nouveau client arrive il se fait servir
par Denis, à moins que Denis soit déjà en train de servir quelqu’un, dans lequel cas le nouveau
client s’en va. Il a deux types de clients : les gars et les filles. Lorsqu’un nouveau client arrive, on
a une probabilité p que ce soit un gars et une probabilité 1 − p que ce soit une fille. Le temps de
service est exponentielle(θ1 ) si c’est un gars et exponentielle(θ2 ) si c’est une fille. Lorsqu’il n’est pas
en train de servir quelqu’un, Denis regarde des vidéos sur youtube. On pose
G si Denis est en train d’aider un gars au temps t
Xt = F si Denis est en train d’aider une fille au temps t
Y si Denis est en train de regarder des vidéos sur youtube au temps t.
182
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Obtenez la matrice infinitésimale de la chaı̂ne de Markov (Xt ; t ≥ 0). Obtenez la loi stationnaire
de cette chaı̂ne. À la longue, Denis passe quelle proportion de son temps de CDA sur youtube ?
Numéro 13. On suppose que (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur l’ensemble
S = {0, 1, 2, 3, 4, 5, 6}, avec matrice infinitésimale donnée par
−6 1 1 1 1 1 1
1 −6 1 1 1 1 1
1 1 −6 1 1 1 1
Q= 1 1 1 −6 1 1 1
1 1 1 1 −6 1 1
1
1 1 1 1 −6 1
1 1 1 1 1 1 −6
(a) Calculez la probabilité que cette chaı̂ne de Markov effectuera exactement 4 transitions
durant l’intervalle de temps (1/4, 3/4].
(b) On pose T = inf{t ≥ 0 : Xt = 4}. Calculez P[T > 2|X0 = 3].
✉ 1 2 3 ✉
183
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 15. Un magasin est ouvert 24 heures sur 24. Les clients entrent dans le magasin comme un
processus de Poisson homogène avec une intensité de λ clients par heure. Lorsqu’un client entre dans
le magasin, il y reste pendant un temps (en heures) exponentiel avec paramètre θ, indépendamment
de tous les autres clients. On s’intéresse à la variable aléatoire
Le processus (Xt ; t ≥ 0) est une chaı̂ne de Markov à temps continu sur S = {0, 1, 2, 3, ...}.
(a) À 8h17 et 33 secondes, le client Jean-Paul Larivière entre dans le magasin. Quelle est
l’espérance du temps qui s’écoulera avant que 4 nouveaux clients arrivent ?
(b) À 13h54 et 22 secondes, le gérant Réal Labonté constate qu’il y a exactement 4 clients dans
son magasin. Quelle est l’espérance du temps qui s’écoulera avant que ces 4 clients aient tous
quitté le magasin ?
(c) Obtenez la distribution limite de X(t) lorsque t → ∞.
Numéro 16. Des clients arrivent à un centre de service comme un processus de Poisson avec une
intensité de 2 clients par heure. Une fois arrivés au centre de service, les clients passent d’abord au
point de service A, puis au point de service B. Au point de service A, il y a un seul serveur et les
temps de service sont exponentiels avec une intensité de 4 par heure. Au point de service B, il y a
un seul serveur et les temps de service sont exponentiels avec une intensité de 6 par heure. Après
être passés aux deux points de service, les clients quittent le centre. On pose
Le processus aléatoire (X(t); t ≥ 0) est une chaı̂ne de Markov à temps continu avec espace d’état
S = N2 = {(k, ℓ); k ∈ {0, 1, 2, ...} et ℓ ∈ {0, 1, 2, ...}}.
(a) Le shéma ci-dessous illustre l’état du système à un certain temps to . On a donc XA (to ) = 6,
XB (to ) = 3 et donc X(to ) = (6, 3). Quelle est la distribution de la variable T = min{t > to :
(XA (t), XB (t)) 6= (6, 3)} ?
XA (to ) XB (to )
z }| { z }| {
Entrée Sortie
✲ ❡❡❡❡❡ ❡ ✉ ❡❡ ❡ ✉ ✲
✻ ✻
Serveur A Serveur B
184
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
(b) Obtenez la distribution du couple (XA (T ), XB (T )), où T est le temps aléatoire défini à la
partie (a).
(c) On suppose que (XA (0), XB (0)) = (0, 0) et on pose
Numéro 18. À l’exemple 1 de la section 7 nous avons obtenu les probabilités de transition P(t) de
la chaı̂ne de Markov à 2 états en solutionnant l’équation différentielle de Kolmogorov P ′ (t) = QP(t).
La solution est donnée à l’équation (7.29). Dans le cas particulier où µ = λ, cette solution prend la
forme suivante :
!
1 1 −2λt 1 1 −2λt
P00 (t) P01 (t) 2 + 2e 2 − 2e
P(t) = = 1 1 −2λt 1 1 −2λt
(7.49)
P10 (t) P11 (t)
2 − 2e 2 + 2e
Montrez comment on peut obtenir le résultat (7.49) directement, en exploitant le fait que dans le
cas où µ = λ, les transitions de cette chaı̂ne de Markov surviennent comme un processus de Poisson
avec intensité λ. Indice : Partant de l’état 0, la chaı̂ne sera à l’état 0 au temps t si et seulement si
le nombre total de transitions durant l’intervalle de temps [0, t] est un nombre pair.
185
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Numéro 19. On considère à nouveau la chaı̂ne de Markov à temps continu sur un espace à deux
états. En suivant les étapes indiquées ci-dessous, obtenez l’équation (7.29) à partir de l’équation
(7.34).
(a) Vérifiez que la matrice Q de cette chaı̂ne de Markov peut être exprimée sous la forme
suivante :
−λ λ −(µ + λ) 0
Q= =A A−1
µ −µ 0 0
λ 1
avec A = .
−µ 1
(b) Avec l’aide du résultat de la partie (a), calculez Qn .
(c) Avec l’aide du résultat de la partie (b) et de l’équation (7.34), obtenez l’équation (7.29).
Numéro 20. On considère le processus de Yule avec paramètre λ, disons (Xt ; t ≥ 0). On pose
Tn = min{t ≥ 0 : Xt = n}.
(a) Obtenez une expression simple pour E[Tn ].
E[Tn ]
(b) Obtenez limn→∞ log(n) .
(c) Obtenez la densité conditionnelle de T4 sachant X0 = 1 et tracez le graphe de cette densité.
Suggestion : On a T4 = V1 + V2 + V3 , avec Vi ∼ exponentielle(iλ), indépendantes les unes
des autres. Utilisez le théorème de la section 7.4.
186
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Chapitre 8
Le mouvement brownien
8.1 Introduction
On dit que le processus aléatoire (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine
si les conditions suivantes sont satisfaites :
(a) P[X0 = 0] = 1.
(b) Pour tout entier n > 1 et pour tout choix de 0 ≤ s1 ≤ t1 ≤ s2 ≤ t2 ≤ · · · ≤ sn ≤ tn < ∞,
les accroissements Xt1 − Xs1 , Xt2 − Xs2 , ..., Xtn − Xsn sont indépendants
(c) Pour tout choix de 0 ≤ s < t < ∞, on a Xt − Xs ∼ N (0, t − s).
(d) P[ la trajectoire t 7→ Xt est continue partout ] = 1.
Si la condition (a) est remplacée par
(a′ ) P[X0 = x∗ ] = 1
alors on dit que (Xt ; t ≥ 0) est un mouvement brownien standard issu du point x∗ . Comme pour
les chaı̂nes de Markov à temps continu, on écrira parfois X(t) plutôt que Xt .
Remarque 1. On peut démontrer qu’un tel processus existe. Plus précisément, on peut construire
un espace probabilisé (Ω, F, P) sur lequel on peut définir des variables aléatoires (Xt ; t ≥ 0) de
façon à ce que les conditions (a), (b), (c) et (d) soient satisfaites. Une démonstration rigoureuse de
ce résultat dépasserait le niveau du présent cours.
Remarque 2. On peut voir le mouvement brownien standard issu de l’origine comme étant une
version à temps continu de la marche aléatoire symétrique sur Z, issu de l’origine. En effet, si
(Wn ; n ≥ 0) est une telle marche aléatoire, alors la condition (a) est automatiquement satisfaite :
P[W0 = 0] = P 1. Pour voir que la condition (b) est satisfaite, notons qu’on peut écrire Wn sous la
forme Wn = nj=1 ηj où η1 , η2 , η3 , ... sont des variables aléatoires i.i.d. avec P[ηj = −1] = 1/2 et
P[ηj = 1] = 1/2. Donc si on considère des entiers 0 ≤ k1 < ℓ1 ≤ k2 < ℓ2 ≤ · · · ≤ kn < ℓn < ∞, alors
les accroissements Wℓ1 − Wk1 , Wℓ2 − Wk2 , ..., Wℓn − Wkn sont des variables aléatoires indépendantes
puisque ce sont des fonctions de n groupes disjoints de variables aléatoires indépendantes :
ℓ1
X ℓ2
X ℓn
X
Wℓ1 − Wk 1 = ηj , Wℓ2 − Wk 2 = ηj , ··· , Wℓn − Wk n = ηj .
j=k1 +1 j=k2 +1 j=kn +1
187
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Pour la quatrième égalité, on a utilisé la condition (b) (c’est-à-dire l’indépendance des accroisse-
ments du mouvement brownien) et pour la cinquième égalité on a utilisé la condition (c) (c’est-à-dire
le fait que les accroissements du mouvement brownien suivent des lois normales de moyenne 0 et
de variance égal à la longueur de l’intervalle). Donc dans le cas 0 ≤ s ≤ t < ∞ on obtient
P[a < Ys+t < b|Ys1 = y1 , Ys2 = y2 ..., Ysn−1 = yn−1 , Ys = y] = P[a < Ys+t < b|Ys = y].
Les probabilités de transition P[a < Ys+t < b|Ys = y] sont dites homogènes dans le temps si elles
ne dépendent pas de s. À partir des conditions (b) et (c), on vérifie facilement que le mouvement
brownien est un processus de Markov avec probabilités de transition homogènes dans le temps.
Plus précisément, si (Xt ; t ≥ 0) est un mouvement brownien standard, alors pour tout choix de
0 ≤ s1 < s2 < · · · < sn−1 < s < ∞ et 0 < t < ∞, pour tout réels x1 , x2 , ..., xn−1 , x et a < b, on a
P[a < Xs+t < b|Xs1 = x1 , Xs2 = x2 ..., Xsn−1 = xn−1 , Xs = x] = P[a < Xs+t < b|Xs = x] (8.2)
et Z b
1 2
P[a < Xs+t < b|Xs = x] = √ e−(y−x) /2t dy. (8.3)
a 2πt
188
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Dans le calcul ci-dessus, la quatrième égalité est une conséquence de la condition (b) (l’indépendance
des accroissements) et la cinquième égalité est une conséquence de la condition (c). En effet, la
condition (c) nous dit que la distribution de l’accroissement Xs+t − Xs est la loi N (0, t) et cela
implique que la distribution de la variable aléatoire x + (Xs+t − Xs ) est la loi N (x, t).
189
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Démonstration des équations (8.5) et (8.6). Puisque L(Xt |X0 = x) = N (x, t) pour tout t ≥ 0,
on a
E[Xt |X0 = x] = x pour tout t ≥ 0. (8.8)
Il est donc raisonnable de penser que
Le passage de (8.8) à (8.9) n’est pas complètement trivial. On peut le justifier en faisant appel à la
théorie des martingales. Nous y reviendrons à la section 8.7. Pour le moment, nous prenons pour
acquis le résultat (8.9). Puisque la variable aléatoire XTa,b est ou bien égale à a, ou bien égale à b,
l’équation (8.9) nous donne
Par ailleurs on a
P[XTa,b = a|X0 = x] + P[XTa,b = x|X0 = x] = 1.
Lorsqu’on résout ce système de 2 équations à 2 inconnues, on obtient les résultats (8.5) et (8.6).
donc
E[(Xt − x)2 − t|X0 = x] = 0 pour tout t ≥ 0. (8.10)
Il est donc raisonnable de penser que
190
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
c’est-à-dire
E[Ta,b |X0 = x] = E[(XTa,b − x)2 |X0 = x]. (8.12)
À nouveau, le passage de l’équation (8.10) à l’équation (8.11) peut être justifié avec l’aide d’un
résultat de la théorie des martingales. Prenons pour acquis le résultat (8.12). Lorsqu’on calcule
l’espérance qui apparaı̂t sur le côté droit de cette équation, on obtient
b−x x−a
E[Ta,b |X0 = x] = (a − x)2 + (b − x)2 .
b−a b−a
Après simplifications, on obtient E[Ta,b |X0 = x] = (x − a)(b − x).
Le théorème précédent nous permet de voir qu’il y a une marche aléatoire symétrique sur Z cachée
dans notre mouvement brownien standard issu de l’origine. En effet, si on suppose que (Xt ; t ≥ 0)
est un mouvement brownien standard issu de l’origine et si on pose
T0 = 0
T1 = min{t ≥ T0 : Xt ∈ {XT0 − 1, XT0 − 1}}
T2 = min{t ≥ T1 : Xt ∈ {XT1 − 1, XT1 + 1}}
T3 = min{t ≥ T2 : Xt ∈ {XT2 − 1, XT2 + 1}}
etc.
alors la suite (XTn ; n ≥ 0) est une marche aléatoire symétrique sur Z. Ainsi plusieurs propriétés du
mouvement brownien peuvent être obtenues à partir de nos connaissances au sujet de la marche
aléatoire symétrique sur Z.
191
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
La démonstration ci-dessus n’est pas rigoureuse. En réalité, ce n’est pas la simple propriété de
Markov qu’on utilise mais plutôt la propriété de Markov forte (puisque Ty est un temps aléatoire).
Pour rendre cette démonstration plus rigoureuse, il faudrait étudier la propriété de Markov forte,
comme à la section 4 du chapitre 2.
Théorème. Si (Xt ; t ≥ 0) est un mouvement brownien standard issu de l’origine et si y > 0, alors
la densité de probabilité de la variable aléatoire Ty est donnée par
(
y√ −y 2 /2t
3/2 2π e si t > 0
fTy (t) = t (8.13)
0 si t ≤ 0
192
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Mt = max Xs .
0≤s≤t
On en déduit la densité de Mt :
( 2 /2t
√2 e−y si y ≥ 0
fMt (y) = 2πt
0 si y < 0.
On reconnaı̂t ici la densité de la valeur absolue d’une N (0, t). On a donc démontré le résultat
suivant :
Théorème. Si Mt dénote le maximum, sur l’intervalle [0, t], d’un mouvement brownien standard
issu de l’origine, alors L(Mt ) = |N (0, t)|.
p
Exercice : Montrez que E[Mt ] = 2t/π.
Yt = x + µt + σXt .
Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien issu de x, avec paramètre de dérive µ
et paramètre de diffusion σ 2 . La section 8.8 sera consacrée à ce processus aléatoire important.
193
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Yt = exp (x + µt + σXt ) .
Le processus (Yt ; t ≥ 0) est appelé un mouvement brownien géométrique. On peut écrire Yt sous la
forme
Yt = C exp (µt + σXt )
avec C = ex . Le mouvement brownien géométrique est un processus de Markov positif à trajectoires
continues. Ce n’est pas un processus gaussien. C’est parfois un bon modèle pour décrire l’évolution
de la valeur d’un titre boursier. La section 8.9 sera consacrée à ce processus aléatoire important.
Exercice : Montrez que si (Yt ; t ≥ 0) est un mouvement brownien géométrique comme ci-dessus,
alors pour s < t on a
E[Yt |(Yu ; 0 ≤ u ≤ s)] = Ys exp µ(t − s) + σ 2 (t − s)/2 .
Notez que Yt ∼ N (0, 1) pour tout t ≥ 0. On a donc E[Yt ] = 0 et Var[Yt ] = 1 pour tout t ≥ 0. Un
calcul élémentaire montre que pour tout s ≥ 0 et t ≥ 0 on a
Cov[Ys , Yt ] = e−α|t−s| .
194
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
alors on constate que la loi de It est une loi normale puisque chaque somme de Riemann suit une
loi normale (puisque cette somme est une combinaison linéaire de variables aléatoires dont la loi
conjointe est une loi normale multivariée). Calculons l’espérance et la variance de It . On obtient
Z t Z t Z t
E[It ] = E Xs ds = E[Xs ] ds = 0 ds = 0.
0 0 0
et
"Z 2 #
t
Var[It ] = E[It2 ] = E Xs ds
0
Z t Z t Z t Z t
= E Xr dr Xs ds = E Xr Xs dr ds
0 0 0 0
Z tZ t Z tZ t
= E[Xr Xs ]dr ds = min{r, s} dr ds
0 0 0 0
Z tZ s
= 2 r dr ds = t3 /3.
0 0
À l’aide du truc des limites de sommes de Riemann, on peut aussi montrer que pour tout choix
de réels positifs t1 , t2 , ..., tn la distribution conjointe des variables It1 , It2 , ..., Itn est une loi normale
multivariée. Le processus (It ; t ≥ 0) est donc un processus gaussien. Le calcul de sa fonction de
covariance est laissé en exercice.
195
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le résultat suivant est utile en statistique. Il est mentionné ici pour votre culture générale mais sa
démonstration dépasse le cadre de ce cours et sera donc omise.
Théorème. Soit (Yt ; 0 ≤ t ≤ 1), un pont brownien standard. Posons W = max0≤t≤1 |Yt |. Alors la
fonction de répartition de W est donnée par
∞
X 2 2
1−2 (−1)k+1 e−2k w si w > 0,
FW (w) =
k=1
0 si w ≤ 0.
Application 1. On peut montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d. avec
fonction de répartition continue F∗ (x) et si
où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn est appelée la statistique de Kolmogorov et Smirnov et elle peut être utilisée pour tester
H0 : F = F∗ contre H1 : F 6= F∗ lorsqu’on suppose que X1 , X2 , X3 , ..., Xn sont i.i.d. avec fonction
de répartition F (x) et qu’on souhaite tester si F (x) = F∗ (x), pour une fonction de répartition
continue F∗ (x) complètement spécifiée.
Application 2. On peut aussi montrer que si X1 , X2 , X3 , ..., Xn sont des variables aléatoires i.i.d.
avec fonction de répartition continue F (x) et si Y1 , Y2 , Y3 , ..., Ym sont des variables aléatoires i.i.d.
avec fonction de répartition continue G(x), les Yj indépendantes des Xi , et si
où Fn (x) et Gn (x) dénote respectivement la fonction de répartition empirique associée aux Xi et
la fonction de répartition empirique associée aux Yj , alors
r
mn L
Dn,m −→ W
m+n
où W dénote, comme ci-dessus, le suprémum du pont brownien sur l’intervalle [0, 1]. La variable
aléatoire Dn,m est appelée la statistique de Kolmogorov et Smirnov pour le problème à deux
échantillons et elle peut être utilisée pour tester H0 : F = G contre H1 : F 6= G.
196
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
8.7 Martingales
La notion de martingale joue un rôle important en théorie des probabilité, en particulier dans
les applications de la théorie des probabilités en mathématiques financières. Voici une définition
suffisamment générale pour les besoins du présent cours.
Définition. Soient (Mt ; t ≥ 0) et (Xt ; t ≥ 0), des processus aléatoires. On dit que le processus
(Mt ; t ≥ 0) est une martingale par rapport au processus (Xt ; t ≥ 0) si les conditions suivantes sont
satisfaites :
(a) E[|Mt |] < ∞ pour tout 0 ≤ t < ∞.
(b) Si on connaı̂t (Xu ; 0 ≤ u ≤ t), alors on connaı̂t Mt . Autrement dit, Mt est une fonction de
(Xu ; 0 ≤ u ≤ t).
(c) Pour tout 0 ≤ s ≤ t < ∞ on a E[Mt |Xu , 0 ≤ u ≤ s] = Ms .
Supposons maintenant que (Xt ; t ≥ 0) soit un mouvement brownien standard issu de l’origine. Voici
trois exemples de processus aléatoires qui sont des martingales par rapport à (Xt ; t ≥ 0).
1. Le processus (Xt ; t ≥ 0) lui-même.
2. Le processus (Xt2 − t; t ≥ 0).
3. Le processus (exp(cXt − c2 t/2); t ≥ 0).
Pour le troisième exemple, la constante c est un nombre réel quelconque.
Proposition. Si (Mt ; t ≥ 0) est une martingale (par rapport à un certain processus (Xt ; t ≥ 0)),
alors E[Mt ] ne dépend pas de t. On a donc
Sous certaines conditions, on peut remplacer le temps fixe t par un temps aléatoire T dans l’équation
(8.15) ci-dessus. C’est ce que nous avons fait à la section 8.3 et c’est ce que nous ferons à la
section suivante. Afin de pouvoir énoncer un résultat précis à cet effet, voici d’abord une définition
importante.
Définition. On dit que la variable aléatoire non négative T est un temps d’arrêt pour le processus
aléatoire (Xt ; t ≥ 0) si la condition suivante est satisfaite : pour tout t ≥ 0, l’événement {T ≤ t}
est une fonction de (Xs ; 0 ≤ s ≤ t). Autrement dit, après avoir observé (Xs ; 0 ≤ s ≤ t), on sait si
on a T ≤ t ou si on a T > t.
Le théorème suivant ne sera pas énoncé de façon précise et ne sera pas démontré.
Théorème. Si (Mt ; t ≥ 0) est une martingale par rapport à un certain processus (Xt ; t ≥ 0) et si
T est un temps d’arrêt par rapport à ce processus (Xt ; t ≥ 0), alors, sous certaines conditions de
régularité et d’intégrabilité, on a
E[MT ] = E[M0 ]. (8.16)
197
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
198
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Le cas où µ = 0
Dans le cas où µ = 0, le processus (Yt /σ; t ≥ 0) est un mouvement brownien standard issu de 0.
On utilise la martingale ((Yt /σ)2 − t; t ≥ 0) et on conclut que
" #
YT(−a,b) 2
E − T(−a,b) = 0
σ
donc
1
E[T(−a,b) ] = E[(YT(−a,b) )2 ]
σ2
1 2 2
= b P[Y T = b] + a P[Y T = −a]
σ2 (−a,b)
(−a,b)
1 a b ab
= 2
b2 + a2 = 2
σ a+b a+b σ
Le cas où µ 6= 0
Dans le cas où µ 6= 0, le processus ((Yt − µt)/σ; t ≥ 0) est un mouvement brownien standard issu
de 0, donc une martingale d’espérance 0. On utilise cette martingale et on conclut que
donc
1
E[T(−a,b) ] = E[YT(−a,b) ]
µ
1
= b P[YT(−a,b) = b] − a P[YT(−a,b) = −a]
µ
2 2
b(1 − e2µa/σ ) − a(e−2µb/σ − 1)
= .
µ(e−2µb/σ2 − e2µa/σ2 )
Exercice. Si on prend la limite quand µ → 0 dans le résultat ci-dessus, est-ce qu’on obtient le
résultat de la section 8.3 ?
Exercice. Vérifiez que si µ > 0 et si a et b sont très grand, alors E[T(−a,b) ] ≈ b/µ. Autrement dit,
E[T(−a,b) ] 1
lim
a→∞
= .
b→∞
b µ
Exercice. Quelle est l’intuition derrière le résultat de l’exercice précédent ? Autrement dit, com-
ment aurait-on pu deviner ce résultat ?
199
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
Fixons y > 0. Pour tout entier n ≥ 1, écrivons En pour dénoter l’événement le mouvement brownien
(Yt ; t ≥ 0) frappe l’état −n avant de frapper l’état y. On obtient alors
Exemple. On suppose que (Yt ; t ≥ 0) est un mouvement brownien géométrique issu de 2 et avec
paramètres µ = 1/3 et σ 2 = 4. Calculons P[Y9 ≤ 800]. On obtient ceci :
200
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
En particulier, si σ 2 = 2µ, alors M∗ suit la loi uniforme sur l’intervalle (0, C).
201
Claude Bélisle
Université Laval
STT-4700
Hiver 2021
202
Claude Bélisle
Université Laval