Vous êtes sur la page 1sur 20

Un cours sur les probabilites

Licence Informatique UHP


Blaise Potard
2005
2
Table des mati`eres
1 Introduction 5
1.1 Pipo introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Plan du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Exploitation des masses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Probabilites sur un espace ni 7
2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Terminologie concernant les evenements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Proprietes elementaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 Probabilite de levenement A B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Probabilites uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.6 Probabilite conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.7 Independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Variables aleatoires discr`etes 11
3.1 Espace de probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 Lois discr`etes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Esperance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Application au probl`eme de la coupe minimale 15
4.1 Preliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Algorithme ameliore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Chanes de Markov 17
5.1 Presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.3 Persistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.4 Chanes irreductibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.5 Distributions stationnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3
4 TABLE DES MATI
`
ERES
Chapitre 1
Introduction
1.1 Pipo introductif
Les probabilites en France ont longtemps constituees (avec la logique) le parent pauvre des mathematiques,
essentiellement sous linuence de la nouvelle ecole mathematique de N. Bourbaki, qui disait justement
que lespace des probabilites nest pas localement paracompacte
1
et que du coup, ce netait pas vrai-
ment la peine de sy interesser. Cest lune des raisons pour lesquelles les probabilites ne sont toujours,
assez souvent, pas etudiees en cours de mathematique, mais en cours de physique, de biologie, voire din-
formatique ou deconomie. Meme si le formalisme de la construction peut, il est vrai, laisser `a desirer, cela
nempeche pas les gens qui cherchent `a faire des choses utiles de sen servir ; en realite, les probabilites
sont quelque chose dextremement utile pour toute la recherche appliquee : de la modelisation des pro-
cessus stochastiques (mecanique des uides,...) `a la mecanique quantique, limportance pour le physicien
nest pas `a demontrer. Linformaticien sen sert egalement beaucoup, pour la conception dheuristiques
probabilistes, et dans tous les travaux sur lintelligence articielle. En particulier, lun des mod`eles les
plus utilises pour cela sont les chanes (ou mod`eles) de Markov : par exemple, pour lOCR (reconnaissance
de caract`ere) ou la reconnaissance vocale. Certains sen servent egalement (avec un succ`es relatif) pour
faire de la traduction automatique de texte, etc.
1.2 Plan du cours
Ce cours na pour ambition que detre une introduction `a ce domaine (passionnant) que constitue les
probabilites. Apr`es avoir vu les notions de probabilite et de variable aleatoire discr`ete, nous etudierons en
detail une heuristique pour resoudre le probl`eme de la coupe minimale et nous presenterons les chanes
de Markov.
1.3 Remerciements
Ce cours sinspire largement des cours de probabilites de M. Cichon (que vous devez connatre) et de
M. Koiran (de l

ENS Lyon). Le cours de M. Koiran est de niveau matrise et est assez complet (mais il
est dun niveau assez releve). Une transcription pour les gens interesses est disponible `a cette adresse :
http ://laure.gonnord.org/site-ens/mim/probas/proba.ps
1.4 Exploitation des masses
Tous les commentaires (questions, remarques, et surtout reperage derreurs et imprecisions) sont bien
entendu les bienvenus, et peuvent etre adresses `a lauteur `a cette adresse : potard@loria.fr
1
ou quelque chose dapprochant...
5
6 CHAPITRE 1. INTRODUCTION
Chapitre 2
Probabilites sur un espace ni
2.1 Denitions
On sinteresse `a une experience aleatoire qui conduit `a la realisation dun seul resultat parmi un
nombre ni de resultats possibles
1
, . . .,
n
. On note = {
1
, . . . ,
n
}, lensemble de ces resultats.
Exemple 2.1.1
1. Jet dune pi`ece ` a pile ou face : = {P, F}.
2. Jet dun de : = {1, 2, 3, 4, 5, 6}.
Si on mesure la frequence dapparition du resultat
k
au cours dun grand nombre de repetitions de
lexperience i.e. on calcule le rapport F
k
=
N
k
N
du nombre N
k
dexperiences dont le resultat est
k
sur
le nombre total dexperiences N, on constate quelle uctue de moins en moins. La limite p
k
0 de F
k
lorsque N + correspond `a la notion intuitive de probabilite.
On appelle evenement une partie A de . La frequence de A, cest-`a-dire la proportion dexperiences
dont le resultat est dans A, est egale `a

k
A
F
k
. On est donc amene `a associer la probabilite

k
A
p
k
`a levenement A. Comme la frequence de vaut 1, on obtient

n
k=1
p
k
= 1.
Denition 2.1.2 Une probabilite P sur un ensemble ni = {
1
, . . . ,
n
} est une ponderation p
1
, . . . , p
n
des elements de cet ensemble telle que
1 k n, p
k
0 et
n

k=1
p
k
= 1
On attribue ` a tout evenement A le nombre
P(A) =

k
A
p
k
qui est appele probabilite de levenement A.
Exemple 2.1.3 Jet de deux des ` a six faces : = {(i, j) : 1 i, j 6} o` u i designe la valeur de la face
superieure du premier de et j celle du second. Pour des raisons de symetrie (si les des ne sont pas pipes),
on munit de la ponderation suivante :
1 i, j 6, p
(i,j)
=
1
36
Soit A levenement : les valeurs des deux des sont identiques.
A = {(1, 1), . . . , (6, 6)} et P(A) =
6

i1
p
(i,i)
=
6
36
=
1
6
7
8 CHAPITRE 2. PROBABILIT

ES SUR UN ESPACE FINI


On note S la somme des deux des et {S = k} levenement {(i, j) : S(i, j) = k}. On a S(i, j) = i + j.
Donc
{S = 2} = {(1, 1)} P(S = 2) =
1
36
{S = 3} = {(1, 2), (2, 1)} P(S = 3) =
1
18
{S = 4} = {(1, 2), (2, 2), (3, 1)} P(S = 4) =
1
12
{S = 5} = {(1, 4), (2, 3), (3, 2), (4, 1)} P(S = 5) =
1
9
{S = 6} = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} P(S = 6) =
5
36
{S = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} P(S = 7) =
1
6
{S = 8} = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} P(S = 8) =
5
36
{S = 9} = {(3, 6), (4, 5), (5, 4), (6, 3)} P(S = 9) =
1
9
{S = 10} = {(4, 6), (5, 5), (6, 4)} P(S = 10) =
1
12
{S = 11} = {(5, 6), (6, 5)} P(S = 11) =
1
18
{S = 12} = {(6, 6)} P(S = 12) =
1
36
2.2 Terminologie concernant les evenements
Si A, B , levenement A ou B (realise lorsque A ou B le sont) est note A B.
Si A, B , levenement A et B (realise lorsque A et B le sont) est note A B.
On appelle evenement contraire de A et on note A
c
levenement \ A.
2.3 Proprietes elementaires
1. P() = 1.
2. Si A B = , alors P(A B) = P(A) +P(B).
3. P(A
c
) = 1 P(A).
4. P(A B) = P(A) P(A B
c
).
1. est une application direct de la denition. 2. est evident en ecrivant

k
AB
p
k
=

k
A
p
k
+

k
B
p
k
(car A et B sont disjoints). 3. A
c
A = et A
c
A = , et on applique 2. 4. A = (AB)(AB
c
)
et (A B) (A B
c
) = , puis on applique 2.
2.4 Probabilite de levenement A B
P(A B) = P(A) +P(B) P(A B)
Notons que AB est egal `a lunion disjointe (AB
c
) (AB) (A
c
B), do` u le resultat est immediat.
2.5 Probabilites uniformes
Dans le cas o` u les symetries font que tous les resultats possibles
1
, . . . ,
n
jouent le meme role, ces
resultats doivent avoir la meme ponderation
1
card()
. On dit alors quil sont equiprobables. On a alors,
pour tout evenement A ,
P(A) =

1
card()
=
card(A)
card()
Cette probabilite P sappelle probabilite uniforme sur .
Exemple 2.5.1 Dans le cas du jet de deux des non pipes, = {(i, j) : 1 i, j 6} est muni de la
probabilite uniforme.
Remarque 2.5.2 Si on sinteresse ` a la somme des deux des, on peut choisir = {2, 3, . . . , 12}, ensemble
des valeurs prises par cette somme. Mais faute de proprietes de symetrie, on ne sait pas munir cet espace
dune probabilite naturelle. Cette ponderation nest pas uniforme.
2.6. PROBABILIT

E CONDITIONNELLE 9
Dans lexemple 2.1.3, en travaillant sur lespace {(i, j) : 1 i, j 6} des couples des valeurs des deux
des muni de la probabilite uniforme, nous avons pu construire la ponderation naturelle sur les valeurs de
la somme des deux des.
Cet exemple permet de bien comprendre limportance du choix de lespace de probabilite sur lequel on
travaille.
Exemple 2.5.3 Dans une classe de n 365 el`eves, quelle est la probabilite de levenement : 2 el`eves
au moins ont le meme anniversaire que lon note A?
On choisit comme espace de probabilite = {f : [1, n] [1, 365]} o` u, pour 1 i n, f(i) represente
le jour danniversaire du i
`eme
el`eve dans lordre alphabetique.
Meme si les naissances ne sont pas vraiment equireparties au long de lannee, on munit de la
probabilite uniforme. On a card() = 365
n
. Pour calculer la probabilite de A, on peut calculer la probabilite
de levenement contraire A
c
: tous les el`eves ont des dates danniversaire dierentes.
On a A
c
= {f : [1, n] [1, 365] injective}.
Donc P(A
c
) =
365
365

364
365

365 n + 1
365
,
et P(A) = 1
365
365

364
365

365 n + 1
365
.
On peut verier que, d`es que n 23, cette probabilite est superieure ` a
1
2
.
2.6 Probabilite conditionnelle
La notion de probabilite conditionnelle permet de prendre en compte linformation dont on dispose
(`a savoir quun evenement B est realise) pour actualiser la probabilite que lon donne `a un evenement A.
Denition 2.6.1 Soit muni dune probabilite P et A, B . La probabilite conditionnelle de levenement
A sachant levenement B est notee P(A | B) et denie par
P(A | B) =
_
P(AB)
P(B)
si P(B) > 0
P(A) sinon.
Exemple 2.6.2
1. Dans une famille qui comporte deux enfants, lun est une lle. On cherche la probabilite que lautre
soit un garcon.
On choisit = {FF, FG, GF, GG} o` u, par exemple, FG signie que lane des enfants est une lle
et le second un garcon. Cet espace est muni de la probabilite uniforme.
On note
A = {un des enfants est un garcon} = {FG, GF, GG},
B = {un des enfants est une lle} = {FF, FG, GF}.
On a P(B) =
card(B)
card()
=
3
4
. Comme A B = {FG, GF}, P(A B) =
card(AB)
card()
=
1
2
. Donc la
probabilite recherchee est P(A | B) =
P(AB)
P(B)
=
1/2
3/4
=
2
3
.
2. On suppose maintenant que lane des enfants est une lle. On veut alors connatre la probabilite
pour que lautre soit un garcon.
En reprenant la demarche ci-dessus, on obtient que cette probabilite vaut
1
2
.
Dans certains probl`emes, ce sont les probabilites conditionnelles que lon connat naturellement et on
est amene `a utiliser la denition sous la forme P(A B) = P(A | B)P(B).
Exemple 2.6.3 Parmi 10 pi`eces mecaniques, 4 sont defectueuses. On prend successivement deux pi`eces
au hasard dans le lot (sans remise). Quelle est la probabilite pour que les deux pi`eces soient correctes ?
On note A
1
, levenement la premi`ere pi`ece est bonne et A
2
levenement la seconde pi`ece est bonne.
Comme, au depart, il y a 6 pi`eces bonnes sur 10, P(A
1
) =
6
10
=
3
5
. Lorsque lon a retire une pi`ece
bonne, il reste 5 pi`eces bonnes sur 9. Do` u P(A
2
| A
1
) =
5
9
. On conclut que la probabilite cherchee est
P(A
1
A
2
) = P(A
2
| A
1
)P(A
1
) =
5
9

3
5
=
1
3
.
10 CHAPITRE 2. PROBABILIT

ES SUR UN ESPACE FINI


Le resultat suivant porte le nom de formule de Bayes.
Proposition 2.6.4 Soit B
1
, . . . , B
m
, une partition de (cest-` a-dire, des sous-ensembles disjoints de
dont la reunion est ) et A tel que P(A) > 0. Alors, pour tout 1 i n,
P(B
i
| A) =
P(A | B
i
)P(Bi)

m
j=1
P(A | B
j
)P(B
j
)
.
Demonstration
Le numerateur du second membre est egal ` a P(AB
i
). Le denominateur vaut

m
j=1
P(AB
j
) et, comme
les B
j
forment une partition de , il est egal ` a P(A). Donc le second membre est bien egal ` a
P(AB
i
)
P(A)
. .
Exemple 2.6.5 Pour depister une maladie, on applique un test sanguin. Si le patient est atteint, le test
donne un resultat positif dans 99% des cas. Mais il se peut aussi que le resultat du test soit positif alors
que le patient est en bonne sante et cela se produit dans 2% des cas. La proportion de personnes malades
dans la population soumise au test est de 10
3
. Calculer la probabilite pour quun patient soit en bonne
sante sachant que le resultat de son test est positif.
Soit P levenement le test donne un resultat positif et M levenement le patient est malade. On
a P(P | M) = 0, 99, P(P | M
c
) = 0, 02 et P(M) = 0, 001, do` u P(M
c
| P) =
P(P|M
c
)P(M
c
)
P(P|M
c
)P(M
c
)+P(P|M)P(M)
=
222
233
.
2.7 Independance
Denition 2.7.1 Soit muni dune probabilite P. Deux evenements A et B sont dits independants si
P(A B) = P(A) P(B).
Remarque 2.7.2 Lindependance de A et B se caracterise aussi par les relations P(A | B) = P(A) ou
P(B | A) = P(B), cest-` a-dire que la probabilite donnee ` a levenement A (resp. B) nest pas modiee par
linformation que levenement B (resp. A) est realise.
Denition 2.7.3 m ev`enements A
1
, . . . , A
m
, sont dits independants si I [1, m], P
_
iI
A
i
_
=

iI
P(A
i
).
Remarque 2.7.4 Il ne sut pas que P(A
1
A
m
) =

m
i=1
P(A
i
) pour que les evenements soient
independants. Pour que 3 evenements soient independants, il ne sut pas quil soient 2 ` a 2 independants.
Contre-exemple :
Jet de deux pi`eces ` a Pile ou Face : = {PP, PF, FP, FF} o` u, par exemple, PF signie que la premi`ere
pi`ece donne Pile et la seconde Face. Cet espace est muni de la probabilite uniforme. On note A levenement
la premi`ere pi`ece donne Pile, B levenement la seconde pi`ece donne Face et C levenement les deux
pi`eces donnent le meme resultat.
A = {PP, PF} P(A) =
1
2
B = {PF, FF} P(B) =
1
2
C = {PP, FF} P(C) =
1
2
A B = {PF} P(A B) =
1
4
= P(A)P(B)
A C = {PP} P(A C) =
1
4
= P(A)P(C)
B C = {FF} P(B C) =
1
4
= P(B)P(C)
A B C = P(A B C) = 0 = P(A)P(B)P(C).
Ainsi les evenements A, B et C sont 2 ` a 2 independants mais pas independants.
Chapitre 3
Variables aleatoires discr`etes
3.1 Espace de probabilite
Dans le cas dun espace ni, nous avons deni un evenement comme une partie quelconque de
. Mais si on souhaite modeliser le temps de premi`ere obtention de Pile dans une suite de jets dune
pi`ece `a Pile ou Face, on choisit naturellement = {P, F}

, ensemble qui est inni. D`es que est inni,


pour pouvoir construire une probabilite qui satisfasse des proprietes intuitives, il est souvent utile de
restreindre les evenements que lon consid`ere `a une sous-classe de P() appelee tribu.
Denition 3.1.1 Une tribu A sur est une famille de parties de qui verie les trois proprietes
suivantes :
1. , A.
2. A A A
c
A.
3. Si (A
i
)
iI
est une famille denombrable delements de A alors

iI
A
i
est dans A (en dautres
termes, A est close par union denombrable).
On appelle evenements les elements de A.
Remarque 3.1.2 Si A est une tribu :
1. A est aussi close par intersection denombrable, i.e. si (A
i
)
iI
est une famille denombrable delements
de A alors

iI
A
i
est dans A (car lintersection est le complementaire de lunion des complementaire).
2. A est aussi appelee -alg`ebre.
Exemple 3.1.3 {, } est la plus petite tribu sur . P() est la plus grosse tribu sur . Si A ,
{, A, A
c
, } est une tribu sur .
Denition 3.1.4 Soit muni dune tribu A. On appelle probabilite sur (, A) une application P : A
[0, 1] qui verie
1. P() = 1.
2. Si (A
i
)
iI
est une famille denombrable delements de A deux ` a deux disjoints, (i = j I, A
i
A
j
=
), alors P
_
iI
A
i
_
=

iI
P(A
i
).
Le triplet (, A, P) sappelle un espace de probabilite, la propriete 2 la -additivite.
Dans toute la suite, nous travaillerons sans le specier necessairement systematiquement sur un espace
de probabilite (, A, P).
En utilisant la propriete de -additivite, on peut facilement verier que lon a toujours pour tout
couple devenements A et B : P(A B) = P(A) + P(B) P(A B). Les denitions de la probabilite
conditionnelle de A sachant B et celle de lindependance des evenements donnees au chapitre precedent
restent egalement valables. Comme nous pouvons maintenant etre amenes `a considerer des familles innies
devenements, nous preciserons simplement quune telle famille est independante si toute sous-famille nie
lest.
Denition 3.1.5 On appelle variable aleatoire discr`ete une application X : F o` u F est un ensemble
denombrable. Pour x F, on note de facon concise {X = x} levenement { : X() = x}. La famille
des nombres (P(X = x))
xF
sappelle la loi de X.
11
12 CHAPITRE 3. VARIABLES AL

EATOIRES DISCR
`
ETES
Notons que ({X = x})
xF
est une famille denombrable devenements deux `a deux disjoints telle que

xF
{X = x} = . Donc, par la propriete de -additivite,

xF
P(X = x) = P
_
xF
{X = x}
_
=
P() = 1.
Exemple 3.1.6 Dans le cas du jet de deux des, la somme S des deux des est une variable aleatoire
discr`ete ` a valeurs dans F = [2, 12] dont nous avons calcule la loi dans lexemple 2.1.3 :
P(S = 2) = P(S = 12) =
1
36
P(S = 3) = P(S = 11) =
1
18
P(S = 4) = P(S = 10) =
1
12
P(S = 5) = P(S = 9) =
1
9
P(S = 6) = P(S = 8) =
5
36
P(S = 7) =
1
6
.
Il faut noter que la loi de S est la probabilite naturelle dont on doit munir lensemble [2, 12] lorsque lon
sinteresse ` a la somme de deux des.
3.2 Independance
Denition 3.2.1 n variables aleatoires discr`etes X
1
, X
2
, . . . , X
n
` a valeurs respectivement dans F
1
, . . . , F
n
sont dites independantes si x
1
F
1
, . . . , x
n
F
n
, P(X
1
= x
1
, . . . , X
n
= x
n
) =

n
i=1
P(X
i
= x
i
).
Une famille quelconque de variables aleatoires discr`etes est dite independante si toute sous-famille
nie lest.
3.3 Lois discr`etes usuelles
Ce sont des lois qui portent sur F N.
Denition 3.3.1 (Loi de Bernoulli de param`etre p o` u 0 p 1)
On dit que X suit la loi de Bernoulli de param`etre p et on note X B(p) si : P(X = 1) = p et
P(X = 0) = 1 p. On a alors x {0, 1}, P(X = x) = p
x
(1 p)
1x
(convention : 0
0
= 1).
Denition 3.3.2 (Loi bin omiale de param`etres n N \ {0} et p o` u 0 p 1)
Cest la loi de la somme S = X
1
+ + X
n
de n variables de Bernoulli de param`etre p independantes
X
1
, , X
n
. On a alors, pour k F = {0, . . . , n},
P(S = k) = P(X
1
+ +X
n
= k)
= P
_
_
_
_
x
i
{0, 1}
x
1
+ +x
n
= k
{X
1
= x
1
, . . . , X
n
= x
n
}
_
_
_
=

x
i
{0, 1}
x
1
+ +x
n
= k
P(X
1
= x
1
, . . . , X
n
= x
n
) ( additivite)
=

x
i
{0, 1}
x
1
+ +x
n
= k
P(X
1
= x
1
) . . . P(X
n
= x
n
) (independence)
=

x
i
{0, 1}
x
1
+ +x
n
= k
p
x
1
++x
n
.(1 p)
nx
1
x
n
= p
k
.(1 p)
nk
.card({(x
1
, . . . , x
n
) {0, 1}
n
: x
1
+ +x
n
= k})
= C
k
n
p
k
(1 p)
nk
Si 0 k n, P(S = k) = C
k
n
p
k
.(1 p)
nk
, on note S B(n, p).
Denition 3.3.3 (Loi de Poisson de param`etre > 0)
On dit que N suit la loi de Poisson de param`etre > 0 et on note N P() si n N, P(N = n) =
e

n
n!
.
3.4. ESP

ERANCE 13
Denition 3.3.4 (Loi geometrique de param`etre p ]0, 1])
Cest la loi du temps de premier succ`es dans une suite dexperiences aleatoires independantes o` u la proba-
bilite de succ`es est p. Une telle suite se modelise ` a laide dune suite (X
i
)
i1
de variables independantes et
identiquement distribuees suivant la loi de Bernoulli de param`etre p. Levenement la i-i`eme experience
est un succ`es secrit alors {X
i
= 1} et le temps T de premier succ`es est donne par T = inf{i 1 : X
i
=
1}. Pour k 1, en utilisant lindependance des X
i
on obtient
P(T = k) = P(X
1
= 0, . . . , X
k1
= 0, X
k
= 1)
= P(X
1
= 0) P(X
k1
= 0)P(X
k
= 1)
= (1 p)
k1
p.
Si k N \ {0}, P(T = k) = p.(1 p)
k1
, on note T Geo(p).
Exemple 3.3.5 Soit S Geo(p) et T Geo(q) deux variables independantes. On cherche la loi de
Z = min(S, T).
1. Pour k N \ {0}, calculer P(S k).
On a P(S k) =

i=k
P(S = i)
=

i=k
p.(1 p)
i1
= p.(1 p)
k1
.

i=0
(1 p)
i
= p.(1 p)
k1
.
1
p
= (1 p)
k1
2. En deduire P(Z k).
P(Z k) = P(S k).P(T k)
= (1 p)
k1
.(1 q)
k1
3. Quelle est la loi de Z ?
P(Z = k) = P(Z k) P(Z k + 1)
= (1 p)
k1
.(1 q)
k1
(1 p)
k
.(1 q)
k
= (1 p)
k1
.(1 q)
k1
[1 (1 p).(1 q)]
= (1 p)
k1
.(1 q)
k1
[p +q pq]
3.4 Esperance
Denition 3.4.1 (Esperance dune variable aleatoire) Soit X : R une variable aleatoire discr`ete.
Si X() est denombrable, on pose A = X(). Si la serie

aA
|a|P(X = a) converge, on dit que
lesperance de X existe et on la note :
E(X) =

aA
aP(X = a)
Intuitivement, lesperance correspond `a la valeur moyenne de la variable aleatoire.
Exemple 3.4.2 Jet dun de non-pipe : = 1, 2, 3, 4, 5, 6, X(w) = w, P distribution uniforme. E(X) =
1
6

6
i=1
i =
7
2
.
Proposition 3.4.3 (Esperance dune somme) Soient X et Y deux variables aleatoires. Si E(X) et
E(Y ) existent, alors E(X +Y ) = E(X) +E(Y ).
14 CHAPITRE 3. VARIABLES AL

EATOIRES DISCR
`
ETES
Demonstration
X() = A = {a
1
, a
2
, ..., a
n
, ...}, Y () = B = {b
1
, ..., b
n
, ...}.
E(X +Y ) =

i,j
(a
i
+b
j
)P(X = a
i
et Y = b
j
)
=

i,j
a
i
P(X = a
i
et Y = b
j
) +

i,j
b
j
P(X = a
i
et Y = b
j
)
=

i
a
i
P(X = a
i
) +

j
b
j
P(Y = b
j
)
= E(X) +E(Y ).
.
Exemple 3.4.4 On tire deux des, lesperance de la somme est la somme des esperances, donc 7.
Proposition 3.4.5 (Esperance dun produit de variables independantes) Si X, Y : R sont
des variables aleatoires independantes, alors si E(X) et E(Y ) existent, E(XY ) = E(X) E(Y ).
Demonstration
E(XY ) =

i,j
a
i
b
j
P(X = a
i
textrmet Y = b
j
)
=

i,j
a
i
b
j
P(X = a
i
)P(Y = b
j
)(independance)
=
_

i
a
i
P(X = a
i
)
_
_
_

j
b
j
P(Y = b
j
)
_
_
.
Remarque 3.4.6 En general, lesperance du produit nest pas egal au produit des esperances.
3.5 Variance
Tout comme lesperance, la variance (et sa racine carre, lecart-type) est indispensable lorsque lon
fait des statistiques. Intuitivement, la variance mesure lecart dun ensemble de donnee par rapport `a sa
moyenne.
Denition 3.5.1 Soit X une variable aleatoire telle que E(X) existe. Alors on denit la variance de X
de la mani`ere suivante :
V ar(X) = E
_
(X m)
2
_
avec m = E(X)
On note aussi V ar(X) =
2
, o` u sappelle lecart-type.
Remarque 3.5.2 V ar(X) = E(X
2
+m
2
2mX) = E(X
2
) +m
2
2mE(X) = E(X
2
) E(X)
2
.
Proposition 3.5.3
Pour tout R, V ar(X) =
2
V ar(X)
Si X et Y sont deux variables independantes, V ar(X +Y ) = V ar(X) +V ar(Y )
Demonstration laissee en exercice.
Chapitre 4
Application au probl`eme de la coupe
minimale
4.1 Preliminaires
Soit G un multigraphe (non-oriente) : si x = y sont deux sommets, il peut y avoir plusieurs aretes
entre x et y, mais pas de boucle. On suppose G connexe (i.e. il existe toujours un chemin reliant deux
sommets de G). Une coupe de G = (V, E) (o` u V est lensemble des sommets et E est lensemble des
aretes) est un sous-ensemble C E tel que (V, EC) est non-connexe. On cherche une coupe de cardinal
minimal.
Contraction darete : soit e E une arete reliant x `a y.
`
A partir de G on construit un nouveau graphe
G

tel que lensemble des sommets de G

soit V

= V {x, y}{v(x, y)}, o` u v(x, y) est un nouveau sommet


ne de la fusion de x et y. Pour deux sommets u et v, w(u, v) designe le nombre daretes reliant u `a v
dans G et w

(u, v) designe le nombre daretes reliant u `a v dans G

. Si v(x, y) / {u, v}, w

(u, v) = w(u, v).


Pour u = v(x, y), w

(u, v(x, y)) = w(u, x) + w(u, y). En dautres termes, les aretes qui etaient reliees `a x
ou y dans G sont `a present reliees `a v(x, y), sauf les aretes reliant x `a y qui sont supprimees.
Remarque 4.1.1 v V, degre(v) cardinal de la coupe minimal (rappel : le degre dun sommet est le
nombre daretes reliees ` a ce sommet).
4.2 Algorithme
Tant que |V | > 2 {
Choisir une arete et la contracter ; }
Retourner le nombre daretes restantes.
Proposition 4.2.1 Lalgorithme retourne toujours une surestimation du cardinal de la coupe minimal.
Proposition 4.2.2 Toute coupe de G est une coupe de G

.
Theor`eme 1
Soit C une coupe minimale de G. La probabilite dobtenir C par lalgorithme est superieure ou egale ` a
2
n
2
, o` u n = |V |.
Demonstration
Soit E
i
lev`enement : `a la contraction i, lalgorithme ne contracte pas une arete de C. On cherche
P(E
1
E
2
... E
n2
).
Soit k = |C|. Tous les sommets sont de degre superieur ou egal `a k donc |E|
kn
2
(car |E| =
1
2

vV
degre(v)).
`
A letape 1 on choisit une arete de E au hasard :
P(E1) =
|E| k
|E|

kn
2
k
kn
2
=
n 2
n
= 1
2
n
.
Par les probabilites conditionnelles, on a :
P(E
1
E
2
... E
i
) = P(E
1
E
2
... E
i1
)P(E
i
|E
1
E
2
... E
i1
)
15
16 CHAPITRE 4. APPLICATION AU PROBL
`
EME DE LA COUPE MINIMALE
On suppose que pendant les i 1 premi`eres etapes on na contracte aucune arete de C. Dans le graphe
courant, les sommets sont de degre superieur ou egal `a k (car toute coupe de G est une coupe de G

) et
le graphe courant compte n (i 1) sommets.
Donc P(E
i
|E
1
E
2
... E
i1
)
k
ni+1
2
k
k
ni+1
2
= 1
2
ni+1
Finalement, par recurrence on arrive `a :
P(E
1
E
2
... E
n2
)
n2

i=1
n i 1
n i + 1

2
n(n 1)
(elimination diagonale)

2
n
2
.
4.3 Algorithme ameliore
Faire tourner lagorithme de contraction r fois
Retourner le minimum des resultats obtenus
La probabilite derreur est majoree par (1
2
n
2
)
r
. Pour obtenir une probabilite derreur inferieure `a
un donne, il sut de prendre (les calculs sont tr`es simples) :
r
n
2
2
ln
_
1

_
Cest un algorithme de Monte-carlo (la probabilite derreur est superieure ` a 0), par opposition aux
algorithmes de Las Vegas, o` u on obtient toujours le bon resultat (mais le temps de calcul est une
variable aleatoire).
Chapitre 5
Chanes de Markov
Les chanes de Markov constituent lexemple le plus simple des processus stochastiques, lorsque dans
letude dune suite de variables aleatoires, on abandonne lhypoth`ese dindependance. Il sagit dun pro-
cessus `a temps discret - do` u le nom de chane.
5.1 Presentation
Denition 5.1.1 Soit (X
n
)
n0
une suite de variables aleatoires ` a valeurs dans un ensemble S, ni ou
denombrable. Dans la suite, pour simplier les notations, on remplacera souvent S par la numerotation
de ses elements. Soit un ensemble (p
i,j
)
(iS,jS)
de probabilites de transition. On dit que la suite (X
n
)
est une chane de Markov, si, pour tout n > 1 et toute suite (i
0
, . . . , i
n1
, i
n
) delements de S, on a la
relation suivante entre probabilites conditionnelles :
P(X
n
= i
n
|X
0
= i
0
, . . . , X
n1
= i
n1
) = P(X
n
= i
n
|X
n1
= i
n1
) = p
i
n1
,i
n
. (5.1)
Autrement dit, dans levolution au cours du temps, letat du processus `a linstant n ne depend que
de celui `a linstant n 1 precedent, mais non de ses etats anterieurs. Le processus est sans memoire ou
non hereditaire.
La probabilite p
i,j
est appelee la probabilite de passage de letat i ` a letat j, en une etape, ou en une
operation, ou encore, en une transition.
Exemple 5.1.2 (Mod`ele de diusion) On dispose de deux botes contenant chacune r boules, et il
y a au total 2r boules : r noires et r blanches. Letat du syt`eme est determine par le nombre de boules
blanches dans la premi`ere bote (S = {0, 1, ..., r}). Une transition consiste ` a tirer une boule de la premi`ere
bote et une de la deuxi`eme et ` a les echanger.
p
i,j
= 0 si |j i| 2
p
i,i1
=
i
2
r
2
si i 1
p
i,i+1
=
(ri)
2
r
2
(i < r)
p
i,i
=
2i(ri)
r
2
.
Exemple 5.1.3 (Marche au hasard dans Z
k
(S = Z
k
))
`
A chaque etape, on se deplace dune unite
dans une direction : (x
1
, x
2
, ..., x
k
) a 2
k
voisins de la forme (x
1
, ..., x
i
1, ..., x
k
). Chaque probabilite de
transition vaut
1
2
k
.
Si k 2, on revient toujours au point de depart. Si k 3, on revient au point de depart avec une
probabilite strictement inferieure ` a 1.
Denition 5.1.4 (Distribution) On appelle distribution ` a linstant n la famille
n
: (
n
i
)
i S
telle
que i S,
n
i
= P(X
n
= i).
Remarque 5.1.5 Levolution dune chane de Markov est compl`etement determinee par les p
i,j
et par
la distribution initiale
0
.
5.2 Representation
En principe, on consid`ere dans cette partie des chanes de Markov `a ensemble detats ni. Cela ne
nous empechera pas par la suite dutiliser ces representations pour des chanes avec ensembles detats
innis !
17
18 CHAPITRE 5. CHA

INES DE MARKOV
Denition 5.2.1 La matrice
P =
_
_
_
p
0,0
p
0,1
p
0,2
. . .
p
1,0
p
1,1
p
1,2
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
_
_
_
dont les coecients sont les probabilites de transition p
i,j
est appelee matrice de passage (ou de transition)
de la chane.
Toute matrice de transition P = (p
i,j
)
i,jS
verie les proprietes suivantes :
1. pour tout couple (i, j), on a p
i,j
0 ;
2. pour tout i S, on a

jS
p
i,j
= 1.
Une matrice P, qui verie ces deux conditions, est appelee matrice stochastique. Si P et P
T
sont stochas-
tiques alors P est bistochastique.
Denition 5.2.2 (Le graphe associe `a une matrice de transition)
`
A toute matrice de transition, on peut associer son graphe. Les sommets du graphe sont les dierents
etats de la chane. Il y a une `eche, etiquetee p
i,j
, entre le sommet etiquete s
i
et le sommet etiquete s
j
si, et seulement si, la probabilite de transition de letat s
i
` a letat s
j
est strictement positive : p
i,j
> 0.
5.3 Persistance
Denition 5.3.1 Un etat i est dit persistant si, partant de letat i, on retourne ` a letat i avec une
probabilite 1. Sinon i est dit transitoire.
Pour un ev`enement A, on pose p
i
(A) = P(A|X
0
= i). La probabilite de se trouver un jour dans letat
j sachant que X
0
= i est p
i
(
+
n=1
X
n
= j), que lon note f
i,j
. Soit f
(n)
i,j
la probabilite de passer pour la
premi`ere fois en j ` a linstant n sachant que X
0
= i : f
(n)
i,j
= p
i
(X
1
= j, X
2
= j, ..., X
n1
= j, X
n
= j).
On a alors f
i,j
=

+
n=1
f
(n)
i,j
. Par denition,
i transitoire f
i,i
< 1
i persistant f
i,i
= 1
Proposition 5.3.2 p
i
(X
n
= i pour une innite de valeur de n) =
_
1 si i est persistant
0 sinon
En eet, p
i
(|{n 1; X
n
= i}| k) = f
k
i,i
=
_
1 si i est persistant

k+
0 si i transitoire
Remarque 5.3.3 p
i
(X
n
= j pour une innite de valeur de n) =
_
0 si j est transitoire
f
i,j
si j est persistant
Theor`eme 2 On note p
(n)
i,j
la probabilite detre dans letat j ` a linstant n en partant de letat i. On a le
theor`eme suivant :
i est transitoire
+

n=1
p
(n)
i,i
< +
Demonstration
On suppose que

+
n=1
p
(n)
i,i
< +. Dapr`es le lemme de Borel-Cantelli (on ne la pas vu en cours, mais
si ca vous interesse, google pourra vous en dire plus), p
i
(X
n
= i pour une innite de valeurs de n) = 0.
Donc i est transitoire.
Reciproquement, soit i transitoire (donc f
i,i
< 1). On va montrer que

+
n=1
p
(n)
i,i

f
i,i
1f
i,i
.
p
(n)
i,i
=
n

s=1
f
(s)
i,i
p
(ns)
i,i
5.4. CHA

INES IRR

EDUCTIBLES 19
+

n=1
p
(n)
i,i
=
+

n=1
n

s=1
f
(s)
i,i
p
(ns)
i,i
=
+

s=1
+

n=s
f
(s)
i,i
p
(ns)
i,i
=
+

s=1
f
(s)
i,i
+

n=0
p
(n)
i,i

_
+

s=1
f
(s)
i,i
__
1 +
+

n=1
p
(n)
i,i
_
.
Or,

+
s=1
f
(s)
i,i
= f
i,i
. Do` u le resultat. .
Exemple 5.3.4 (Marche au hasard sur Z) Est-ce que 0 est transitoire ?
p
(m)
0,0
=
_
0 si m impair
C
n
2n
2
2n
si m = 2n
C
n
2n
2
2n

1

n
(en utilisant lequivalent de la factorielle).
On en deduit que la serie

+
n=1
p
(n)
0,0
diverge, donc letat 0 (comme tout etat i) est persistant.
5.4 Chanes irreductibles
Denition 5.4.1 Une chane est dite irreductible si (i, j) f
i,j
> 0. En dautres termes, de tout etat il
est possible atteindre nimporte quel autre etat. Cela peut aussi secrire : (i, j), n 1, p
(n)
i,j
> 0.
Theor`eme 3 Pour une chane de Markov irreductible, lune des deux proprietes suivante est veriee :
(i) tous les etats sont transitoires ; et dans ce cas on a :
(i, j) p
i
(X
n
= j inniment souvent) = 0

n1
p
(n)
i,j
< +
(ii) tous les etats sont persistants :
(i, j) p
i
(X
n
= j inniment souvent) = 1

n1
p
(n)
i,j
= +
Demonstration cf. dernier cours .
Exemple 5.4.2 (Chanes irreductibles nies) Elles sont toutes persistantes. Soit S = {1, ..., n}.
t 1,
n

j=1
p
(t)
i,j
=
n

j=1
p
i
(X
t
= j) = 1
Supposons que la chane est transitoire, i.e. i, j,

t1
p
(t)
i,j
< +.
Alors

n
j=1

t1
p
(t)
i,j
< + (comme somme nie delements nis).
Or

n
j=1

t1
p
(t)
i,j
=

t1

n
j=1
p
(t)
i,j
= + ce qui est absurde.
5.5 Distributions stationnaires
Denition 5.5.1 Une distribution stationnaire est une ditribution de probabilites sur lensemble des
etats telle que P = (P est la matrice de transition).
Exemple 5.5.2
20 CHAPITRE 5. CHA

INES DE MARKOV
P =
_
_
_
_
0 1/2 0 1/2
1/2 0 1/2 0
0 1/2 0 1/2
1/2 0 1/2 0
_
_
_
_
Chaque transition a une probabilite de 1/2. On cherche une distribution stationnaire .
_

2
+
4
= 2
1

1
+
3
= 2
2

2
+
4
= 2
3

1
+
3
= 2
4
Do` u
1
=
2
=
3
=
4
= 1/4.

Evolution dune chane :

0
=
_
_
_
_
1
0
0
0
_
_
_
_

1
= P
0
=
_
_
_
_
0
1/2
0
1/2
_
_
_
_

2
=
_
_
_
_
1/2
0
1/2
0
_
_
_
_

3
=
1
Exemple 5.5.3 (Modelisation dune le dattente) Le temps dattente de chaque client est 2 mi-
nutes. Pendant ce tmps il peut arriver 0, 1 ou 2 clients avec des probabilites respectives t
0
, t
1
, t
2
, avec
t
0
+t
1
+t
2
= 1.
Un etat est le nombre de clients en train dattendre. Lespace des etats S est alors N. Pour i 1, on
a p
i,i1
= t
0
, p
i,i
= t
1
, p
i,i+1
= t
2
. On a de plus : p
0,0
= t
0
, p
0,1
= t
1
, p
0,2
= t
2
. La matrice de transition
est donc :
P =
_
_
_
_
_
_
_
_
_
t
0
t
0
0 0 0 . . .
t
1
t
1
t
0
0 0 . . .
t
2
t
2
t
1
t
0
0 . . .
0 0 t
2
t
1
t
0
. . .
0 0 0 t
2
t
1
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
_
_
_
_
_
_
_
_
_
P = =
_

0
= t
0

0
+t
0

1
= t
1

0
+t
1

1
+t
0

2
= t
2

0
+t
2

1
+t
1

2
+t
0

k
= t
2

k1
+t
1

k
+t
0

k+1
pour k 3
On en deduit :
t
0

k+1
+ (t
1
1)
k
+t
2

k1
= 0
t
0

k+1
(t
0
+t
2
)
k
+t
2

k1
= 0
Soit Q(X) = t
0
X
2
(t
0
+t
2
)X +t
2
= (X 1)(t
0
X t
2
)
Q a pour racines 1 et
t
2
t
0
. Si t
2
= t
0
, la solution generale est de la forme ak +b. Si t
2
= t
0
, la solution
generale est a +b
_
t
2
t
0
_
k
.
On rappelle que lon a les conditions supplementaires suivantes sur : tous les
k
sont positifs, et la
somme des
k
est egale ` a 1.
Si t
2
= t
0
, la seule solution generale qui pourrait convenir pour que

k
ne diverge pas est
a = b = 0. Mais dans ce cas tous les
k
sont nuls, on na donc pas de solution.
Si t
2
> t
0
, pour la meme raison il ny a pas de solution.
Si t
2
< t
0
, il faut a = 0 et la serie des
k
est une serie geometrique de raison < 1, donc converge.
On trouve
0
= bt
2
,
1
=
bt
2
(1t
0
)
t
0
et b =
t
0
t
2
t
2
.