00 S7 Cours Proba Ok

Cours probabilités
&
statistiques
Rivo Rakotozafy
Année Universitaire 2017 - 2018

Master 1 : Mathématiques Fondamentales - Mathématiques Economiques
Faculté des Sciences - Université de Fianarantsoa
version V.1 — Mars 2018 — Rivo Rakotozafy
Table des matières
Table des matières ii
1 Espaces et mesures de probabilités 1

1.1 Espaces probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 L’univers Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.3 La tribu d’évènements F . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4 La mesure de probabilité P . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Formule des probabilités composées . . . . . . . . . . . . . . . . . . . 11
1.2.3 Formule des probabilités totales . . . . . . . . . . . . . . . . . . . . . 12
1.2.4 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Indépendances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Indépendance de 2 événements . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Indépendance 2 à 2 et Indépendance mutuelle . . . . . . . . . . . . . 15
1.4 Exemples d’espaces probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Le cas discret : Ω fini ou dénombrable . . . . . . . . . . . . . . . . . 16
1.4.2 Le cas continu : Ω = R ou Rd . . . . . . . . . . . . . . . . . . . . . . 19
2 Variables aléatoires 21
2.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Evénements valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.4 Lois usuelles des variables aléatoires discrètes . . . . . . . . . . . . . 24
2.1.5 Variable aléatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2 Propriétés des fonctions de répartition . . . . . . . . . . . . . . . . . 27
2.2.3 Calcul de probabilité avec la f. r. . . . . . . . . . . . . . . . . . . . . 29
2.2.4 Cas des variables aléatoires discrètes . . . . . . . . . . . . . . . . . . 30
2.2.5 Cas des variables aléatoires à densité . . . . . . . . . . . . . . . . . . 31
2.2.6 Espérance d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 34
2.3 Convergences monotone et dominée . . . . . . . . . . . . . . . . . . . . . . . 37
i
2.4 Moments des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Indépendances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
ii
Chapitre 1
Espaces et mesures de probabilités
1.1 Espaces probabilisés

1.1.1 Introduction
Une expérience est dite aléatoire (du mot latin alea qui signifie jet de dés) lorsqu’on
ne peut pas prévoir avec certitude le résultat de cette expérience. En renouvelant la même
expérience dans des conditions identiques, on obtient pas forcément le même résultat à chaque
renouvellement.
En revanche, l’ensemble des résultats possibles, ou les issues, de cette expérience ap-
partient à un ensemble connu à l’avance, c’est l’univers, l’ensemble de toutes les issues qui
peuvent être obtenues au cours d’une épreuve aléatoire.
La théorie moderne des probabilités est fondée sur l’approche axiomatique de Kolmogorov,
basée sur la théorie de la mesure de Borel et Lebesgue. La formulation de cette théorie contient
trois éléments essentiels : l’univers, les évènements, et la mesure de probabilité.
1.1.2 L’univers Ω
• Ω : ensemble de toutes les issues (ou les résultats possibles) qui peuvent être obtenues
au cours d’une expérience aléatoire.
• ω ∈ Ω : les issues observées de l’expérience aléatoire, on les appelle éventualités ou
évènements élémentaires.
Exemple 1.1.1 (Lancer de pièce de monnaie)
1) On lance une pièce, un tirage à pile ou face : on choisira Ω = {P, F }.
2) On lance une pièce deux fois de suite, deux tirages à pile ou face : on choisira Ω =
{P F, P P, F P, F F }.
3) On lance une pièce autant de fois jusqu’à la première apparition d’un pile, on choisira
Ω = {P, F P, F F P, F F F P, . . .}.
4) On lance la pièce n fois de suite, on choisira Ω = {P, F }n .
∗
5) On lance la pièce indéfiniment : on choisira Ω = {P, F }N .
Dans ces exemples, Ω est fini ou dénombrable : c’est le cas discret.
1
Exemple 1.1.2 (Lancer de dé à six faces)
1) On lance un dé : on choisit Ω = {1, 2, 3, 4, 5, 6}.
2) On lance deux dés : on choisit Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {1, 2, 3, 4, 5, 6}2 .
3) On compte le nombre de jets d’un dé avant d’obtenir un premier 6 : on choisira Ω = N∗ .
Dans ces exemples, Ω est fini ou dénombrable, on est toujours dans le cas discret.
Exemple 1.1.3 (Tirage de boules dans une urne)
Une urne contient 1 boule blanche et 4 boules rouges.
1) On tire successivement deux boules avec remise :
Ω = {(B, B), (B, R), (R, B), (R, R)}.
2) On tire successivement deux boules sans remise :
Ω = {(B, R), (R, B), (R, R)}.
3) On tire simultanément deux boules :
Ω = {(B, R), (R, R)}.
Dans ces exemples, Ω est fini, on est toujours dans le cas discret.
Exemple 1.1.4 (Cas continu)
1) On mesure de la taille d’un individu, dont le résultat est un réel strictement positif,
l’ensemble Ω = R+ .
2) On mesure la durée de vie d’une batterie de voiture, Ω = R+ ou Ω = [0, T ], avec T
suffisament grand.
3) On s’intéresse à la courbe d’évolution de la température sur une journée dans une station
météo, Ω = C 0 ([0, T ], R) (ensemble des fonctions continues de [0, T ] vers R).
4) La trajectoire d’un grain de pollen en suspension dans un fluide, Ω = C 0 (R+ , R).
Dans ces exemples, Ω est infini non dénombrable : c’est le cas continu.
Les notions de la théorie des ensembles s’appliquent à l’ensemble Ω, à ses éléments et à ses
parties, mais la théorie des probabilités utilise une terminologie particuliere décrit par le
tableau Table 1.1.
1.1.3 La tribu d’évènements F

Une fois l’expérience aléatoire est réalisée, on se trouve avec un certain résultat ω ∈ Ω, et
souvent on s’intéresse à répondre à la question :
"est-ce que ω appartient à tel sous-ensemble donné de Ω ?"
Un évènement A est un sous-ensemble de Ω tel qu’un observateur de l’expérience aléatoire

est capable de répondre à la question "ω ∈ A" ? On se propose de calculer la probabilité de
certaines parties de l’espace fondamental Ω :
2
Notations Terminologie ensembliste Terminologie probabiliste
ω∈Ω élément évènement élémentaire
A⊆Ω partie, sous-ensemble évènement
Ω partie pleine évènement certain
∅ partie vide évènement impossible
A∩B intersection de A et B A et B sont réalisés
A∪B reunion de A et B A et/ou B sont réalisés
Ω\A ou AC complémentaire de A évènement contraire de A
A ⊆ B ou A ⇒ B A est inclus dans B A implique B
A∩B =∅ A et B sont disjoints A et B sont incompatibles
Table 1.1 – Tableau des terminologies ensemblistes et probabilistes
• cas Ω fini ou dénombrable : on prendra la tribu pleine P(Ω), l’ensemble de toutes

les parties de Ω, pour l’ensemble des évènements,
• autres cas : l’ensemble des parties de Ω étant en quelque sorte "trop gros", on se
restreindra donc à un sous-ensemble F de P(Ω), qui constituera l’ensemble des parties
dont on peut calculer la probabilité.
Afin d’obtenir un modèle aussi cohérent que possible, il importe néanmoins d’imposer cer-
taines conditions de stabilité à F : par union, par passage au complémentaire, par union
dénombrable, etc. C’est en ce sens qu’intervient la notion de tribu.
Définition 1.1.5 (Tribu)

Soit Ω un univers et F un sous-ensemble de parties de Ω, c’est à dire F ⊆ P(Ω). On dit
que F est une tribu, ou une σ-algèbre, si elle verifie les 3 conditions suivantes :
(i) Ω ∈ F ;
(ii) si A ∈ F, alors AC ∈ F ;
S+∞
(iii) si (An )n∈N est une suite F, alors n=0 An ∈ F.
On appelle les évènements tous les éléments de la tribu F.

• Si A ∈ F, unS évènement, alors AC = Ω\A ∈ F, l’évènement contraire de A.
• L’évènement +∞ n=0 An se réalise signifie que l’un au moins des évènements An se realise :
+∞
!
[
ω∈ An ⇔ ∃n ∈ N : ω ∈ An
n=0
En pratique : Ω est fini ou denombrable, on considère en général la tribu pleine P(Ω) :

• le lancer d’un dé non truqué : Ω = {1, 2, 3, 4, 5, 6}, on prendra la tribu F = P(Ω).
• la date d’apparition du premier Pile dans une succession de lancers d’une pièce non
pipée : Ω = N∗ , on prendra la tribu F = P(Ω).
Exemple 1.1.6 (Tribus d’évènements)
1) Tribu pleine : F = P(Ω) est une tribu de Ω.
3
2) Tribu triviale : F = {∅, Ω} est une tribu de Ω.
3) Tribu engendrée par une partie : F = {∅, A, AC , Ω} est une tribu de Ω.
Théorème 1.1.7
Si A est une tribu sur un ensemble Ω alors
a) ∅ ∈ A.
b) ∀A, B ∈ A, A ∪ B ∈ A, A ∩ B ∈ A et A\B ∈ A.
∞
!
\
c) ∀(An )n∈N , une suite d’évènements de A, An ∈ F
n=0
Preuve
a) Ω ∈ A, donc ΩC = ∅ ∈ A.
b) Soit A, B ∈ A. En choisissant A0 = A, A1 = B et An = ∅ pour n ≥ 2,
∞
[
A∪B = An ∈ A.
n=0
Aussi (A ∩ B)C = AC ∪ B C donc (A ∩ B) ∈ A, et A\B = A ∩ B C ∈ A.

∞
!C ∞ ∞
\ [ \
c) An = ACn ∈ A, donc An ∈ A.
n=0 n=0 n=0

Exemple 1.1.8 (Evènements)
Soit (An )n∈N une suite d’événements de l’espace mesurable (Ω, F) :
\ \
1) An correspond à la réalisation de tous les An , c’est à dire que ω ∈ An si tous les
n≥0 n≥0
An sont réalisés par ω.
[ [
2) An correspond à la réalisation d’au moins un An , c’est à dire que ω ∈ An si
n≥0 n≥0
l’un au moins des An est réalisé par ω.
[\
3) lim inf n→∞ An = Ak correspond à la réalisation de tous les An , sauf un nombre fini,
n≥0k≥n
c’est à dire que ω ∈ lim inf n→∞ An si tous les évènements An , sauf un nombre fini, sont
réalisés par ω.
\[
4) lim supn→∞ An = Ak correspond à la réalisation d’une infinité de An , c’est à dire
n≥0k≥n
que ω ∈ lim supn→∞ An si une infinité de An sont réalisés par ω.
4
1.1.4 La mesure de probabilité P
Une fois fixés un univers Ω et une tribu F de Ω, on peut définir proprement ce qu’est
une probabilite sur (Ω, F). Une probabilité est une application qui associe un nombre à un
évènement de la tribu F et qui possède les propriétés suivantes :
P1 : A ∈ F ⇒ P(A) ≥ 0 (positivité),
La probabilité doit être additive pour les évènements incompatibles, c’est à dire A ∩ B = ∅ ⇒
P(A ∪ B) = P(A) + P(B). Il faut de plus qu’elle soit σ-additive, c’est à dire que si la suite
dénombrable (An )n=0,...,+∞ est composé d’évènements deux à deux disjoints, alors :
∞
! ∞
[ X
P2 : P An = P(An ) (additivité dénombrable),
n=0 n=0
Pour que la mesure P soit une probabilité il faut qu’elle soit normalisée :
P3 : P(Ω) = 1 (normalisation),
Le triplet (Ω, F, P) est un espace probabilisé.
Propriétés élémentaires
Soit P une mesure de probabilité sur (Ω, F).
Théorème 1.1.9
a) P(∅) = 0,
b) Si A0 , . . . , An sont des évènements deux à deux incompatibles
n
! n
[ X
P Ak = P(Ak ),
k=0 k=0
c) ∀A ∈ F, P(AC ) = 1 − P(A),
d) ∀A ∈ F, P(A) ∈ [0, 1].
Preuve
a) En prenant An = ∅ pour tout n ∈ N, on obtient :
+∞
X
P(∅) = P(∅)
n=0
et donc P(∅) = 0.
b) On choisit Ak = ∅ pour k > n et on exploite
n
! n
[ X
P Ak = P(Ak ),
k=0 k=0
5
c) Les événements A et AC forment une partition de Ω, donc
1 = P(Ω) = P(A) + P(AC ).
d) P(A) ≥ 0 et P(AC ) = 1 − P(A) ≥ 0.

Théorème 1.1.10
Soit A et B deux événements :
a) A ⊂ B ⇒ P(A) ≤ P(B),
b) P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Preuve
a) Si A ⊂ B alors B est la réunion disjointe de A et de B\A.
L’égalité P(B) = P(A) + P(B\A) donne alors P(B) ≥ P(A).
b) A ∪ B est la réunion disjointe de A et de B\A. On a donc P(A ∪ B) = P(A) + P(B\A).
Or B est la réunion disjointe de B\A et de A ∩ B. Donc P(B) = P(B\A) + P(A ∩ B)
d’où le résultat.

Continuité monotone
Théorème 1.1.11
Si (An ) est une suite croissante d’événements alors :
+∞
!
[
P(An ) −−−−−→
n→+∞ P An
n=0
Preuve Posons B0 = A0 puis, pour tout n ≥ 1, Bn = An \An−1 . Puisque la suite (An ) est
croissante pour l’inclusion, les événements de la suite (Bn ) sont deux à deux disjoints. De
plus
[n +∞
[ +∞
[
An = Bk et An = Bn
k=0 n=0 n=0
Par conséquent
+∞
! +∞
! +∞ n
[ [ X X
P An =P Bn = P(Bn ) = lim P(Bk )
n→+∞
n=0 n=0 n=0 k=0
6
avec n
X
P(Bk ) = P(An )
k=0

Corrolaire 1.1.12
On a : ! !
+∞
[ n
[
P An = lim P Ak
n→+∞
n=0 k=0
Théorème 1.1.13
Si (An ) est une suite décroissante d’événements alors :
+∞
!
\
P(An ) −−−−−→
n→+∞ P An
n=0
Preuve Posons Bn = AC
n . (Bn ) est une suite croissante avec
+∞
!C +∞ +∞
[ \ \
C
Bn = Bn = An
n=0 n=0 n=0
Par contunuité croissante !

+∞
[
P(Bn ) −−−−−→
n→+∞ P Bn
n=0
et donc ! !
+∞
[ +∞
\
P(An ) = 1 − P(Bn ) −
n→+∞ 1 − P
−−−−→ Bn =P An
n=0 n=0

Corrolaire 1.1.14
On a : ! !
+∞
\ n
\
P An = lim P Ak
n→+∞
n=0 k=0
Exemple 1.1.15 (Lancer de dé et ne jamais obtenir un 6)

On lance indéfiniment un dé équilibré. Montrer que l’événement "on n’obtient jamais de 6"
est de probabilité nulle.
On note :
7
• A l’événement "on n’obtient jamais de 6",
• An l’événement "on n’a pas obtenu de 6 lors des n premiers lancers"
En supposant les lancers indépendants :
n
5
P(An ) =
6
Puisque la suite (An ) est décroissante, on a par continuité :
+∞
!
\
P(A) = P An = lim P(An ) = 0
n→+∞
n=0
Corrolaire 1.1.16 (Inégalité de Boole)

Si (An )n∈N est une suite d’évènements :
+∞
! +∞
[ X
P An ≤ P(An )
n=0 n=0
Preuve On traite en premier lieu, par récurrence, le cas d’une suite d’évènements finie
A0 , A1 , . . . , An . Il s’agit de montrer que :
n
! n
[ X
P Ak ≤ P(Ak )
k=0 k=0
L’inégalité est vraie pour n = 0. On la suppose vraie pour n, et on considère la suite d’évè-
nements A0 , AS1n, . . . , An , An+1 .
Soit E = k=0 Ak , et on a P(E) ≤ nk=0 P(Ak ) (par hypothèse de récurrence). Alors
P
n+1
!
[
P Ak = P(E ∪ An+1 ) = P(E) + P(An+1 ) − P(E ∩ An+1 ) ≤ P(E) + P(An+1 )
k=0
d’où !
n+1
[ n+1
X
P Ak ≤ P(E) + P(An+1 ) ≤ P(Ak )
k=0 k=0
Soit maintenant
Sn une suite dénombrable d’évènements (An )n≥0 . Pour tout entier n ≥ 0, soit
En = k=0 Ak , alors
Xn
P(En ) ≤ P(Ak )
k=0
L’inégalité de Boole en découle par passage à la limite sur n ; en effet

[ [
En = An
n≥0 n≥0
8
et pour tout n, En ⊂ En+1 (suite croissante d’évènements, par conséquent :
! +∞
[ X
lim P(En ) = P An ≤ P(Ak )
n→+∞
n≥0 k=0
Evènements presque sûrs

Soit (Ω, F, P) un espace probabilisé.
Définition 1.1.17
On dit qu’un événement A est négligeable si P(A) = 0.
Exemple 1.1.18 (Evènement négligeable)

Dans l’exemple 1.1.15, ne jamais obtenir de six en lançant indéfiniment un dé équilibré est
négligeable
Proposition 1.1.19
Un événement inclus dans un événement négligeable est négligeable
Preuve Car
A ⊂ B ⇒ P(A) ≤ P(B)

Proposition 1.1.20
Une réunion finie ou dénombrable d’événements négligeables est négligeable.
Preuve Car !
+∞
[ +∞
X
P An ≤ P(An )
n=0 n=0
Définition 1.1.21
On dit qu’un événement A est presque sûr si P(A) = 1. Ceci signifie encore que l’événe-
ment AC est négligeable.
Exemple 1.1.22 (Evènement presque sûr)
9
• L’événement certain est presque sûr.
• Dans l’exemple 1.1.15, obtenir de six en lançant indéfiniment un dé équilibré est presque
sûr.
Proposition 1.1.23
Un événement contenant un événement presque sûr est presque sûr.
Proposition 1.1.24
Une intersection finie ou dénombrable d’événements presque sûrs est presque sûre.
1.2 Probabilités conditionnelles

1.2.1 Définition
Lorqu’on connait qu’un événement s’est produit, cette information peut modifier la proba-
bilité d’un autre événement. il est donc important de pouvoir définir une nouvelle probabilité.
Définition 1.2.1
Soit B un événement de probabilité non nulle (P(B) > 0). Pour tout évènement A ∈ F,
la probabilité conditionnelle de A, sachant B est définie par :
P(A ∩ B)
P(A|B) =
P(B)
Si P(B) = 0, on convient de poser P(A|B) = 0.
Exemple 1.2.2 (Lancer de dé)

On lance un dé équilibré. Ω = {1, 2, 3, 4, 5, 6}. On considère les évènements A ="on obtient
6" et B ="le tirage est pair". Déterminons P(A|B) et P(A|B C ).
En utilisant la définition de la probabilité conditionelle ci-dessus :
1/6 1 0
P(A|B) = = et P(A|B C ) = =0
1/2 3 1/2
Exemple 1.2.3 (Urne contenant des boules)

Une urne contient 90 boules noires, 9 boules blanches et 1 boule rouge. On tire une boule au
hasard :
• quelle est la probabilite qu’elle soit blanche ?
La réponse est bien sur P(A) = 9/100, donc une probabilite faible.
10
• quelle est la probabilite qu’elle soit blanche, sachant que la boule tirée n’est pas noire ?
Si on note B l’évènement "la boule tiree n’est pas noire", on a donc P(B) = 1/10 et la
réponse à la question est :
P(A ∩ B) P(A) 9
P(A|B) = = = ,
P(B) P(B) 10
donc une grande probabilité.
Puisqu’on peut calculer la probabilité "sachant B" de n’importe quel événement A de la tribu
F, une question naturelle est de se demander si P(.|B) est une probabilité sur (Ω, F).
Théorème 1.2.4
Si B est un événement de Ω vérifiant P(B) > 0 alors l’application PB : F → R+ donnée
par :
A ∈ F, PB (A) = P(A|B)
définit une probabilté sur (Ω, F).
Preuve
Normalisation :
P(Ω ∩ B)
PB (Ω) = =1
P(B)
σ-additivité : pour (An )n∈N une suite d’événements deux à deux incompatibles :
+∞
! +∞
P +∞
S P+∞
[
n=0 (An ∩ B) n=0 P(An ∩ B)
X
PB An = = = PB (An ).
n=0
P(B) P(B) n=0
1.2.2 Formule des probabilités composées
Théorème 1.2.5
Soit A, B deux événements de F. On a :
P(A ∩ B) = P(B) P(A|B),
Corrolaire 1.2.6
Soit n événements A1 , . . . , An de F tels que P(A1 ∩ · · · ∩ An−1 ) > 0, alors on a :
P (A1 ∩ · · · ∩ An ) = P(A1 ) P(A2 |A1 ) P(A3 |A1 ∩ A2 ) . . . P(An |A1 ∩ · · · ∩ An−1 ),
11
Preuve Par récurrence sachant que le théorème 1.2.5 ci-dessus avec A = An+1 et B =
(A1 ∩ · · · ∩ An ) nous donne :
P (A1 ∩ · · · ∩ An+1 ) = P (A1 ∩ · · · ∩ An ) P(An+1 |A1 ∩ · · · ∩ An )

1.2.3 Formule des probabilités totales
Définition 1.2.7
On appelle système complet d’événements toute famille (Ai )i∈I d’événements avec en-
semble fini ou dénombrable vérifiant :
1) ∀i, j ∈ I, i 6= j ⇒ Ai ∩ Aj = ∅
S
2) i∈I Ai = Ω
Autrement dit, la famille (Ai )i∈I est une famille au plus dénombrable d’événements deux
à deux incompatibles et de réunion Ω.
Exemple 1.2.8
• Si A est un événement de Ω alors {A, AC } est un système complet d’événements.

• Si Ω est dénombrable avec Ω = {ωn ; n ∈ N} (où les ωn sont deux à deux distincts) et
si F = P(Ω) alors les An = {ωn } définissent un système complet d’événements.
Théorème 1.2.9
Si (Ai )i∈I est un système complet d’événements de l’espace probabilisé (Ω, F, P) alors pour
tout événement B de Ω. X
P(B) = P(B|Ai ) P(Ai )
i∈I
Preuve On a : !
[ [
B =B∩Ω=B∩ Ai = (B ∩ Ai )
i∈I i∈I
Les événements (B ∩ Ai ) étant deux à deux incompatibles, que l’ensemble soit fini ou dénom-
brable, on obtient X X
P(B) = P(B ∩ Ai ) = P(B|Ai ) P(Ai )
i∈I i∈I
avec la formule des probabilités composées.
En pratique, on utilise très souvent cette formule des probabilités totales en conditionnant
successivement par un événement et son contraire, c’est-à-dire en prenant tout simplement
une partition de type {A, AC }, ce qui donne :
P(B) = P(B|A)P(A) + P(B|AC )P(AC ).
12
Exemple 1.2.10 (Urnes numétotés)
On dispose de six urnes numérotées de 1 à 6. L’urne numéro k comporte k boules blanches
et une boule rouge. Un joueur lance un dé équilibré puis choisit une boule dans l’urne corres-
pondant au résultat du dé. Déterminons la probabilité que la boule tirée soit blanche.
On considère le système complet d’événements (A1 , . . . , A6 ) avec Ak = "le dé donne la valeur
k" et on étudie l’événement B = "la boule tirée est blanche". On a :
1 k
P(Ak ) = et P(B|Ak ) =
6 k+1
Par formule des probabilités totales :
6
X 1 k 617
P(B) = × =
k=1
6 k+1 840
Exemple 1.2.11 (Urne avec une boule rouge)

Une urne contient une boule rouge. Un joueur lance un dé équilibré. S’il obtient un six,
il tire une boule dans l’urne. Sinon, il rajoute une boule blanche dans l’urne et répète la
manipulation. Sachant qu’il est presque sûr que le joueur fera un six, quelle est la probabilité
que la boule tirée soit rouge ?
Le système complet d’événements choisi est (An )n∈N∗ avec :
An = "le joueur fait son premier six lors du n-ième lancer"
L’événement étudié est
B = "la boule tirée est rouge"
On a : n−1
1 5 1
P(An ) = et P(B|An ) =
6 6 n
Par la formule des probabilités totales :
+∞ n−1 +∞ n−1 +∞ n
X 1 5 1X1 5 1X1 5 1 5 1
P(B) = = = = − ln 1 − = ln (6)
n=1
6n 6 6 n=1 n 6 5 n=1 n 6 5 6 5
1.2.4 Formule de Bayes
Théorème 1.2.12
Si A et B sont deux événements de probabilités non nulles alors :
P(B|A) P(A)
P(A|B) =
P(B)
13
Preuve Le résultat est immédiat car :
P(A|B) P(B) = P(A ∩ b) = P(B|A) P(A)
Corrolaire 1.2.13
Si (Ai )i∈I est un système complet d’événements alors pour tout événement B de probabilité
non nulle et tout k ∈ I
P(B|Ak ) P(Ak )
P(Ak |B) = P
i∈I P(B|Ai ) P(Ai )
Preuve Il suffit d’employer la formule précédente en exploitant celle des probabilités to-
tales : X
P(B) = P(B|Ai ) P(Ai )
i∈I

C
En pratique, lorsqu’on considère une partition de type {A, A }, cette formule devient :
P(B|A) P(A)
P(A|B) =
P (B|A) P(A) + P (B|AC ) P(AC )
Exemple 1.2.14 (Urne avec un dé équilibré et un dé truqué)

Une urne contient deux dés : l’un est équilibré et l’autre donne systématiquement un 6. On
choisit un dé dans l’urne et on le lance. On suppose que le dé lancé donne un 6, déterminons
la probabilité que ce dé soit équilibré.
Notons A l’événement "le dé choisi est équilibré". On a P (A) = P(AC ) = 1/2.
Notons B l’événement "le dé lancé donne un 6"’. On veut mesurer P(A|B).
Par la formule de Bayes
P(B|A) P(A)
P(A|B) =
P(B)
avec
1 1
P(B|A)P(A) = ×
6 2
et
1 1 1
P(B) = P(B|A)P(A) + P(B|AC )P(AC ) = × + 1 ×
6 2 2
Ainsi
1
P(A|B) =
7
1.3 Indépendances
14
1.3.1 Indépendance de 2 événements
Définition 1.3.1
On dit que deux événements A et B de l’espace probabilisé (Ω, F, P) sont indépendants si
P(A ∩ B) = P(A) P(B)
Remarque 1.3.1 Si P(B) > 0, on a alors :

P(A|B) = P(A)
on retrouve la notion intuitive d’indépendance : le fait que B se soit réalisé ne change rien
quant à la probabilité que B se réalise.
Attention : ne pas confondre indépendance et incompatibilité : deux événements in-
compatibles sont rarement indépendants !
Proposition 1.3.2
Si A et B sont des événements indépendants alors A et B C le sont aussi
Preuve Puisque Ω = B ∪ B C
P(A) = P(A ∩ (B ∪ B C )) = P((A ∩ B) ∪ (A ∩ B C ))
Or A ∩ B) et (A ∩ B C ) sont deux évènements incompatibles,
P(A) = P(A ∩ B) + P(A ∩ B C ) = P(A) P(B) + P(A ∩ B C )
Ainsi
P(A ∩ B C ) = P(A) (1 − P(B)) = P(A) P(B C )

C C C
Remarque 1.3.2 On a aussi A et B sont indépendants ainsi que A et B
1.3.2 Indépendance 2 à 2 et Indépendance mutuelle
Définition 1.3.3
On dit que les événements d’une famille quelconque (Ai )i∈I d’événements de l’espace
probabilisé (Ω, F, P) sont
(i) 2 à 2 indépendants, si pour tout couple (i, j) ∈ I × I d’indices distincts Ai et Aj
sont indépendants ;
(ii) mutuellement indépendants, si pour tout ensemble fini d’indices distincts J ⊂ I,
!
\ Y
P Aj = P(Aj ).
j∈J j∈J
15
Attention : il ne faut pas confondre l’indépendance mutuelle et l’indépendance deux
à deux. Quand on parlera d’une famille d’événements indépendants (sans plus de précisions),
il faudra désormais comprendre mutuellement indépendants.
Proposition 1.3.4
Si (Ai )i∈I est une famille d’événements mutuellement indépendants alors, pour toute par-
tie J ⊂ I, la sous-famille (Ai )i∈J est, elle aussi, constituée d’événements mutuellement
indépendants.
Exemple 1.3.5 (Indépendance mutuelle)

Considérons l’espace probabilisé correspondant à deux lancers de pièces et prenons A = {pile
au 1er lancer}, B = {pile au 2nd lancer} et C = {même résultats aux deux lancers}. Les trois
événements sont 2 à 2 indépendants, mais ne sont pas mutuellement indépendants.
Remarque 1.3.3 Soit une famille (A1 , . . . , An ) de n événements, décrits d’une façon ou
d’une autre.
1) Supposons qu’on nous demande de prouver l’indépendance (mutuelle) de cette famille.
Quel est le nombre N de relations que nous aurions à vérifier ?
Réponse :
n
!
X
N = Cn2 + Cn3 + · · · + Cnn−1 + Cnn = Cnk − Cn1 − Cn0 = 2n − n − 1.
k=0
Rien que pour n = 10 événements, il y aurait déjà plus de 1000 relations à vérifier ! Ceci
n’est bien sûr pas raisonnable. En fait, c’est le contexte qui dicte si l’on a affaire à une
famille d’événements indépendants : c’est typiquement le cas lorsqu’on a une répétition
d’épreuves (lancers successifs d’une pièce, etc.), le résultat de chacune d’entre elles
n’ayant aucune espèce d’influence sur le résultat des autres.
2) La formule de Poincaré se simplifie grandement en cas d’événements indépendants. En
effet, la probabilité qu’au moins l’un d’entre eux se réalise est toujours égale à :
P(A1 ∪ · · · ∪ An ) = 1 − P((A1 ∪ · · · ∪ An )C ) = 1 − P(AC C

1 ∩ · · · ∩ An )
et grâce à l’indépendance
P(A1 ∪ · · · ∪ An ) = 1 − P(AC C
1 ) . . . P(An ). = 1 − (1 − P(A1 )) . . . (1 − P(An )).
1.4 Exemples d’espaces probabilisés

1.4.1 Le cas discret : Ω fini ou dénombrable
Soit Ω un ensemble fini ou dénombrable, F = P(Ω) et P une probabilité sur (Ω, F).
16
Définition 1.4.1
Pour tout ω ∈ Ω, on introduit les probabilités élémentaires
pω = P({ω})
Théorème 1.4.2
La famille (pω )ω∈Ω est une famille de réels positifs, sommable et de somme égale à 1.
Preuve pω = P({ω}) ∈ [0, 1] donc pω ∈ R+ .

Cas fini : Ω = {ω1 , . . . , ωn } avec ω1 , . . . , ωn deux à deux disjoints, et
n n
!
X X [
pω = P({ωi }) = P {ωi } = P(Ω) = 1.
ω∈Ω i=1 i=1
Cas denombrable : Ω = {ωn ; n ∈ N} avec ωn deux à deux disjoints, et

+∞ +∞
!
X X [
pω = P({ωn }) = P {ωn } = P(Ω) = 1.
ω∈Ω n=0 n=0
Théorème 1.4.3
Si (pω )ω∈Ω est une famille de réels positifs, sommable et de somme égale à 1, alors il existe
une unique probabilité P sur (Ω, F) vérifiant :
∀ω ∈ Ω, P({ω}) = pω
De plus, celle-ci est déterminée par

X
∀A ⊂ Ω, P(A) = pω
ω∈A
Preuve Supposons que P est une probabilité solution. Pour tout A ⊂ Ω, cet évènement est
une réunion disjointe d’évènements élémentaires :
[
A= {ω}
ω∈A
et donc, que A soit fini ou dénombrable

X
P(A) = pω .
ω∈A
17
La probabilité P est donc déterminée de façon unique. Supposons P : P(Ω) → R+ définie
par : X
∀A ⊂ Ω, P(A) = pω .
ω∈A
L’application P est bien définie à valeurs dans R+ , et P(Ω) = 1 car par hypothèse la
S somme
de pω vaut 1. Soit (An )n∈N une suite d’événements deux à deux disjoints et A = +∞ n=0 An .
Par sommation par paquet
X +∞ X
X
pω = pω
ω∈A n=0 ω∈An
et donc
+∞
X
P(A) = P(An )
n=0

Notons δω la mesure de Dirac au point ω :

1 si ω ∈ A
∀A ⊂ Ω, δω (A) =
0 sinon.
On peut exprimer la probabilité P comme une somme de Dirac :

X
P= p ω δω .
ω∈Ω
On a alors, pour g : Ω → R mesurable, positif ou P−intégrable,

Z X
g dP = pω g(ω)
Ω ω∈Ω
Exemple 1.4.4 (Lois usuelles discrètes)
1) Loi uniforme sur Ω = {1, 2, . . . , n}, on est ici dans le cas où Ω est fini et que les ω sont
équiprobables, c’est à dire :
1 1
pω = = .
Card(Ω) n
On obtient alors la règle d’équiprobabilité :
nombre de cas f avorables à A Card(A) #A
P(A) = = = .
nombre de cas possible Card(Ω) #Ω
Le lancé d’un dè à six faces équilibré est modélisé par un tel espace probabilisé (n = 6).
2) Loi de Bernoulli de paramètre p, sur Ω = {0, 1} décrit le comportement d’une expé-
rience aléatoire qui possède deux résultats possibles traditionnellement appelés succès
représenté par {1} et échec par {0} :
p1 = P({1}) = p, et p0 = P({0}) = (1 − p)
18
3) Loi binomiale de paramètre n ∈ N∗ , p ∈ [0, 1] sur Ω = {0, 1, . . . , n} :
pk = P({k}) = Cnk pk (1 − p)n−k , pour k ∈ {0, 1, . . . , n}
pk est la probabilité d’obtenir k succès exactement au cours de n tirages indépendants,

sachant que la probabilité de succès lors d’un tirage est égale à p.
4) Loi géométrique sur Ω = N∗ de paramètre p (0 < p < 1) correspond au modèle sui-
vant : on considère une épreuve de Bernoulli dont la probabilité de succès est p et celle
d’échec(1 − p). On renouvelle cette épreuve de manière indépendante jusqu’au premier
succès. La probabilité d’obtenir le premier succès exactemen au nième épreuve est :
pn = (1 − p)n−1 p
5) Loi de Poisson sur Ω = N de paramètre λ > 0 :
λk −λ
pk = P({k}) = e pour k ∈ N
k!
Cette loi de probabilité permet de mesurer le nombre d’événements qui se produisent
dans un intervalle de temps donné, lorsque ces événements sont plutôt rares et indé-
pendants.
1.4.2 Le cas continu : Ω = R ou Rd

Ici F est la tribu engendré par les intervalles de R ou les rectangles de Rd , qui sont des
boréliens. On peut définir une mesure de probabilité sur Ω à partir d’une densité f : Ω → R+ ,
satisfaisant les conditions suivantes :
• f est borélienne,
• R∀ω ∈ Ω, f (ω) ≥ 0,
• Ω f dλ = 1, où λ est la mesure de Lebesgue sur Ω.
La mesure de probabilité P associé à la densité f est donnée par :
Z Z
P(A) = f dλ = f (x) dx.
A A
On a alors pour toute fonction mesurable g : Ω → R positive ou P-intégrable,

Z Z
g dP = g(x) f (x) dx.
Ω Ω
Exemple 1.4.5 Lois usuelles continues
1) Loi uniforme sur [a, b], avec a, b ∈ R, a < b :
1
f (x) = 1[a,b] (x)
b−a
19
2) Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R, σ 2 :
1 (x−m)2
f (x) = √ e− 2σ 2
2πσ 2
Elle est dite loi normale centrée, réduite si m = 0 et σ = 1.
3) Loi exponentielle de paramètre λ > 0 :
f (x) = λeλ x 1[0,+∞[ (x)
20
Chapitre 2
Variables aléatoires
En pratique, à l’issue de la réalisation d’une expérience aléatoire, on s’intéresse à une

certaine fonction de ce résultat. Considérons par exemple l’expérience qui consiste à observer,
pour chacune des n pièces produites par une machine, si la pièce est défectueuse ou non. On
attribue 1 à une pièce défectueuse et la valeur 0 à une pièce en bon état. L’ensemble des
épreuves ou l’univers associé à cette expérience est Ω = {0, 1}n . Ce qui intéresse le fabricant
est la proportion de pièces défectueuses produites par la machine.
Introduisons donc une fonction de Ω dans R qui à tout ω = (ω1 , ω2 , . . . , ωn ) de Ω associe
le nombre : n
X ωi
X(ω) = ,
i=1
n
qui correspond à la proportion de pièces défectueuses associée à l’observation de ω. Une telle
fonction X définie sur Ω et à valeurs dans R s’appelle une variable aléatoire réelle.
2.1 Variables aléatoires discrètes

2.1.1 Définition
Définition 2.1.1
On appelle variable aléatoire discrète définie sur l’espace probabilisé Ω et à valeurs dans
un ensemble E toute application X : Ω → E vérifiant :
1) l’ensemble des valeurs prises X(Ω) est fini ou dénombrable ;
2) ∀x ∈ X(Ω), X −1 ({x}) = {ω ∈ Ω|X(ω) = x} est élément de la tribu F.
Lorsque E = R, on parle de variable aléatoire réelle.
Exemple 2.1.2 On lance deux dés, et on note X la somme des chiffres affichés. La variable
aléatoire discrète X est à valeurs dans E = {2, 3, . . . , 12}.
Exemple 2.1.3 On lance deux pièces de monnaies, et on note X le nombre de "Pile" obte-
nue. La variable aléatoire discrète X est à valeurs dans E = {0, 1, 2}.
21
Exemple 2.1.4 On tire avec remise n boules dans une urne contenant des boules blanches
et rouges en proportion p et q = (1 − p) respectivement. On note X le nombre de boules
blanches obtenues dans un tirage, X est une variable aléatoire discrète à valeurs dans E =
{0, 1, . . . , n}.
Exemple 2.1.5 On lance une pièce de monnaie biaisée indéfiniment, c’est à dire que la
probabilité d’obtenir "Pile" est égale à p ∈]0, 1[ (P({P ile}) = p) ,et la probabilité d’obtenir
"Face" est égale à q = (1 − p) (P({F ace}) = q). On suppose que les différentes lancers sont
indépendantes les unes des autres. On note N le nombre de lancers nécessaires pour obtenir
le premier "Pile". La variable aléatoire discrète N est à valeurs dans E = N∗ .
Exemple 2.1.6 On lance indéfiniment un dé et l’on note Xn la valeur obtenue lors du n-
ième lancer. (Xn )n≥1 est une suite de variables aléatoires discrètes. On pose :
T = min (n ∈ N∗ |Xn = 6) et T = +∞ si le min porte sur l0 ensemble vide
T est une variable aléatoire discrète à valeur dans N∗ ∪ {+∞}. La variable aléatoire T cor-
respond au temps d’attente du premier 6.
2.1.2 Evénements valeurs
Définition 2.1.7
Soit X : Ω → E une variable aléatoire discrète. Pour tout x ∈ E, on note (X = x)
l’événement
X −1 ({x}) = {ω ∈ Ω|X(ω) = x}
Il s’agit bien d’un événement par définition d’une variable aléatoire discrète et l’on peut
en calculer la probabilité
P(X = x)
Exemple 2.1.8 On lance deux dés et X désigne la somme de leurs valeurs. L’événement
(X = 12) correspond au cas où les deux dés valent 6, c’est à dire (X = 12) = X −1 ({12}) =
{(6, 6)}.
Remarque 2.1.1 (X ∈ A) est bien un événement. En effet, X(Ω) étant au plus dénom-
brable, [
(X ∈ A) = (X = x)
x∈X(Ω)∩A
est une réunion au plus dénombrable d’événements. On peut alors calculer la probabilité
P(X ∈ A).
Définition 2.1.9
Si X est une variable aléatoire discrète réelle et si a ∈ R, on introduit l’événement
(X ≤ a) = X −1 (] − ∞, a]) = {ω ∈ Ω|X(ω) ≤ a}
On peut aussi définir (X < a), (X ≥ a), . . . et calculer leur probabilité.
22
Figure 2.1 – Variable aléatoire X à valeurs dans l’espace d’état E. La mesure PX , loi de
probabilité de X sur l’espace mesurable (E, E) se déduit de la mesure P sur Ω.
2.1.3 Loi d’une variable aléatoire

Une variable aléatoire ne pouvant prendre qu’un nombre dénombrable de valeurs est
dite discrète. Pour une telle variable aléatoire X, qui prend ses valeurs dans l’ensemble
E = {xi , i = 1, 2, . . .}, on peut définir sa loi de probabilité PX par les données des valeurs
pX
i ≥ 0 définies par :
pX
i = PX (xi ) = P(X = xi ), i = 1, 2, . . .
En effet, l’écriture P(X = xi ) est tout simplement :
P(X = xi ) = P({X −1 (xi )}) = P({ω ∈ Ω, X(ω) = xi }), i = 1, 2, . . .
PX est une mesure de probabilité sur (E, P(E)), et donc on a :

∞
X ∞
X
pX
i = PX (xi ) = 1.
i=1 i=1
Exemple 2.1.1 La loi de probabilité d’une variable aléatoire X à valeurs dans N est donnée
par les réelles pi = cλi /i!, i = 0, 1, 2, . . . où X est un réel positif. On veut calculer :
a) la constante c pour qu’on aît bien une mesure de probabilité,
b) P({X = 0}),
c) P({X > 2}),
P∞
Pour calcule la constante c, on utilise le fait que i=0 pi = 1, et on a l’égalité suivante :
∞
X λi
c = 1, d’où c = e−λ .
i=0
i!
Ce qui donne pour la question b) :
λ0
P({X = 0}) = p0 = e−λ = e−λ .
0!
23
Et pour la question c), on a :
P({X > 2}) = 1 − P({X ≤ 2})
= 1 − P({X = 0}) − P({X = 1}) − P({X = 2})
λ2
= 1 − e−λ − λe−λ − e−λ
2
2.1.4 Lois usuelles des variables aléatoires discrètes

Variable de Bernoulli
Une variable aléatoire suivant la loi de Bernoulli est appelée variable de Bernoulli. La loi
de Bernoulli est la loi de la variable aléatoire qui code le résultat d’une épreuve de Bernoulli
de la manière suivante : 1 pour "succès", 0 pour "échec". On a :
p(0) = p0 = P({X = 0}) = 1 − p (2.1)
p(1) = p1 = P({X = 1}) = p (2.2)
où le paramètre p, 0 ≤ p ≤ 1, est la probabilité d’obtenir un succès.
Variables binomiales
Considérons maintenant n épreuves indépendantes de Bernouilli, chacune ayant p pour
probabilité de succès et (1p) pour probabilité d’échec. La variable aléatoire X qui compte
le nombre de succès sur l’ensemble des n épreuves est dite variable aléatoire binomiale de
paramètres (n, p). Une variable de Bernoulli est donc une variable binomiale de paramètres
(1, p). La loi de probabilité d’une variable aléatoire binomiale de paramètres (n, p) est donnée
par :
p(k) = pk = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n (2.3)
C’est bien une mesure de probabilité car :
n
X n
X
pi = Cnk pk (1 − p)n−k = [p + (1 − p)]n = 1.
k=0 k=0
Variables aléatoires géométriques

On réalise une série d’expériences indépendantes de Bernouilli de paramètre p, 0 < p < 1,
et on continue l’expérience jusqu’à l’obtention du premier succès à la n-ième expérience. Si
l’on désigne par X le nombre d’épreuves nécessaires jusqu’à obtenir ce résultat (i.e. le premier
succès à la n-ième épreuve), on a :
P(X = n) = (1 − p)n−1 p, n = 1, 2, . . . (2.4)
L’évènement {X = n} se traduit par le fait que les (n − 1) premiers épreuves soient des
echecs et le n–ième devra être un succès. On peut vérifier que c’est bien une mesure de
probabilité car :
∞ ∞
X X p
P(X = n) = p (1 − p)n−1 = =1
n=1 n=1
1 − (1 − p)
24
Les variables aléatoires X dont la loi est donnée par 2.4 sont appelées variables aléatoires
géométriques (ou de Pascal) de paramètre p.
Exemple 2.1.2 Une urne contient N boules blanches et M noires. On tire des boules une
par une avec remise jusqu’à l’apparition d’une boule noire.
a) Quelle est la probabilité qu’il faille exactement n tirages ?
b) Quelle est la probabilité qu’il faille au moins k tirages ? (la première boule noire tirée
est à partir du k–ième tirage).
Soit X le nombre de tirages nécessaires jusqu’au premier tirage de la boule noire. X est
une variable aléatoire géométrique de paramètre p = MM +N
.
a) Calcul de P(X = n) :
n−1
M N n−1

N M
P(X = n) = =
M +N M +N (M + N )n
b) Calcul de P(X ≥ k) :
∞ n−1
X N M
P(X ≥ k) =
n=k
M +N M +N
"
X ∞ n−1 X k−1 n−1 #
M N N
= −
M +N n=1
M + N n=1
M +N
" k−1 #
1 − MN+N

M 1
= −
M +N 1 − MN+N 1 − MN+N
k−1
N
= .
M +N
On peut obtenir directement ce résultat puisque la probabilité qu’il faille au moins k
essais pour obtenir un premier succès est égale à celle de n’avoir que des échecs sur les
k1 premières épreuves, c’est à dire :
P(X ≥ k) = (1 − p)k−1 .
Variables aléatoires binomiales négatives

On exécute une série d’épreuves indépendantes ayant chacune une probabilité p d’obtenir
un succès, 0 < p < 1, jusqu’à obtenir d’un total de r succès. Soit X le nombre d’épreuves
nécessaires pour atteindre ce résultat. On a :
r−1 r
P(X = n) = Cn−1 p (1 − p)n−r , n = r, r + 1, . . . (2.5)
Ce calcul de probabilité se traduit par l’obtention du r–ième succès lors de la n–ième épreuve,
et il a fallu r1 succès lors des n1 premières épreuves, dont la probabilité est donnée par
l’expression suivante :
r−1 r−1
Cn−1 p (1 − p)n−r ,
et il faut que la n–ième épreuve soit un succès, dont la probabilité est égale à p, d’où le
résultat donnée par 2.5, car les épreuves sont indépendantes.
25
Variables aléatoires hypergéométriques
On tire sans remise un échantillon de n boules d’une urne en contenant N , desquelles N p
sont blanches et N N p noires. Soit X le nombre de boules blanches tirées. On a :
CNk p CNn−k
−N p
P(X = k) = , k = 0, 1, 2, . . . , min (n, N p). (2.6)
CNn
S’il existe certaines valeurs de n, N et p pour lesquelles la loi d’une variable aléatoire X vérifie
2.6, dans ce cas la variable est dite variable aléatoire hypergéométrique.
2.1.5 Variable aléatoire de Poisson

Définition 2.1.10 Une variable aléatoire X pouvant prendre pour valeurs 0, 1, 2, . . . est dite
de Poisson avec paramètre λ s’il existe un réel λ > 0 tel que :
λi
pi = P({X = i}) = e−λ , i = 0, 1, 2, . . . (2.7)
i!
L’équation 2.7 définit bien une loi de probabilité car :
∞ ∞
X X λi
pi = e−λ =1
i=0 i=0
i!
Approximation poissonienne de lois binomiales

On peut utiliser les variables aléatoires de Poisson pour approximer des variables aléatoires
binomiales de paramètres (n, p) dans le cas où n soit grand et p assez petit pour que np soit
d’ordre de grandeur moyen.
Considérons X est une variable aléatoire binomiale de paramètres (n, p) et posons λ = np.
On a :
n!
P({X = i}) = pi (1 − p)n−i
(n − i)!i!
i n−i
n! λ λ
= 1−
(n − i)!i! n n
n(n − 1) . . . (n − i + 1) λi (1 − λ/n)n
=
ni i! (1 − λ/n)i
n
λi

1 2 i−1 1 λ
= 1− 1− ... 1 − i 1−
n n n 1 − λ i! n
n
Pour n grand et λ modéré :

n i
λ −λ 1 2 i−1 λ
1− ≈e 1− 1− ... 1 − ≈1 1− ≈ 1.
n n n n n
Donc, dans ce cas, on a :
λi
P({X = i}) ≈ e−λ .
i!
26
Lorsqu’on réalise n épreuves indépendantes ayant p comme probabilité d’obtenir un succès et
si n est grand et p assez petit pour rendre np moyen. Dans ce cas, le nombre de succès est une
variable aléatoire de répartition approximativement poissonienne avec paramètre λ = np. La
détermination de cette grandeur λ sera en général empirique.
Exemples de variables aléatoires de loi de Poisson

Exemple 2.1.3 Dans un livre donné, on suppose qu’il y a des erreurs par page. Admettons
que le nombre d’erreurs par page dans ce livre suive une loi de Poisson de paramètre λ = 12 ,
quelle est la probabilité qu’il y ait au moins une erreur sur cette page.
Soit X la variable aléatoire qui représente le nombre d’erreurs sur cette page. On a :
P({X ≥ 1}) = 1 − P({X = 0})

= 1 − e−1/2
≈ 0.395.
Exemple 2.1.4 On admet que la probabilité de défaut pour un objet fabriqué à la machine
est 0.1. Trouver la probabilité qu’un lot de 10 objets comprenne au plus un élément affecté
d’un défaut.
Le calcul de probabilité (solution exacte) avec la loi binomiale de paramètre (10, 0.1) est :
0 1
C10 (0.1)0 (0.9)10 + C10 (0.1)1 (0.9)9 = 0.7361.
Avec l’approximation donnée par la loi de Poisson de paramètre λ = 0.1 × 10 = 1, on obtient

une valeur de probabilité égale à :
e−λ + e−λ ≈ 0.7358.
2.2 Fonction de répartition

2.2.1 Définition
Définition 2.2.1
On appelle fonction de répartition d’une v.a. X : Ω → R la fonction FX définie sur R par
FX (x) = P({X ≤ x}) = PX (] − ∞, x])
En d’autres termes, F (x) est la probabilité que la variable aléatoire X prenne une valeur
inférieure ou égale à x.
2.2.2 Propriétés des fonctions de répartition

Quelques propriétés de la fonction de répartition :
27
Proposition 2.2.2
a) FX est une fonction non décroissante (croissante),
b) limx→−∞ FX (x) = 0, et limx→+∞ FX (x) = 1.
c) FX est continue à droite, et admet une limite à gauche :
lim FX (x) = P(X < x0 ).

x→x0 ,x≤x0
On dit que la fonction FX est cadlag (continue à droite avec une limite à gauche).
d) En fait si x n’est pas un atome de X, alors alors FX est continue à gauche (donc
continue).
Preuve
a) Elle est dû à la croissance de la mesure de probabilité P. En effet, si x < y, l’événement
{X ≤ x} ⊂ {X ≤ y}, donc
P({X ≤ x}) ≤ P({X ≤ y}), d’où FX (x) ≤ FX (y).
T
b) Soit An =] − ∞, −n], on a ( n An ) = ∅, ensemble de mesure PX nulle, si bien que :
!
\
lim FX (x) = lim FX (−n) = lim PX (An ) = PX An = 0.
x→−∞ n→+∞ n→+∞
n
S
Soit Bn =] − ∞, n], on a ( n Bn ) =] − ∞, +∞[= R, de mesure PX (R) = P(X ∈ R) = 1,
si bien que :
!
[
lim FX (x) = lim FX (n) = lim PX (Bn ) = PX An = P(X ∈ R) = 1.
x→+∞ n→+∞ n→+∞
n
T
c) SoitTAn =] − ∞, x + 1/n], d’intersection ( n An ) =] − ∞, x], ensemble de mesure
PX ( n An ) = FX (x), si bien que :
limy→x+ FX (y) = limn→+∞ FX (x + 1/n) =T PX (X ≤ x + 1/n)
= limn→+∞ PX (An ) = PX ( n An )
= FX (x).
S
S Bn =] − ∞, x − 1/n], de réuion ( n Bn ) =] − ∞, x[, ensemble de mesure
Ensuite,
PX ( n Bn ) = PX (X < x).
Attention : P(X < x) peut être distinct de P(X ≤ x) car :
P(X ≤ x) − P(X < x) = P({X ≤ x}\{X < x}) = P(X = x)
qui peut être non nul si la loi de X a un atome en x. On a alors :
limy→x− FX (y) = limn→+∞ FX (x − 1/n) =TPX (X ≤ x − 1/n)
= limn→+∞ PX (Bn ) = PX ( n Bn )
= P(X < x).
28
d) On constate que si P(X = x) = 0, alors P(X < x) = P(X ≤ x) et on la continuité à
gauche manquante.

Remarque 2.2.1 Toute fonction FX : R → [0, 1] qui est croissante continue à droite et avec
une limite à gauche en tout point et telle que :
lim FX (t) = 0, et lim FX (t) = 1,
t→−∞ t→+∞
est la fonction de répartition d’une certaine variable aléatoire X. De plus l’ensemble des
points où la fonction FX a un saut est l’ensemble des atomes de X.
2.2.3 Calcul de probabilité avec la f. r.

Pour alléger la notation, on note simplement par F la fonction de répartition FX de la variable
aléatoire X quand il n’y a pas d’ambiguïté.
Tous les calculs de probabilité concernant la variable aléatoire X peuvent être traités avec la
fonction de répartition. Par exemple.
P (x < X ≤ y) = F (y) − F (x), pour tout x < y (2.8)
On peut obtenir ce résultat en écrivant l’évènement {X ≤ y} comme union de deux événe-
ments disjoints :
{X ≤ y} = {X ≤ x} ∪ {x < X ≤ y},
ainsi,
P ({X ≤ y}) = P ({X ≤ x}) + P ({x < X ≤ y})
d’où l’équation 2.8.
Pour le calcul de P({X < y}) on peut écrire, en utilisant encore une fois la propriété de
continuité

1
P ({X < y}) = P lim X ≤ y −
n→∞ n

1
= lim P X ≤y−
n→∞ n

1
= lim F y −
n→∞ n
On remarquere que P({X < y}) n’est pas nécessairement égal à F (y) puisque cette valeur
comprend également la probabilité P({X = y}).
Exemple 2.2.1 La fonction de répartition de la variable aléatoire X est donnée par :

 0 x<0
 x2


 0≤x<1
2
F (x) = 3 1≤x<2
11
2≤x<3



 12
1 3≤x

29
Calculer
a) P({X < 3}),
b) P({X = 1}),
c) P X > 21 ,

d) P({2 < X ≤ 4}),

Solution aux calculs de probabilités :
a)
1 1 11
P({X < 3}) = lim P X ≤3− = lim F 3− = .
n n n n 12
b)
P({X = 1}) = P({X ≤ 1}) − P({X < 1})

1
= F (1) − lim F 1 −
n n
2 1 1
= − = .
3 2 6
c)

1 1
P X> = 1−P X≤
2 2

1 3
= 1−F = .
2 4
d)
1
P({2 < X ≤ 4}) = F (4) − F (2) = .
12
2.2.4 Cas des variables aléatoires discrètes

On peut exprimer la fonction de répartition F d’une variable aléatoire discrète en fonction
des valeurs prises par sa loi de probabilité pi :
X
F (x) = pi
xi ≤x
Dans le cas où les valeurs possibles de la variable aléatoire X sont x1 , x2 , . . . avec x1 < x2 <
. . . , la fonctionde rérépartition est une fonction en escalier. Ses valeurs seront constantes sur
les intervalles [xi−1 , xi [, et elle aura unsaut de taille pi en xi , i = 1, 2, . . . . Dans le cas par
exemple d’une variable aléatoire X dont la loi est donnée par :
1 1 1 1
p(1) = p1 = p(2) = p2 = p(3) = p3 = p(4) = p4 =
4 2 8 8
30
sa fonction de répartition sera

 0 x<1
 14 1 ≤ x < 2



3
F (x) = 4 2 ≤x <3
7
3≤x<4


 8


1 4≤x
2.2.5 Cas des variables aléatoires à densité
Définition 2.2.3
Soit (X, F) un espace mesurable muni de deux mesures µ et ν. On dit que µ est absolument
continue par rapport à ν si pour tout A ∈ F, on a :
ν(A) = 0 ⇒ µ(A) = 0.
On le note µ << ν.
Théorème 2.2.4 (Radon Nykodim)

Si µ << ν, il existe f : (X, F) → R mesurable telle que pour tout A ∈ F, on a :
Z
µ(A) = f dν.
A
La fonction f s’appelle la densité de µ par rapport à ν. De plus :

• si µ est une mesure finie alors f ∈ L1 (ν).
• On a le lien suivant entre les intégrales par rapport à ν et celles par rapport à ν :
Z Z
gdµ = g f dν.
De façon formelle, on écrit : "dµ = f dν"
Les lois des v.a. sont des mesures sur l’espace (R, B(R)). Cet espace a pour mesure de
référence la mesure de Lebesgue λ. On peut donc se demander s’il y a une relation d’absolue
continuité entre la loi PX d’une v.a. X et la mesure de Lebesgue λ sur R.
Ce n’est évidemment pas toujours vrai. Par exemple la loi de Poisson P(α) n’est pas absolu-
ment continue par rapport à λ, puisque X ∼ P(α) :
αn −α
PX ({n}) = e , alors que λ({n}) = 0.
n!
31
Plus généralement, aucune loi discréte n’est absolument continue par rapport à λ puisque
qu’une telle loi PX a des atomes :
PX ({x}) = P(X = x) => 0, alors que λ({x}) = 0.
Par définition, les lois qui sont absolument continues par rapport à la mesure de Lebesgue
sont les lois à densité :
Définition 2.2.5
Une v.a. X est une variable aléatoire de densité f si PX << λ et
Z Z b
PX (A) = P(X ∈ A) = f dλ, PX ([a, b]) = P(X ∈ [a, b]) = f (x) dx.
A a
Dans les calculs d’intégration, on a alors l’écriture symbolique dPX = f (x) dx
R
Remarque 2.2.2 On observe que la densité f doit vérifier f (x) ≥ 0 et R f (x) dx = 1.
Exemple 2.2.6 Pour la variablea aléatoire X qui suit :
• la loi normale (ou de Gauss) de paramètres µ (l’espérance) et σ 2 (la variance) :
1 1 x−µ 2
f (x) = √ e− 2 ( σ )
σ 2π
• la loi uniforme sur [a, b] :
1
1[a,b] (x).
f (x) =
b−a
• la loi expomentielle de paramètre α > 0 :
f (x) = αe−α x 1R+ (x).
• la loi de Cauchy de paramètres x0 (la position) et a (l’échelle) :
1
f (x) = h i
x−x0 2

πa 1 + a
Dans le cas où la loi de la variable aléatoire admet une densité f , elle est reliée à la fonction
de répartition FX de la façon suivante :
Proposition 2.2.7
Si X est une v.a. de densité f , sa fonction de répartition FX vérifie :
Z x
1) ∀x ∈ R, FX (x) = f (t) dt.
−∞
2) FX est continue sur R.
3) Si f est continue au point x0 , alors FX est dérivable en x0 de dérivée FX (x0 ) =
f (x0 ).
D’aprés 2), la fonction de répartition est toujours continue. De là, vient le nom qu’on
donne parfois aux variables aléatoires à densité : variables aléatoires continues.
32
Preuve Puisque X a pour densité f , et comme
FX (b) = P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]∪]a, b]) = FX (b) + P(X ∈]a, b]),
on a pour tous réels a < b :
Z b
FX (b) − FX (a) = P(X ∈]a, b]) = f (t) dt.
a
1) On applique la monotonie séquentielle des probabilités avec b = x fixxé et a = −n pour
chaque n ∈ N, tel que n > −x. La suite d’évènements :
An = {ω, X(ω) ∈] − n, x]}; n > −x,
est croissante pour l’inclusion et de réunion A = {ω, X(ω) ∈] − ∞, x]} = {X ≤ x}.
Par la propriété de continuité monotone séquentielle (ou par convergence dominée), on
a P(An ) ↑ P(A), d’où
Z x Z x
FX (x) = P(X ≤ x) = P(A) = lim P(An ) = lim f (t) dt = f (t) dt
n→+∞ n→+∞ −n −∞
en notant que l’intégrale généralisée de la densité f converge en −∞.
2) On fixe x0 ∈ R quelconque. D’abord FX est continue à droite en tout point car c’est
une fonction de répartition.
Il reste à voir la continuité à gauche. Soit xn < x0 une suite croissante qui converge
vers x0 . Il faut vérifier
lim FX (xn ) = FX (x0 ).
n→+∞
On a Z x0 Z
FX (x0 ) − FX (xn ) = f (t) dt = f (t)1[xn ,x0 ] (t) dt
xn
Or |f (t)1[xn ,x0 ] (t) ≤ f (t), intégrable, puisque f est une densité, puis pour presque
chaque t ∈ R, f (t)1[xn ,x0 ] (t) → 0 puisque limn→+∞ 1[xn ,x0 ] (t) = 1[x0 ,x0 ] (t).
Le théorème de convergence dominée de Lebesgue s’applique et donne
Z
lim (FX (xn ) − FX (x0 )) = 0 dt = 0.
n→+∞
ce qui est le résultat souhaité.

3) Comme par hypothèse f est continue en x0 , elle est définie sur tout un voisinage de
x0 et donc sur un intervalle [a, b] qui contient x0 . La continuité de f en x0 s’écrit :
∀ε > 0, ∃δ > 0, tel que ]x0 − δ, x0 + δ[⊂]a, b[ et
∀t ∈]x0 − δ, x0 + δ[, |f (t) − f (x0 )| < ε.
Z x0 +h
Pour tout h tel que 0 < |h| < δ, on a alors F (x0 + h) − F (x0 ) = f (t) dt. D’où :
x0
Z x0 +h Z x0 +h
|F (x0 +h)−F (x0 )−hf (x0 )| = (f (t) − f (x0 )) dt ≤ |f (t)−f (x0 )| dt ≤ |h|ε.
x0 x0
En divisant par h puis en faisant h → 0, on constate que FX est dérivable en x0 , de

dérivée FX0 (x0 ) = f (x0 ).

33
2.2.6 Espérance d’une variable aléatoire
Soit (Ω, F, P) un espace de probabilisé et X : Ω → R+ une variable aléatoire réelle
positive.
Définition 2.2.8
L’intégrale de X par rapport à la mesure P est appelée son espérance.
Z Z
E[X] = X(ω) dP(ω) = X dP.
Ω
Une variable X ≥ 0 est dite intégrable si son espérance est finie.

Un exemple de variable aléatoire positive est X = 1A où A ∈ F est un évènement. On a
alors : Z Z
E[X] = E[1A ] = 1A dP = dP = P(A).
A
La variable 1A qui indique si l’évènement A se réalise ou non a pour espérance P(A).
Définition 2.2.9
Soit X une variable de signe quelconque. Elle est dite intégrable si la variable aléatoire
positive |X| est d’espérance (forcément définie) finie. On note alors :
Z
E[|X|] = |X| dP.
La quantié |E[|X|] s’appelle aussi le moment d’ordre 1.

On peut formuler de la façon suivante :
X est intégrable si son moment d’ordre 1 est fini.
Définition 2.2.10
Une variable aléatoire X intégrable est dite centrée si E[X] = 0.
Conséquence : des propriétés de l’intégration, on déduit pour des variables aléatoires inté-
grables X, Y et des réels a, b :
• E[aX + bY ] = aE[X] + bE[Y ] (linéarité de E).
• Inégalité de Markov : si X est une variable aléatoire positive
E[X]
P(X ≥ t) ≤
t
• L’espérance n’est rien d’autre que l’intégrale (au sens de Lebesgue) de la fonction
mesurable par rapport à la mesure de probabilité P.
34
Espérance d’une variable aléatoire discrète
Soit (Ω, F, P) un espace de probabilisé et X : Ω → R une variable aléatoire avec X(Ω)
discret. La loi de X est donnée par la mesure discrète :
X
PX = P(X = x)δx .
x∈X(Ω)
La loi est une somme de mesures de Dirac : en chaque atome x ∈ X(Ω) il y a la masse
P(X = x). Alors X est intégrable si et seulement si :
X
E[|X|] = |x|P(X = x) < +∞
x∈X(Ω)
P
et dans ce cas, E[X] = x∈X(Ω) xP(X = x) où la somme est au plus dénombrable car X(Ω)
est discret (la v.a. X est discrète).
Si h : R → R est mesurable, alors h(X) est une variable discrète, elle est intégrable si et
seulement si : X
E[|h(X)|] = |h(x)|P(X = x) < +∞.
x∈X(Ω)
Son espérance est alors :

X
E[h(X)] = h(x)P(X = x) < +∞.
x∈X(Ω)
Exemple 2.2.11 Lois discrètes classiques
• Si X = c est une v.a. constante, sa loi est PX = δc . Son espérance est :

Z Z
E[X] = X dP = c dP = c,
Ω Ω
résultat qu’on retrouve en utilisant la loi de X :

Z Z
E[X] = x dPX = xdδc (x) = c.
R R
• Soit X de loi de Bernoulli de paramètre p, (X ∼ B(p)). Son espérance est :
E[X] = 1 × p + 0‘ × (1 − p) = p.
• Soit X de loi uniforme sur l’ensemble fini {x1 , . . . , xn }. Son espérance est :
x1 + · · · + xn
E[X] = .
n
• Soit X de loi binomiale de paramètres n, p, X ∼ B(n, p). Son espérance est :
n
X
E[X] = kCnk pk (1 − p)n−k = np.
k=0
35
• Soit X de loi géométrique de paramètre p ∈]0, 1[, X ∼ G(p). Son espérance est :
+∞
X 1
E[X] = kp(1 − p)k−1 = .
k=1
p
• Soit X de loi de Poisson de paramètres λ, X ∼ P(λ). Son espérance est :

+∞
X λk
E[X] = k e−λ = λ.
k=0
k!
Espérances de variables aléatoires à densités

Soit X : Ω → R une variable aléatoire de densité f . La loi de X est donnée par la mesure
de forme intégrale : Z Z
PX (A) = f dλ f (x) dx, ∀A ∈ B(R).
A A
où f est une fonction mesurable positive d’intégrale 1. Alors X est intégrable si et seulement
si : Z
E[|X|] = |x|f (x) dx < +∞
R
R
et dans ce cas E[X] = R xf (x) dx.
Si h : R → R est mesurable, alors h(X) est une variable aléatoire, elle est intégrable si et
seulement si : Z
|h(x)|f (x) dx < +∞.
R
Son espérance est alors : Z
E[h(X)] = h(x)f (x) dx.
R
Exemple 2.2.12 Lois à densité classiques
• Soit X suit une loi uniforme sur l’intervalle [a, b](−∞ < a < b < +∞) si elle a une
densité f constante sur cet intervalle et nulle en dehors. Sa densité est alors :
1
1 b−a
si t ∈ [a, b],
f (t) = 1[a,b] (t) =
b−a 0 si t ∈/ [a, b],
Son espérance est :

b+a
E[X] =
2
En fait on peut définir une loi uniforme sur un ensemble borélien A ⊂ R quelconque
1
(pas forcément un intervalle), c’est la loi de densité λ(A) 1A .
• Si la variable aléatoire X suit une loi exponentielle de paramètre α > 0, notée E(α), si
elle admet pour densitée :
f (t) = αe−αt 1[0,+∞[ (t).
36
La loi exponentielle est utilisée pour modéliser un temps d’attente d’un phénomène
aléatoire. Le temps d’attente moyen est alors :
1
E[X] = .
α
• Une variable aléatoire réelle suit une loi de Cauchy de paramètre a ∈ R∗+ , et elle admet
pour densité :
a 1
f (t) =
π a2 + t2
Son espérance n’est pas définie car
Z
a|x|
E[|X|] = 2 2
dx) + ∞,
R π(a + x )
la fonction x/(1 + x2 ) ≈ 1/x n’est pas intégrable en ±∞.

• Une variable aléatoire X suit la loi normale de moyenne µ et de variance σ 2 , X ∼
N (µ, σ 2 ), si elle admet pour densité :
1 1 t−µ 2
f (t) = √ e− 2 ( σ ) .
σ 2π
Son espérance est :
E[X] = µ.
2.3 Convergences monotone et dominée

Dans cette section, on rappelle les théorèmes fondamentaux de Calcul Intégral dans un
contexte probabiliste : convergence monotone, lemme de Fatou et théorème de convergence
dominée.
Définition 2.3.1
On dit que Xn converge vers X presque sûrement (p.s.) si l’ensemble des ω ∈ Ω tel que
Xn (ω) → X(ω) est de probabilité 1 :
P(Xn → X) = 1.
Théorème 2.3.2 (Convergence monotone, Beppo Levi)

Soit Xn une suite croissante de v.a. positives (0 ≤ Xn ≤ Xn+1 ). Soit X = limn→+∞ Xn ,
la limite p.s. de Xn dans [0, +∞]. Alors :
lim E[Xn ] = E[X]

n→+∞
37
Lemme 2.3.3 (Fatou)
Soit Xn une suite de v.a. positives. Alors :
E[lim inf Xn ] ≤ lim inf E[Xn ]

n→+∞ n→+∞
Théorème 2.3.4 (Convergence dominée)

Soit Xn une suite de v.a. telle que Xn → X p.s. quand n → +∞. S’il existe une v.a. Y
intégrable (E[|Y |] < +∞) telle que pour tout n, |Xn | ≤ Y p.s. alors :
lim E[Xn ] = E[X]

n→+∞
Conséquence : si la convergence est dominée, on peut intervertir limite et espérance.
2.4 Moments des variables aléatoires
Définition 2.4.1
Une v.a. X : Ω → R a un moment d’ordre p ≥ 1 si et seulement si
Z
p
E[|X| ] = |X|p dP < +∞.
Ω
Définition 2.4.2
LP (Ω, F, P) = {X : Ω → R|E[|X|p ] < +∞}.
LP (Ω) est un espace véctoriel normé avec pour norme
kXk = (E[|X|p ])1/p .
Proposition 2.4.3
Soient X, Y deux variables aléatoires, on a :
• Inégalité de Hölder : kXY k1 ≤ kXkp kY kq , pour p, q exposants conjugués (1/P +
1/q = 1).
• Inégalité de Cauchy-Schwarz : kXY k1 ≤ kXk2 kY k2 , (p = q = 2).
• Inégalité de Minkowki : kX + Y kp ≤ kXkp kY kp , (1 ≤ p ≤ +∞).
• Si une v.a. est bornée, elle admet des moments de tous les ordres.
38
• Si X possède un moment d’ordre r, pour tout n ≤ r, X possède un moment d’ordre
n.
• (LP (Ω, F, P), k.k ) est un espace vectoriel normé complet, c’est à dire un espace de
Banach.
Définition 2.4.4 (Variance)

Si X ∈ L2 (Ω, F, P), on définit la variance de X par :
var(X) = E[(X − E[X])2 ].

p
On définit aussi l’écart-type σX = var(X).
Remarque 2.4.1 L’espérance d’une variable aléatoire donne la valeur moyenne (au sens
probabiliste) de la variable aléatoire. Sa variance (ou son écart-type) mesure la dispersion des
valeurs de la variable aléatoire autour de sa moyenne.
La définition de la variance est unifiée entre les deux principaux cas (discret et à densité)
grâce à la théorie de la mesure.
∗
• Si X est
P discrète, X(Ω) = {xi , i ∈ I} avec I = {1, . . . , n} ou I = N , la loi de X est
PX = i∈I P(X = xi )δxi , et la variance vaut :
X X
var(X) = (xi − E[X])2 PX ({xi }) = (xi − E[X])2 P(X = xi ).
i∈I i∈I
• Si X est une v.a. de densité f alors la loi de X est la mesure de densité f, dPX = f (x)dx,
et la variance vaut : Z
var(X) = (x − E[X])2 f (x)dx.
R
Propriété 2.4.1 Propriétés de la variance
• var(X) ≥ 0.
• var(X) = E[X 2 ] − E[X]2 (formule de Koenig).
2
• var(aX) = a var(X).
• var(X + b) = var(X), pour toute constante b ∈ R.
• var(X) = 0 si et seulement si X est constante p.s. (et vaut alors E[X]).
Preuve
• Par définition, on obtient tout de suite le résultat.
• Notons par µ = E[X]. En développant la variance on a :
var(X) = E[(X − µ)2 ]

= E[X 2 − 2µX + µ2 ]
= E[X 2 ] − 2µE[X] + µ2
= E[X 2 ] − E[X]2
39
• Pour le troisième point :
var(aX) = E[(aX − E[aX])2 ]
= E[a2 (X − E[X])2 ]
= a2 var(X).
• Pour le quatrième point :
var(X + b) = E[(X + b − E[X + b])2 ]
= E[(X + b − E[X] − b)2 ]
= var(X).
• Si X = c une constante p.s. alors E[X] = c et E[X 2 ] = c2 , si bien que var(X) = 0.
Réciproquement, si var(X) = E[(X − E[X])2 ] = 0, alors la v.a. (X − E[X])2 , positive
et d’espérance nulle, est elle même nulle p.s., c’est à dire X = E[X] p.s.

Définition 2.4.5 (Covariance)

Soient X, Y deux variables aléatoires avec des variances finies, on définit la covariance
de X et de Y par :
cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ].
Remarque 2.4.2
• (X, Y ) → cov(X, Y ) est une application bilinéaire.

• Si X ou Y est centrée alors cov(X, Y ) = E[XY ].
• cov(X, X) = var(X).
Définition 2.4.6
Si X et Y sont deux v.a. avec des moments d’ordre 2 alors :
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).
Preuve Il suffit de développer :

var(X + Y ) = E[(X + Y )2 ] − E[(X + Y )]2
= E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2
= E[X 2 ] + 2E[XY ] + E[Y 2 ] − (E[X])2 − 2E[X]E[Y ] − (E[Y ])2
= E[X 2 ] − (E[X])2 + E[Y 2 ] − (E[Y ])2 + 2E[XY ] − 2E[X]E[Y ]
= var(X) + var(Y ) + 2cov(X, Y ).

Attention, en général, on n’a pas var(X +Y ) = var(X)+var(Y ). Prendre par exemple X = Y .
Par contre on verra que c’est vrai si X et Y sont des v.a. indépendantes.
40
Proposition 2.4.7
p
|cov(X, Y )| ≤ var(X) × var(Y ).
Preuve Pour obtenir l’inégalité de Cauchy-Schwarz, il suffit de remarquer que la fonction

λ → E[(λX −Y )2 ) est un polynôme du second degré qui n’est jamais négatif : son discriminant
∆ = 4(E[XY ])2 − 4E[X 2 ]E[Y 2 ] est donc négatif. L’inégalité de Cauchy-Schwarz en découle
immédiatement : p
E[XY ] ≤ E[X 2 ]E[Y 2 ].
On applique l’inégalité de Cauchy-Schwarz, et on a :
|covX, Y | = |E[(X
p − E[X])(Y − E[Y ])]| p
≤ E[(X − E[X])2 ]E[(Y − E[Y ])2 ] = var(X)var(Y )
Définition 2.4.8
Soit X, Y deux variables aléatoires, leur coéfficient de corrélation est :
cov(X, Y )
ρ(X, Y ) = p ∈ [−1, 1].
var(X)var(Y )
Proposition 2.4.9
Si ρ(X, Y ) = ±1 alors il y a un lien linéaire entre X et Y : Y = aX + b, pour a, b ∈ R.
En plus, on montre que :
cov(X, Y )
a= , b = E[Y ] − aE[X].
varX
Preuve En effet, ρ(X, Y ) = ±1 s’il y a égalité dans l’inégalité de Cauchy-Schwarz. de la

preuve de la proposition (2.4.7). Il est connu que c’est le cas s’il y a une relation linéaire entre
X et Y .
cov(X, Y ) = cov(X, aX + b)
= acov(X, X) + cov(X, b)
= avar(X),
et on en déduit a. Puis comme Y = aX + b, en prenant l’espérance des deux côté, on a
E[Y ] = aE[X] + b, d’où vient l’expression de b.
41
2.5 Indépendances
Dans cette section on considère deux variables aléatoires X et Y définies sur le même
espace Ω fini ou denombrable, muni de la probabilité P. On suppose X et Y à valeurs
respectivement dans E et F , et on a vu plus haut qu’on peut toujours supposer que E et F
sont eux-mêmes finis ou dénombrables. On pose pX Y
i = P(X = i) pour i ∈ E, et pi = P(Y = i)
pour i ∈ F .
On peut aussi considérer le couple Z = (X, Y ) comme une variable aléatoire à valeurs
dans le produit cartésien G = E × F , et on note sa loi pZk = P(Z = k) pour k = (i, j) ∈ G.
On définit enfin la loi conditionnelle de Y si X = i par
Y |X=i
pj = P(Y = j|X = i) si pX
i > 0
Proposition 2.5.1
Il est équivalent de connaître les (pZk : k ∈ G) d’une part, les (pX i : i ∈ E) et les
Y |X=i X
(pj : j ∈ F ) pour les i ∈ E tels que pi > 0 d’autre part, via les formules :
pX pZ(i,j) ,
P
i = j∈F
Y |X=i pZ
pj = (i,j)
pX
, si pX
i > 0
i
Y |X=i

pXi pj si pX
i > 0,
pZ(i,j) =
0 sinon.
Preuve Il suffit de montrer les trois formules de l’énoncé. D’abord, l’ensemble {X = i}

est la réunion (finie ou dénombrable) des ensembles deux-à-deux disjoints {X = i, Y =
j} = {Z = (i, j)} pour j ∈ F , donc la première formule découle de l’axiome (P3). La
deuxième formule vient du calcul des probabilités conditionnelles. Enfin la dernière formule
découle de la deuxième formule si pX X
i > 0, tandis que si pi = P(X = i) = 0 on a a fortiori
P(X = i, Y = j) = p(i,j)Z = 0.
Définition 2.5.2 Les variables aléatoires X et Y sont dites indépendantes si pour toutes
parties A ⊂ E, B ⊂ F on a :
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B).
Proposition 2.5.3
Il y a équivalence entre :
(i) Les variables aléatoires X et Y sont indépendantes.
(ii) On a pZ(i,j) = pX Y
i pj pour tous i ∈ E, j ∈ F .
Y |X=i
(iii) On a pj = pYj pour tout j ∈ F et tout i ∈ E tel que pX
i > 0.
42
(iii) signifie que la loi conditionnelle de Y sachant X = i est égale à la loi a priori de Y , ce
qui correspond bien à l’idée intuitive d’indépendance. Bien entendu, comme la définition de
l’indépendance est symétrique en X et Y , on peut ci-dessus échanger les variables aléatoires
X et Y .
Preuve Pour obtenir (i) ⇒ (ii) il suffit de prendre A = {i} et B = {j} dans la définition
de l’indépendance. Inversement, supposons (ii). En sommant par paquets dans une série à
termes positifs, on obtient pour A ⊂ E et B ⊂ F :
P(X ∈ A, Y ∈ B) = P(Z
P ∈ A × B)
= pZ(i,j) .
P(i,j)∈A×B
p X pY
P
=
Pi∈A Xj∈BP i jY
= i∈A pi j∈B pj
= P(X ∈ A)P(Y ∈ B).
donc on a (i). Enfin, l’équivalence (ii) ⇔ (iii) provient des formules décrites dans la propo-
sition 2.5.1.
Proposition 2.5.4
Supposons les variables aléatoires X et Y sont indépendantes, et soit f et g deux fonctions
réelles sur E et F respectivement, telles que f (X) ∈ L1 et g(Y ) ∈ L1 . Alors le produit
f (X)g(Y ) est aussi dans L1 , et on a :
E[f (X)g(Y )] = E[f (X)]E[g(Y )].
Preuve Exactement comme dans la démonstration précédente, on peut écrire :

! !
X X X X
|f (i)g(j)|pZ(i,j) = |f (i)g(j)|pX Y
i pj = |f (i)|pX
i |f (j)|pYj
(i,j)∈G i∈E,j∈F i∈E j∈F
qui est fini par hypothèse : par suite f (X)g(Y ) appartient à L1 . En utilisant alors (S8), la
même démonstration montre qu’on a les égalités ci-dessus en enlevant les valeurs absolues :
cela donne de la proposition.
Proposition 2.5.5
Supposons que E et F soient contenus dans l’ensemble Z des entiers relatifs. Soit U =
X + Y et pUi = P(U = i). Alors
X X
pUi = pZj,i−j = pZi−j,i
j∈Z i∈Z
En particulier si X et Y sont indépendantes, on a :

X X
pUi = pX Y
j pi−j = pX Y
i−j pj
j∈Z j∈Z
43
Preuve Il suffit d’appliquer (P3) et le fait que {U = i} est la réunion des ensembles deux-
à-deux disjoints {X = j, Y = i − j} pour j ∈ Z, et aussi des {X = i − j, Y = j} pour j ∈ Z.
Proposition 2.5.6
Supposons les variables aléatoires X et Y indépendantes, à valeurs dans E = F = N, et
U = X + Y . Notons gX , gY et gU les fonctions génératrices de X, Y et U . On a alors :
gU = gX gY
Preuve Il suffit de remarquer que gU (s) = E(sU ) = E(sX+Y ) et gX (s) = E(sX ) et gY (s) =
E(sY ) pour s ∈ [0, 1] et d’appliquer la proposition 2.5.4
Exemples
1) Soit X et Y des variables aléatoires indépendantes de lois binomiales respectives B(p, n)

et B(p, m)) (avec le même paramètre p). La fonction génératrice de la variable aléatoire
U = X + Y vérifie :
gU (s) = (l − p + ps)n (l − p + ps)m = (l − p + ps)n+m .
On en déduit alors que X + Y suit la loi binomiale B(p, n + m) (ce que l’on savait déjà
à cause de la construction des lois binomiales).
2) Soit X et Y des variables aléatoires indépendantes de lois de Poisson de paramètres
respectifs θ et λ. La fonction générateice de la variable aléatoire U = X + Y vérifie :
gU (s) = exp θ(s − 1) exp λ(s − 1).
de sorte que X + Y suit la loi de Poisson de paramètre θ + λ.

Jusqu’à présent, nous n’avons considéré que des couples de variables aléatoires. Si on a une
famille finie X1 , . . . , Xn de variables aléatoires à valeurs respectivement dans E1 , . . . , En , tout
ce qui précède s’étend sans difficulté, sauf que les notations deviennent un peu compliquées.
La seule chose pouvant peut-être prêter à confusion est la notion d’indépendance ; nous la
définissons donc ci-dessous :
Définition 2.5.7
Les variables aléatoires X1 , . . . , Xn sont indépendantes (ou, "mutuellement indépen-
dantes") si pour toutes parties A1 ⊂ E1 , . . . , An ⊂ En on a :
n
Y
P(X1 ∈ A1 , . . . , Xn ∈ An ) = P(Xi ∈ Ai )
i=1
44
Pour que la propriété ci-dessus soit satisfaite il faut et il suffit que, en posant Z =
(X1 , . . . , Xn ) (une variable à valeurs dans G = E1 × · · · × En , de loi caractérisée par les
(pZk = P(Z = k), k ∈ G)), on ait :
n
Y
P(X1 ∈ A1 , . . . , Xn ∈ An ) = P(Xi ∈ Ai )
i=1
Enfin, si on a une suite infinie (Xn )n∈N∗ , on pose :
Définition 2.5.8
La suite (Xn )n∈N∗ de variables aléatoires est dite indépendante si pour tout n la famille
finie X1 , . . . , Xn est indépendante.
45
46
Bibliographie
[1] Billingsley, P. (1995) Probability and measure. Wiley Series in Probability and Mathe-
matical Statistics. John Wiley & Sons Inc., New York, third edition.
[2] Durrett, R. (2010). Probability : theory and examples. Cambridge Series in Statistical and
Probabilistic Mathematics. Cambridge University Press, Cambridge, fourth edition.
47

00 S7 Cours Proba Ok

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

00 S7 Cours Proba Ok

Transféré par

Droits d'auteur :

Formats disponibles

Cours probabilités

Année Universitaire 2017 - 2018

Table des matières ii

1 Espaces et mesures de probabilités 1

Espaces et mesures de probabilités

1.1 Espaces probabilisés

Ω = {(B, B), (B, R), (R, B), (R, R)}.

2) On tire successivement deux boules sans remise :

Ω = {(B, R), (R, B), (R, R)}.

3) On tire simultanément deux boules :

Ω = {(B, R), (R, R)}.

1.1.3 La tribu d’évènements F

"est-ce que ω appartient à tel sous-ensemble donné de Ω ?"

Un évènement A est un sous-ensemble de Ω tel qu’un observateur de l’expérience aléatoire

Table 1.1 – Tableau des terminologies ensemblistes et probabilistes

• cas Ω fini ou dénombrable : on prendra la tribu pleine P(Ω), l’ensemble de toutes

Définition 1.1.5 (Tribu)

On appelle les évènements tous les éléments de la tribu F.

En pratique : Ω est fini ou denombrable, on considère en général la tribu pleine P(Ω) :

Aussi (A ∩ B)C = AC ∪ B C donc (A ∩ B) ∈ A, et A\B = A ∩ B C ∈ A.

1 = P(Ω) = P(A) + P(AC ).

d) P(A) ≥ 0 et P(AC ) = 1 − P(A) ≥ 0.

Par contunuité croissante !

Exemple 1.1.15 (Lancer de dé et ne jamais obtenir un 6)

Corrolaire 1.1.16 (Inégalité de Boole)

L’inégalité de Boole en découle par passage à la limite sur n ; en effet

Evènements presque sûrs

Exemple 1.1.18 (Evènement négligeable)

Exemple 1.1.22 (Evènement presque sûr)

1.2 Probabilités conditionnelles

Si P(B) = 0, on convient de poser P(A|B) = 0.

Exemple 1.2.2 (Lancer de dé)

Exemple 1.2.3 (Urne contenant des boules)

1.2.2 Formule des probabilités composées

P(A ∩ B) = P(B) P(A|B),

P (A1 ∩ · · · ∩ An ) = P(A1 ) P(A2 |A1 ) P(A3 |A1 ∩ A2 ) . . . P(An |A1 ∩ · · · ∩ An−1 ),

1.2.3 Formule des probabilités totales

• Si A est un événement de Ω alors {A, AC } est un système complet d’événements.

Exemple 1.2.11 (Urne avec une boule rouge)

An = "le joueur fait son premier six lors du n-ième lancer"

L’événement étudié est

B = "la boule tirée est rouge"

1.2.4 Formule de Bayes

P(A|B) P(B) = P(A ∩ b) = P(B|A) P(A)

Exemple 1.2.14 (Urne avec un dé équilibré et un dé truqué)

P(A ∩ B) = P(A) P(B)

Remarque 1.3.1 Si P(B) > 0, on a alors :

1.3.2 Indépendance 2 à 2 et Indépendance mutuelle

Exemple 1.3.5 (Indépendance mutuelle)

P(A1 ∪ · · · ∪ An ) = 1 − P((A1 ∪ · · · ∪ An )C ) = 1 − P(AC C

1.4 Exemples d’espaces probabilisés

Preuve pω = P({ω}) ∈ [0, 1] donc pω ∈ R+ .

Cas denombrable : Ω = {ωn ; n ∈ N} avec ωn deux à deux disjoints, et

De plus, celle-ci est déterminée par

et donc, que A soit fini ou dénombrable

On peut exprimer la probabilité P comme une somme de Dirac :

On a alors, pour g : Ω → R mesurable, positif ou P−intégrable,

Exemple 1.4.4 (Lois usuelles discrètes)

pk = P({k}) = Cnk pk (1 − p)n−k , pour k ∈ {0, 1, . . . , n}

pk est la probabilité d’obtenir k succès exactement au cours de n tirages indépendants,

5) Loi de Poisson sur Ω = N de paramètre λ > 0 :

1.4.2 Le cas continu : Ω = R ou Rd

On a alors pour toute fonction mesurable g : Ω → R positive ou P-intégrable,