Vous êtes sur la page 1sur 73

Cours de Probabilité

Anouar Ben Kaddour et Skander Hachiha


Table des matières

Introduction générale i

1 Espaces probabilisés 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Operation sur les ensembles . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Expériences aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Vocabulaire probabiliste des événements . . . . . . . . . . . . . . . 9
1.4.3 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4 Événements presque sûr . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Probabilité sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.1 Probabilité uniforme sur un ensemble fini . . . . . . . . . . . . . . 15
1.5.2 Rappel : Formules classiques de dénombrement . . . . . . . . . . . 16
1.6 Application : Modèle de l’urne . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.1 Tirage sans remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Tirage avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 23

2 Variables aléatoires 30
2.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.1 Définitions et propriètés . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.2 Loi de probabilité d’une variable aléatoire . . . . . . . . . . . . . . 32
2.1.3 Espérance d’une variable aléatoire réelle . . . . . . . . . . . . . . . 33
2.1.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 Fonction génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Fonction caractéristique d’une v.a réelle . . . . . . . . . . . . . . . 37
2.4 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . 38

ii
TABLE DES MATIÈRES iii

3 Vecteurs aléatoires 42
3.1 V.a et lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.1 Loi de probabilité d’une v.a . . . . . . . . . . . . . . . . . . . . . . 42
3.1.2 Fonction de répartition d’une v.a . . . . . . . . . . . . . . . . . . . 42
3.2 V.a discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 V.a absolument continues . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 Moments d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Espérance d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . 47
3.4.2 Covariance de deux v.a réelles . . . . . . . . . . . . . . . . . . . . . 49
3.5 Fonction carctéristique d’une v.a . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 V.a indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Somme de v.a réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.7.1 Shéma de Bernoulli et autres exemples . . . . . . . . . . . . . . . . 52
3.8 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.9 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Convergence de suites de variables aléatoires 58


4.1 Divers mode de Convergence . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . 59
4.1.3 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . 61
4.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Le théorème limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3 Approximations de lois de probabilité . . . . . . . . . . . . . . . . . . . . 68
4.3.1 Application du théorème central limite . . . . . . . . . . . . . . . . 68
4.4 Théorème fondamental de statistique . . . . . . . . . . . . . . . . . . . . . 70
Chapitre 1

Espaces probabilisés

1.1 Introduction
Depuis toujours l’homme est confronté directement ou indirectement à la notion de
hasard (mot d’origine arabe : az-zhar) qu’il le perçoit à travers des mots comme maktoub,
la chance, probable, les jeux de hasard, les paris ou à travers de nombreuses disciplines
comme la science de la vie, les sciences humaines et de la physique (mouvement des
particules ...) la météorologie, la médecine, l’économie (marchés boursiers...) la théorie du
signal la production agricole ou industrielle. La description ou l’analyse des lois du hasard
par une approche scientifique et plus précisément par des modèles mathématiques, a
donné lieu à l’élaboration d’une discipline mathématique appelée probabilité. Celle-ci s’est
beaucoup développée ces dernières années pour devenir incontournable dans plusieurs
branches scientifiques.

1.2 Ensembles
Définition 1.2.1 1. Un ensemble est une collection bien determiné d’objets appelé
éléments de l’ensemble.
2. Si E est un ensemble si x est un e élément de E on dit que x appartient à E,
x ∈ E.
3. Si x n’est pas un élément de E on dit que x n’appartient pas à E, x ∈
/ E.
4. Un ensemble qui contient un seul d’ élément est appelée singleton.
5. Un ensemble qui contient une paire d’éléments est appelée paire.
6. Un ensemble qui ne contient aucun élément est appelé l’ensemble vide notée ∅.

Inclusion-égalité :

1. Soient E et F deux ensembles donnée l’ensemble E est dit inclus dans l’ensemble
F ssi tous les éléments de E sont éléments de F et on écrit E ⊂ F
E ⊂ F ⇔ ∀x ∈ E ⇒ x ∈ F.
2. Si E ⊂ F, on dit alors que E est une partie où ensemble de F.

1
CHAPITRE 1. ESPACES PROBABILISÉS 2

3. Ensemble de parties d’un ensemble :


Soit E un ensemble donnée. On note par P(E) l’ensemble de toutes les parties de
E, on a toujours ∅ ∈ P(E) et E ∈ P(E).
4. E et F deux ensembles données
E = F ⇔ E ⊂ F et F ⊂ E

1.2.1 Operation sur les ensembles


Intersection :
Soient E un ensemble et A et B deux parties de E.
A ∩ B est l’ensemble des éléments de E qui sont à la fois dans A et dans B.

A ∩ B = {x ∈ E | x ∈ A et x ∈ B}

Réunion :
Soient E un ensemble et A et B deux parties de E
A ∪ B est l’ensemble des éléments de E qui sont dans A ou dans B.

A ∪ B = {x ∈ E | x ∈ A ou x ∈ B}

Complémentaire :
Soient E un ensemble et A une partie de E le complémentaire de A dans E notée CEA ou
A est l’ensemble des éléments de E qui ne sont pas des e éléments de A,

CEA = {x ∈ E | x∈
/ A}

Définition 1.2.2 Soient A et B deux parties de E, si A ∩ B = ∅. On dit que A et B


sont disjoints.

Propriéts 1.2.3 Soient E un ensemble donnée et A, B, C des parties de E.


1. Commutativité : A ∩ B = B ∩ A et A ∪ B = B ∪ A
2. Associativité : A ∩ (B ∩ C) = (A ∩ B) ∩ C et (A ∪ B) ∪ C = A ∪ (B ∪ C)
3. A ∩ ∅ = ∅, A ∩ E = A, A ∪ ∅ = A et A ∪ E = E.
4. Distributivité de ∩ par rapport à ∪ :

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

Distributivité de ∪ par rapport à ∩ :

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

5. Complémentaire :

CEE = ∅, CE∅ = E
CA
CE E = A
CEA∩B = CEA ∪ CEB
CEA∪B = CEA ∩ CEB
CHAPITRE 1. ESPACES PROBABILISÉS 3

Produit cartésienne :
Soient E et F deux ensembles données, l’ensemble E × F appelée produit cartésien de E
et F est définie par :

E × F = {(x, y) | x ∈ E et y ∈ F }

Partition :
Une partition de E est une collection des parties non vide A1 , · · · , An de E telle que :
1. A1 ∪ · · · ∪ An = E et
2. Les (Aj )j sont deux à deux disjoints c’est à dire Ai ∩ Aj = ∅ si i 6= j.
Une partition peut avoir un nombre infini des parties {Aj }∞
j=1

Exemple 1.2.4 Supposons qu’on a jeté une pièce de monnaie trois fois. L’ensemble S
contiendra huit résultats possibles S1 , S2 , · · · , S8 .
S1 : P F F, S2 : P F F, S3 : F P F, S4 : F F P,
S5 : F P P, S6 : P F P, S7 : P P F, S8 : P P P.
On définit quatre ensembles : A l’ensemble que au moins un coté face est obtenue, soit B
l’ensemble qu’un coté face est obtenu au second jet, soit C l’ensemble qu’un coté pile est
obtenu au troisième jet et soit D l’ensemble qu’aucun coté face n’est obtenu.
A = {S1 , S2 , S3 , S4 , S5 , S6 , S7 }, B = {S1 , S2 , S4 , S6 }, C = {S4 , S5 , S6 , S8 }, D = {S8 }.
B ⊂ A, Ac = D, B ∩ D = ∅, B ∩ C = {S4 , S6 }, (B ∪ C)c = {S3 , S7 },
A ∩ (B ∪ C) = {S1 , S2 , S4 , S5 , S6 }

Exercice 1.2.5 1. Montrer que si A ⊂ B ⇒ B c ⊂ Ac


2. Pour une collection quelconque (Ai )i∈I , montrer que (∪i∈I Ai )c = ∩i∈I Aci .

1.3 Expériences aléatoires


Les expériences alèatoires sont des expériences dont on ne peut prévoir le resultat à
l’avance, ainsi le résultat est incertain ou inconnu par l’expérimentateur avant que celui-ci
n’effectue l’expérience ou ne la subisse et qui reproduite dans des conditions identiques
peut conduire à plusieurs résultats possible. Par exemple le lancer d’un dé au ”hasard”
est une expérience aléatoire et le résultat est l’un des nombres de 1 à 6. On admet
que le résultat d’une telle expérience relève du hasard dans le sens où on est incapable
de le prévoir avec certitude du fait du manque d’information ou de la complexité qui
interviennent.
La théorie des probabilités vise à fournir un modèle mathématique pour décrire ces
expériences. Le modèle utilisé est celui de Kolmogorov qui a rattaché les probabilités à
la théorie de mesures et de l’intégration développée par Borel et Lebesgue et c’est sur
ce modèle qu’on pourra raisonner et calculer. Il est décrit par les 4 notions essentielles
suivantes :
1. Espace d’état (ou univers). L’espace d’état c’est l’ensemble non vide noté Ω, de
tous les résultats possible de l’expérience aléatoire qu’on réalise. Ses éléments sont
appelés issues ou éventualités. Ainsi, une et une seule issue est observée au cours
CHAPITRE 1. ESPACES PROBABILISÉS 4

d’une expérience aléatoire. L’ensemble des résultats possibles d’une expérience


aléatoire est en général codé de manière à n’en retenir que certains aspects. Jouer
à pile ou face consiste lors du lancer d’une pièce à ne s’intéresser qu’à la face sur
laquelle elle tombe en oubliant le nombre de rotation dans l’air, le point de chute...
Ainsi Ω est l’ensemble de toutes les valeurs possibles que peut prendre ce codage.

Exemple 1.3.1
Expérience Ω
Lancer une pièce {Pile, face }
Relever l’état d’une case mémoire {0, 1}
Interroger un électeur avant un référendum {Oui, Non}
Lancer un dé {1, 2, · · · , 6}
Compter les clients d’une file d’attente N
Observer une durée de fonctionnement d’une machine R+
Observer le nb d’articles défectueux dans un lot de 15 article {0, 1, 2, · · · , 15}
2. Événement. Un événement est une proposition (propriété) dépendant du résultat
d’une expérience aléatoire dont on peut dire si elle est vraie ou non, une fois
l’expérience réalisée. Ainsi dans l’expèrience qui consiste à lancer un dè et à noter
la valeur de la face visible, la proposition ”la face apparente du dé est paire” est
un événement ; cette proposition est vraie si on a observé l’une des faces {2, 4, 6}
et fausse dans le cas contraire. Par contre ”la pièce tombe sur la tranche” n’est pas
un événement. On dit qu’un événement A est réalisé au cours d’une expérience
lorsque l’issue de celle-ci rend la proposition vraie.
En termes mathématiques, à chaque événement A, on associe alors un sous-
ensemble de Ω formé des issues qui permettent de dire que A est vraie, cette
partie notée aussi A est elle-même appelée événement

A = {ω ∈ Ω/A est réalisé si ω est le résultat de l’expérience}

Ainsi l’événement A se réalise dans l’issue ω de l’expérience si et seulement si

ω∈A

On note A l’ensemble des parties de Ω associées à tous les événements. Comme


toutes les combinaisons logiques d’événements sont encore des événements alors
A doit satisfaire un certain systeme d’axiome définissant une tribu sur Ω et qui
modélise l’information que l’on peut obtenir à partir des résultats de l’expériences.
Lorsque Ω est fini, on prendera A = P(Ω) l’ensemble de toutes les parties de Ω.
3. Probabilité :A chaque événement A on associe un nombre, noté P(A) et appelé
probabilité de A. Ce nombre mesure le degré de vraisemblance qu’on accorde a
priori à A, avant la réalisation de l’expérience ( ou encore qui mesure le degré de
confiance que l’on a dans sa réalisation). Il est choisi entre 0 et 1, et il est d’autant
plus prés de 1 que l’événement est jugé vraisemblable.
Intuitivement, on peut imaginer la probabilité d’un événement A comme limite
de fréquences de la réalisation de A. Supposons qu’une expérience aléatoire puisse
CHAPITRE 1. ESPACES PROBABILISÉS 5

être répétée dans les mêmes conditions. Soit nA le nombre de fois où l’événement
A s’est réalisé au bout de n expériences aléatoires identiques et on désigne par
nA
n la fréquence de réalisation de l’événement A. On constate expérimentalement
que lorsque n augmente nnA a tendance à se stabiliser autour d’une certaine valeur
alors intuitivement, et par passage à la limite la probabilitè de A peut être définie
par :
nA
P(A) = lim .
n→+∞ n

Des proprietés des fréquences, on en déduit que si A et B sont des événements, on


a:
- 0 ≤ P(A) ≤ 1,
- P(Ω) = 1,
- P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅.
4. Variable aléatoire :Il s’agit d’une grandeur qui dépend du résultat de l’expérience
aléatoire. Il arrive fréquemment qu’au cours d’une épreuve on ne s’intéresse pas
directement à une issue précise, mais à certaines de ses conséquences. Par exemple,
pour le lancer de deux dés, on peut s’intèresser à la somme des chiffres obtenus
lors d’une lancer, à leur produit ou au nombre de lancers qu’il faut pour obtenir le
6 sur chaque dé en même temps. En termes mathématiques, une variable aléatoire
est une application
X : Ω −→ E
l’espace E, est en général R, ou Rd . De la même manière qu’il a fallu munir
l’ensemble des événements A d’un minimum de structure, il faut que cette appli-
cation soit compatible avec la structure de A. Ce qui nous permet de transporter
la structure probabiliste de Ω sur l’espace d’arrivé E.

1.4 Espace probabilisé


La formalisation de tout problème de calcul des probabilités repose sur la donnée
d’un ensemble non vide Ω contenant selon les cas un nombre fini ou dénombrable ou
encore infini non dénombrable d’éléments remplissant conjointement les deux conditions
suivantes
- associer à toute partie de Ω un événement et respecter quelques règles de calcul
sur les opérations logiques.
- attribuer une probabilité à toute partie de Ω
Il se trouve que pour des raisons mathématiques, on ne peut pas satisfaire à ces
deux exigences à la fois, du moins lorsque Ω n’est pas dénombrable. L’idée est alors de
ne pas attribuer une probabilité à toute partie A ∈ P(Ω) mais seulement aux parties
appartenant à une certaine classe, en général strictement contenue dans P(Ω). Cette
classe d’événements doit avoir une structure particulière nous permettant d’effectuer les
opérations naturelles (unions et intersections finies ou dénombrables) sur la famille des
événements qui nous interessent.
CHAPITRE 1. ESPACES PROBABILISÉS 6

1.4.1 Espace probabilisable


Soit Ω un ensemble non vide. On désigne par P(Ω) l’ensemble des parties de Ω.

Définition 1.4.1 Soit A un sous-ensemble de P(Ω). On dit que A est une tribu sur Ω,
si A vérifie les propriétés suivantes :
(i) Ω ∈ A.
(ii) Si A ∈ A alors Ac ∈ A.
S+∞
(iii) Si (An )n∈N est une suite d’éléments de A alors n=1 An ∈ A.

Exemple 1.4.2 1. A = {∅, Ω} est la tribu grossière sur Ω (c’est la petite tribu sur
Ω).
2. P(Ω) est une tribu sur Ω.
3. Soit (Ai )i∈I une partition finie ou dénombrable de Ω alors A = {∪j∈J Aj , J ∈ P(I)}
est une tribu sur Ω.

Proposition 1.4.3 Soit A une tribu sur Ω.


1. ∅ ∈ A.
2. Si A, B ∈ A alors A ∪ B ∈ A et A ∩ B ∈ A.
T+∞
3. Si (An )n∈N est une suite d’éléments de A, alors n=1 An ∈ A.

Démonstration 1.4.4 1. Ω ∈ A, alors par définition d’une tribu, on a ∅ = Ωc ∈ A.


2. Soit (An )n∈N la suite d’éléments de A définie par

A1 = A
An = B pour tout n ≥ 2

Par définition d’une tribu, on a A ∪ B = +∞ c c


S
n=1 An ∈ A, d’où A ∪ B ∈ A et donc
c c
on a A ∩ B = (A ∪ B ) ∈ A.c

3. (Acn )n∈N est une suite d’éléments de A, alors on a +∞


T S+∞ c c
n=1 An = ( n=1 An ) ∈ A.

Définition 1.4.5 On appelle espace probabilisable tout couple (Ω, A) où Ω est un en-
semble non vide et où A est une tribu sur Ω. On appelle événement tout élément de
A.

Exemple 1.4.6 (Ω, P(Ω)) est un espace probabilisable (c’est l’espace probabilisable qu’on
associe toujours à Ω lorsque Ω est fini ou dénombrable).

Exercice 1.4.7 Soit A une tribu sur Ω. Soit (An )n∈N une suite d’éléments de A. On
pose
+∞
\ [ +∞
[ \
lim sup An = An , lim inf An = An
m=0 n≥m m=0 n≥m

vérifier que
CHAPITRE 1. ESPACES PROBABILISÉS 7

1. lim sup An ∈ A et lim inf An ∈ A.


2. lim inf An est l’événement ”tous les An se réalisent aprés un certain rang”.
3. lim sup An est l’événement ”il se produit une infinité d’événements An ”.

Rappel
On dit qu’un ensemble E est dénombrable s’il est fini ou en bijection avec N c-à-d si l’on
peut énumérer ses points en une suite. C’est le cas de l’ensemble N lui même, de Z, de Q

ou des entiers pairs. Ce n’est pas le cas de {0, 1}N de R ni des intervalles [a, b].
Remarque 1.4.8 Si l’ensemble Ω est dénombrable, un événement A ∈ P(Ω) est dit
élémentaire lorsqu’il ne se réalise que pour une seule issue de l’expérience : A = {ω} où
ω ∈ Ω. Ainsi tout événement de P(Ω) est une réunion finie ou dénombrable d’événements
élémentaires.

Exemple 1.4.9 Pour l’épreuve qui consiste à lancer deux dés, l’espace d’état est

Ω = {(i, j) 1 ≤ i, j ≤ 6} = {1, · · · , 6}2

et la tribu associée à Ω est P(Ω). Ainsi {(i, j)} est un événement élémentaire et l’événement
A ”la somme des lancers est paire” est composé de 18 événements élémentaires :

A = {(1, 1), (1, 3), (1, 5), (2, 2), (2, 4), (2, 6), (3, 1), (3, 3), (3, 5), (4, 2), (4, 4)(4, 6),

(5, 1), (5, 3), (5, 5), (6, 2), (6, 4), (6, 6)}

Proposition 1.4.10 Soit (Ai )i∈I une famille de tribus sur un ensemble non vide Ω.
Alors ∩i∈I Ai est aussi une tribu sur Ω.

Démonstration 1.4.11 1. Pour tout i ∈ I, Ω ∈ Ai et donc Ω ∈ ∩i∈I Ai


2. Soit A ∈ ∩i∈I Ai . Pour tout i ∈ I, A ∈ Ai or Ai est une tribu et donc Ac ∈ Ai et
par suite Ac ∈ ∩i∈I Ai
3. Soit (An )n∈N une suite d’éléments de ∩i∈I Ai . Ainsi pour tout i ∈ I, (An )n∈N une
suite d’éléments Ai et donc +∞
S S+∞
A
n=1 n ∈ A i et par suite n=1 An ∈ ∩i∈I Ai

Définition 1.4.12 Soit C un ensemble de parties de Ω (C ⊂ P(Ω)). On appelle tribu


engendrée par C la petite tribu contenant C, soit encore l’intersection de toutes les tribus
contenant C et on la note σ(C).

Exemple 1.4.13 1. Soit C une tribu sur Ω, alors σ(C) = C


2. Soit A ⊂ Ω, la tribu engendrée par {A} est σ({A}) = {∅, Ω, A, Ac }.

Définition 1.4.14 1. On appelle tribu borélienne de R la tribu engendrée par la


classe des intervalles de la forme : ] − ∞, x], pour x ∈ R, on la note BR . Un
élément de BR est appelé borélien de R.
2. On appelle tribu d
Qdborèlienne de R la tribu engendrée par la classe des rectangles
de la forme : i=1 ] − ∞, xi ], pour xi ∈ R, on la note BRd . Un élément de cette
tribu est appelé borélien de Rd .
CHAPITRE 1. ESPACES PROBABILISÉS 8

Proposition 1.4.15 1. Tout intervalle (ouvert, fermé, semi-ouvert) de R est un


borélien.
2. Tout singleton de R est un borélien.
3. Toute partie dénombrable de R est un borélien.
4. Toute réunion finie ou dénombrable d’intervalles de R est un borélien.
5. Toute intersection finie ou dénombrable d’intervalles de R est un borélien.

Démonstration 1.4.16 1. Soit a, b ∈ R tels que a < b.


S+∞
1. ] − ∞, b[= n=1 ] − ∞, b − n1 ].
2. [b, +∞[=] − ∞, b[c .
3. ]a, b] =] − ∞, b]\] − ∞, a].
4. Soit a ∈ R, {a} = +∞ 1
T
n=1 ]a − n , a].

Exercice 1.4.17 Soit (xn )n∈N une suite décroissante de limite x et soit (yn )n∈N une
suite croissante de limite y. Montrer que
+∞
[
]x, y[= (] − ∞, yn ]∩] − ∞, xn ]c )
n=0

Remarque 1.4.18 1. La tribu borélienne BR est aussi la tribu engendrée par la


classe des intervalles ouverts ]a, b[ pour −∞ < a ≤ b < +∞.
2. La tribuQborélienne BRd est aussi la tribu engendrée par la classe des rectangles
ouverts di=1 ]ai , bi [, pour −∞ < ai ≤ bi < +∞.

La tribu borélienne BRd est srictement incluse dans P(Rd ). Il existe donc des parties
de Rd qui ne sont pas dans BRd . Mais dans la partique, tous les ensembles que nous serons
amenés à utiliser dans Rd seront en fait des boréliens.

Remarque 1.4.19 Soit Ω un ensemble non vide. Le choix en pratique de la tribu A de


parties de Ω dépend naturellement de Ω. Deux cas sont envisageables :
1. L’ensemble Ω est dénombrable. Toute partie de Ω est réunion finie ou dénombrable
de singletons et donc toutes les parties de Ω peuvent être associées à des événements.
Il est donc naturel de prendre comme ensemble d’événements l’ensemble de toutes
les parties de Ω : A = P(Ω).
2. L’ensemble Ω est infini non-dénombrable. Contrairement au cas précédent le choix
de P(Ω) comme tribu pose des problèmes (notamment pour l’attribution de mesure
de probabilité à chacun de ses éléments) et on se restreint à une tribu strictement
incluse dans P(Ω) comme la tribu engendrée par une certaine classe de parties
données (la plus maniable possible). Ainsi, si Ω = R (resp Ω = Rd ), on prendra
toujours comme ensemble d’événements la tribu borélienne : A = BR (resp A =
BRd ).
CHAPITRE 1. ESPACES PROBABILISÉS 9

1.4.2 Vocabulaire probabiliste des événements


Soit (Ω, A) est un espace probabilisable. Soient A et B deux événements.
L’événement certain est représenté par Ω.
L’événement impossible est représenté par ∅.
L’événement contraire de A est représenté par Ac .
L’événement A ou B sont réalisés est représenté par A ∪ B.
L’événement A et B sont rèalisés est représenté par A ∩ B.
Événements incompatibles A et B si A ∩ B = ∅.
Ainsi si (Ai )i∈I est une famille d’événements alors :
L’événement ∪i∈I Ai est réalisé si l’un au moins des Ai est réalisé.
L’événement ∩i∈I Ai est réalisé si tous les Ai sont réalisés.
Et enfin le fait que la réalisation de l’événement A entraı̂ne la réalisation de l’événement
B se traduit par A ⊂ B.

1.4.3 Espace probabilisé


Définition 1.4.20 On appelle mesure de probabilité (ou simplement probabilité) sur l’es-
pace probabilisable (Ω, A) toute application P : A −→ [0, 1] telle que ;
(i) P(Ω) = 1
(ii) Pour toute suite (dénombrable) (An )n≥1 d’éléments de A deux à deux disjoints
(c-à-d si i 6= j, Ai ∩ Aj = ∅ ) alors,
+∞
! +∞
[ X
P An = P(An )
n=1 n=1

(P est σ-additive).
P
Remarque 1.4.21 ii) entraı̂ne en particulier que la série n≥0 P(An ) est convergente.

Exemple 1.4.22 Soit (Ω, A) un espace probabilisable. Pour tout ω ∈ Ω, l’application


εω : A −→ [0, 1] définie par

1 si ω ∈ A
εω (A) = pour tout A ∈ A
0 si ω ∈ Ac

est une mesure de probabilité appelée mesure de probabilité de Dirac en ω. En effet, on a


εω (Ω) = 1, puisque ω ∈ Ω. Soit (An )n≥1 une suite d’éléments de A disjoints deux à deux,
on a
/ ∪+∞
1. soit ω ∈ / An , par conséquent εω (∪+∞
n=1 An et donc pour tout n ≥ 1, ω ∈ n=1 An ) = 0
et pour tout n ≥ 1, εω (An ) = 0.
2. soit ω ∈ ∪+∞
n=1 An et donc il existe un unique indice i ∈ N tel que ω ∈ Ai puisque
les An sont deux à deux disjoints, par conséquent εω (∪+∞
n=1 An ) = 1, εω (Ai ) = 1 et
pour tout n ≥ 1 tel que n 6= i, εω (An ) = 0.
CHAPITRE 1. ESPACES PROBABILISÉS 10

Définition 1.4.23 On appelle espace probabilisé tout triplet (Ω, A, P), où (Ω, A) est un
espace probabilisable et où P est une mesure de probabilité sur (Ω, A).

La modélisation probabiliste consiste donc à décrire une expérience aléatoire par la donnée
d’un espace probabilisé.
Notation
Soient (Ω, A, P) un espace probabilisé et A un événement de A. La notation P(A) se lit
probabilité de A ou probabilité que l’événement A se produit.

Exemple 1.4.24 Soit B[a,b] = [a, b] ∩ BR la tribu trace de Borel associèe à Ω = [a, b].
L’application P : B[a,b] −→ [0, 1] dèfinie par

l(A)
P(A) = pour tout A ∈ B[a,b] ,
l(Ω)

où l(A) désigne la longueur (mesure de Lebesgue) de A est une mesure de probabi-
d−c
lité. Elle est caractérisée par P([c, d]) = b−a pour tout [c, d] ⊂ [a, b], et elle correspond
à l’expérience aléatoire : choix d’un point au hasard sur l’intervalle [a, b].

Exemple 1.4.25 Soit BQd [ai ,bi ] = di=1 [ai , bi ] ∩ BRd la tribu trace de Borel associée à
Q
i=1
Ω = di=1 [ai , bi ]. L’application P : BQd [ai ,bi ] −→ [0, 1] définie par
Q
i=1

v(A)
P(A) = pour tout A ∈ BQd [ai ,bi ] ,
v(Ω) i=1

où v(A) désigne le volume (mesure de Q Lebesgue) de A est une mesure de probabilité. Elle
d
(d −c )
est caractérisée par P( i=1 [ci , di ]) = Qdi=1 i i pour tout di=1 [ci , di ] ⊂ di=1 [ai , bi ], et
Qd Q Q
i=1 (bi −ai )
elle correspond à l’expérience aléatoire : choix d’un point au hasard sur le pavé di=1 [ai , bi ].
Q

Exercice 1.4.26 Soit λ ∈ R∗+ . Pour tout A ⊂ N, on pose

X λn e−λ
P(A) =
n!
n∈A

Montrer que (N, P(N), P) est un espace probabilisé.

Exercice 1.4.27 Soient Q1 et Q2 deux probabilités définie sur le même espace probabi-
lisable (Ω, A).
1. Soit α ∈ [0, 1]. Montrer que l’application P définie par

P(A) = αQ1 (A) + (1 − α)Q2 (A) pour tout A ∈ A,

est une probabilité sur (Ω, A).


CHAPITRE 1. ESPACES PROBABILISÉS 11

2. Généraliser ce résultat, montrer que l’application Pn définie par


n
X
Pn (A) = αi Qi (A) pour tout A ∈ A,
i=1
Pn
où αi ∈ [0, 1] pour tout i et i=1 αi = 1 est une probabilité sur (Ω, A).

Remarque 1.4.28 Du point de vue de l’analyse, une mesure de probabilité n’est autre
qu’une mesure positive bornée telle que la valeur en Ω vaut 1. Ainsi toutes les propriétés
des probabilités se déduisent simplement des propriétés des mesures positives bornées,
néanmoins on rappelle quelques propriétés élémentaires qui sont fondamentales dans les
calculs des probabilités d’événements.

Proposition 1.4.29 Soit (Ω, A, P) un espace probabilisé. Alors on a


1. P(∅) = 0.
2. Soit (Ai )1≤i≤n une suite de n éléments deux à deux disjoints de A. Alors
n n
!
[ X
P Ai = P(Ai )
i=1 i=1

en particulier si A, B ∈ A sont disjoints, alors P(A ∪ B) = P(A) + P(B) et donc


P(A) + P(Ac ) = 1.
3. Soient A, B ∈ A, alors P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
4. Soient A, B ∈ A tels que B ⊂ A, alors P(B) ≤ P(A) et P(A\B) = P(A) − P(B).

Démonstration 1.4.30 1. Soit (An )n∈N la suite d’éléments de A définie par

A1 = Ω
An = ∅ pour tout n ≥ 2

Par définition de probabilité, P( +∞


S P+∞ P+∞
n=1 An ) = n=1 P(An ) = 1 d’où n=2 P(∅) = 0
et donc P(∅) = 0.
2. Soit (Bn )n∈N la suite d’éléments de A définie par

Bi = Ai pour 1 ≤ i ≤ n
Bi = ∅ pour i ≥ n + 1

Comme P( +∞
S P+∞
n=1 Bn ) = S P(Bn ) (puisque
n=1 les Bn sont deux à deux disjoints)
et P(∅) = 0, alors on a P( ni=1 Ai ) = ni=1 P(Ai ).
P

3. Comme A ∪ B = A ∪ (B ∩ Ac ) et B = (A ∩ B) ∪ (B ∩ Ac ), on a alors

P(A ∪ B) = P(A) + P(B ∩ Ac ) et P(B) = P(A ∩ B) + P(B ∩ Ac )

et par suite P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


CHAPITRE 1. ESPACES PROBABILISÉS 12

4. Comme B ⊂ A alors on a A = B ∪ (A ∩ B c ) d’où P(A) = P(B) + P(A ∩ B c ). Par


suite P(B) ≤ P(A) et P(A\B) = P(A) − P(B).

Exercice 1.4.31 Soit (Ω, A, P) un espace probabilisé.


1. Soient A et B deux événements de A. Montrer que P(A ∩ B) ≤ min(P(A), P(B))
et P(A ∪ B) ≥ max(P(A), P(B)).
2. Soient (Ai )1≤i≤n et (Bi )1≤i≤n deux suites d’événements de A tel que Bi ⊂ Ai pour
tout i. Montrer que
n
X
P(∪ni=1 Ai ) − P(∪ni=1 Bi ) ≤ (P(Ai ) − P(Bi )) .
i=1

Proposition 1.4.32 Soit (Ω, A, P) un espace probabilisé.


1. Soit (An )n≥1 une suite croissante d’éléments de A (c’est-à-dire pour tout n ∈ N,
An ⊂ An+1 ). Alors,
+∞
!
[
P An = lim P(An ).
n→+∞
n=1

2. Soit (An )n≥1 une suite décroissante d’éléments de A. Alors,


+∞
!
\
P An = lim P(An ).
n→+∞
n=1

3. Soit (An )n≥1 une partition finie ou infinie dénombrable de Ω. Alors pour tout
B ∈ A,
+∞
X
P(B) = P(An ∩ B).
n=1

Démonstration 1.4.33 1. Soit (Bn )n≥1 la suite d’éléments de A deux à deux dis-
joints définie par,

B0 = A0 = ∅
Bn = An \An−1 pour tout n ≥ 1.

Les suites (An )n≥1 et (Bn )n≥1 vérifient :


1. Pour tout n ∈ N, An = ∪ni=0 Bi .
2. S+∞
S S+∞
n=0 An = S n=0 Bn . En effet, Bn ⊂ An pour tout n ∈ N, on a alors l’inclusion
+∞ +∞ S+∞
n=1 B n ⊂ n=1 A n . Inversement, soit ω ∈ n=1 An , il existe donc au moins un
indice i tel que ω ∈ Ai . Soit i0 le plus petit de ces indices :
(a) i0 = 0 et alors ω ∈ A0 = B0 et donc ω ∈ +∞
S
n=0 Bn
/ Ai0 −1 donc ω ∈ Ai0 \Ai0 −1 = Bi0 et par suite à ω ∈ +∞
S
(b) i0 ≥ 1 et ω ∈ n=0 Bn .
CHAPITRE 1. ESPACES PROBABILISÉS 13

Les événements Bn sont deux à deux disjoints, ainsi en utilisant la propriété de σ−additivité,
on a
+∞ +∞
! ! +∞
[ [ X
P An = P Bn = P(Bn ).
n=0 n=0 n=0
P
La série n≥0 P(Bn ) est convergente et sa somme est
+∞
X n
X
P(Bn ) = lim P(Bi )
n→+∞
n=0 i=0
= lim P(∪ni=0 Bi ) = lim P(An ).
n→+∞ n→+∞

1. La démonstration est une conséquence du résultat précédent en remarquant que,


si la suite (An )n≥1 est décroissante, la suite (Acn )n≥1 est croissante et donc
+∞
!
[
P Acn = lim P(Acn ).
n→+∞
n=1
T+∞ 
Par suite, on a 1 − P n=1 An = limn→+∞ (1 − P(An )).
2. Soit (Bn )n≥1 la suite d’éléments de A définie par

Bn = An ∩ B
pour tout n ≥ 1.

disjoints avec P+∞


S
Les Bn sont deux à deux P n=1 Bn = B. Par la propriété de la
σ−additivité on a P(B) = n=1 P(Bn ) = +∞
+∞
n=1 P(An ∩ B).

Remarque 1.4.34 Dire que (An )n≥1 une partition finie ou infinie dénombrable de Ω est
équivalent à dire que lorsque notre expérience aléatoire sera réalisée, un et un seul des
événements A1 , A2 , · · · se réalisera.

Exemple 1.4.35 Si on jette n fois une pièce de monaie l’espace d’état est

Ω = {P, F }n

c’est un ensemble fini de cardinal 2n . La probabilité de chaque tirage est uniforme


cardA
∀A ∈ P(Ω) P(A) =
2n
On jette maintenant indéfiniment la pièce

Ω = {P, F }N

c-à-d l’ensemble des uplets de longueur infinie. C’est un ensemble infini. Soit A” on ne
tire pas de pile” et soit An ” on ne tire pas de pile lors des n premiers tirages”. On a
alors P(An ) = 21n , An+1 ⊂ An (la réalisation de An+1 implique la réalisation de An ) et
A = +∞
T
n=1 An et par suite
P(A) = lim P(An )
n→+∞
CHAPITRE 1. ESPACES PROBABILISÉS 14

Proposition 1.4.36 Soit (Ω, A, P) un espace probabilisé. Soit (An )n≥1 une suite d’éléments
de A. Alors
+∞
! +∞
[ X
P An ≤ P(An ).
n=1 n=1

Démonstration 1.4.37 Soit (Bn )n∈N la suite d’éléments de A définie par

B 0 = A0 = ∅
Bn = An \(A0 ∪ A1 ∪ · · · ∪ An−1 ) pour tout n ≥ 1.

Ainsi,
Sn Sn S+∞ S+∞
1. les Bn sont deux à deux disjoints et i=1 Bi = i=1 Ai d’où n=1 Bn = n=1 An .
2. pour tout i ∈ N, Bi ⊂ Ai et donc P(Bi ) ≤ P(Ai ).
S+∞ P+∞
D’aprés
S+∞ la propriété
P+∞ de la σ−additivité on a P( n=1 B n ) = n=1 P(Bn ) et par suite
P( n=1 An ) ≤ n=1 P(An ), ce deuxième terme pouvant éventuellement être supérieur à
1 et même être infini.

Exemple 1.4.38 Soit Ω un ensemble non vide fini ou dénombrable. Soit ((αn , ωn ))n≥1
une suite d’éléments de R × Ω telle que :
(i) αn ≥ 0, pour tout n ∈ N∗ ;
(ii) la série n≥1 αn est convergente et l’on a +∞
P P
n=1 αn = 1.
Alors l’application P : P(Ω) −→ [0, 1] définie par

X X
P(A) = αn εωn (A) = αn pour tout A ∈ P(Ω)
n=1 n/ωn ∈A

est une mesure de probabilité, appelée probabilité


P∞ discrète porte par les éléments ωn et
pondérée par les poids αn , notée aussi P = n=1 αn εωn . Plus généralement toute mesure
de probabilité sur un espace fini ou dénombrable est discrète.

Exercice 1.4.39 Soit (Ω, A) un espace probabilisable, et soit Q : A −→ [0, 1] une appli-
cation telle que
1. Q(Ω) = 1.
2. Q(A ∪ B) = Q(A) + Q(B) pour tout A, B ∈ A disjoints.

S+∞ (An )n≥1 d’éléments de A (c’est-à-dire pour tout n ∈ N,


3. Pour toute suite croissante
An ⊂ An+1 ), on a Q( n=1 An ) = limn→+∞ Q(An ).
Montrer que Q est probabilité sur (Ω, A).

1.4.4 Événements presque sûr


Soit (Ω, A, P) un espace probabilisé. Par définition, on a toujours P(∅) = 0 et P(Ω) =
1, mais il se peut que pour d’autres événements A, B ∈ A, on ait P(A) = 0 et P(B) = 1.
Définition 1.4.40 Soit (Ω, A, P) un espace probabilisé.
CHAPITRE 1. ESPACES PROBABILISÉS 15

1. On appelle presque sûr ou presque certain tout événement C ∈ A tel que C 6= Ω


et P(C) = 1.
2. On appelle P-négligeable ou presque impossible tout événement C ∈ A tel que
C 6= ∅ et P(C) = 0.
3. Une propriété P est vraie presque-sûrement (p.s) lorsqu’elle est vraie en tout point
ω ∈ Ω sauf peut être pour un ensemble P-négligeable.

Remarque 1.4.41 Soit (Ω, A, P) un espace probabilisé. Plus généralement, un sous-


ensemble A ⊂ Ω est dit P-négligeable, s’il existe C ∈ A tel que A ⊂ C et P(C) = 0.

1.5 Probabilité sur un ensemble fini


Soit Ω = {ω1 , ω2 , · · · , ωN } un ensemble fini de cardinal N .

1.5.1 Probabilité uniforme sur un ensemble fini


Une probabilité P sur (Ω, P(Ω)) est entièrement caractérisée par ses valeurs sur les
singletons {ωi } de Ω : {P({ωi }), i = 1, · · · , N }
N
X
P= P({ωi })εωi .
i=1

Inversement, étant donnée une famille finie (pi )1≤i≤N de réels, il lui correspond une pro-
babilité P (unique) telle que P({ωi }) = pi pour tout i = 1, · · · N , si seulement si
N
X
pi ≥ 0 et pi = 1
i=1

et dans ce cas, on a pour tout A ∈ A :


X N
X
P(A) = p({ωi }) = P({ωi })εωi (A)
ωi ∈A i=1

Définition 1.5.1 Soit Ω = {ω1 , ω2 , · · · , ωN } un ensemble fini de cardinal N . On dit


que la probabilité P sur Ω est uniforme si P({ω}) ne dépend pas de ω ∈ Ω, tous les
événements élémentaires ont même probabilité (ou équiprobable) : P({ω1 }) = P({ω2 }) =
· · · P({ωN }) = N1 et donc
N
X 1
P= εω .
N i
i=1
P est dite aussi équiprobabilité.

Conséquence
Si P est une probabilité uniforme sur Ω fini de cardinal N , alors
1 1
∀ω ∈ Ω, P({ω}) = = .
N cardΩ
CHAPITRE 1. ESPACES PROBABILISÉS 16

cardA cardA nb de cas favorables


∀A ⊂ Ω, P(A) = = = .
N cardΩ nb de cas possibles
de sorte que le calcul des probabilités se ramène à des dénombrements : on est dans le
cas de la combinatoire.

1.5.2 Rappel : Formules classiques de dénombrement


Soit A un ensemble non vide de cardinal N.

Suite quelconque de longueur donné.


L’ensemble des suites (u1 , u2 , · · · , un ) de longueur n où chaque ui ∈ A a pour cardinal

(card(A))n .

De telles suites sont appelées aussi ””arrangements avec répétitions de N objets pris n
n”, deux éléments ui et uj pouvant être égaux pour i 6= j. Dans le langage fonctionnel,
on peut dire que l’ensemble AB de toutes les applications d’un ensemble B de cardinal
n, dans un ensemble A de cardinal N , a pour cardinal N n .

Suite de termes distincts.


Une suite (u1 , u2 , · · · , un ) est dite (n, N )−injective, si elle est de longueur n ≤ N ,
si tous ses éléments sont pris dans A et si tous les ui sont distincts. Une telle suite est
appelée aussi ”arrangement sans répétition de N éléments pris n à n”. Si n = N les suites
(N, N )− injectives sont les numérotations de l’ensemble A, on dit encore les permutations
de A. Le nombre AnN des suites (n, N )−injective est

N!
AnN = N (N − 1) · · · (N − n + 1) = .
(N − n)!

En particulier, le nombre de permutation d’un ensemble de cardinal N est AN


N = N ! (où
la factorielle d’un entier N est N ! = 1.2 · · · (N − 1)N ).

Partie d’un ensemble.


Soit un entier n tel que 0 ≤ n ≤ N , le nombre de parties de cardinal n d’un ensemble
de cardinal N est
n N!
CN = .
n!(N − n)!
En effet, soit A un ensemble de cardinal N ; Pour obtenir une suite (n, N )−injective
(u1 , u2 , · · · , un ), il suffit de se donner la partie {u1 , u2 , · · · , un } de A, une permutation de
ces n éléments. Par conséquent, avec an,N désignant le nombre de parties de A de cardinal
An
n, on obtient AnN = an,N Ann , soit an,N = ANn = n!(NN−n)! !
.
n

Exercice 1.5.2 Montrer que si card(A) = n alors card(P(A)) = 2n .


CHAPITRE 1. ESPACES PROBABILISÉS 17

Coefficients multinomiaux.
Soient un entier k tels que 1 ≤ k ≤ N , et soient la suite d’entiers (n1 , n2 , · · · , nk ) telle
que
n1 ≥ 0, n2 ≥ 0, · · · nk ≥ 0 et n1 + n2 + · · · + nk = N.
Le nombre de suites de longueur N , contenant n1 fois 1, n2 fois 2, · · ·, nk fois k est égal
au coefficient multinomial
N!
n1 !n2 ! · · · nk !

1.6 Application : Modèle de l’urne


Soit U une urne (un ensemble) de N boules (de cardinal N ). En pratique la nature
de l’urne peut être trés variés. Par exemple
- un jeu de 32 cartes (les boules sont alors les cartes) ;
- une population statistique à enquêter (les boules sont des individus) ;
- l’ensemble des billets vendus au cours d’une loterie...
Soit l’preuve e qui consiste à tirer une boule de l’urne. La succession des épreuves n fois
constitue elle même une épreuve E ”tirer successivement n boules de l’urne”. Il s’agit
d’une épreuve aléatoire dans la mesure où on ne connaı̂t pas à priori le résultat. La
méthode des prélèvement successifs, la connaissance de la composition de l’urne et les
préoccupations de l’expérimentateur conduisent à différents problèmes ainsi qu’a l’espace
d’état approprié. On s’intèresse en particulier aux épreuves qui consistent à prélever
plusieurs boules soit avec remise soit sans remise dans une urne où les boules sont d’une
catégorie ou de deux catégories.

1.6.1 Tirage sans remise


On appelle tirage sans remise le choix d’un ensemble de n boules avec n ≤ N sous les
conditions suivantes
- on choisit successivement les boules dans l’urne sans remettre dans l’urne les boules
tirées : tout élément ne peut pas l’être de nouveau ;
- à chaque tirage, toutes les boules restant dans l’urne au moment du tirage ont la
même probabilité d’être choisies : équiprobabilité sur les boules restantes.

Tirage sans remise dans une urne


Deux types de problèmes, donc deux espace d’états différents, sont à envisager selon
que l’on tient compte de l’ordre d’apparition des boules ou que l’on n’en tient pas compte.
Mais, dans les deux cas, on suppose l’équiprobabilité sur (Ω, P(Ω)).
1. Soit les boules sont tirées les unes aprés les autres et on note la suite des éléments
choisis. Un tel tirage peut être assimilé à une application de l’ensemble {1, 2, · · · , n}
dans l’ensemble U : à chaque rang i on fait correspondre la boule extraite au
cours du ième tirage. Or le tirage se faisant sans remise, à chaque rang on fait
CHAPITRE 1. ESPACES PROBABILISÉS 18

correspondre une boule différente, donc le tirage est une application injective
de l’ensemble {1, 2, · · · , n} dans l’ensemble U . Il conduit à observer une suite
(n, N )−injective. L’espace d’état de cette épreuve est donc Ω = l’ensemble des
applications injectives de {1, 2, · · · , n} dans U de cardinal AnN .
2. Soit les boules sont tirées simultanèment (on ne note que le résultat global) ou
elle sont tirées successivement mais on juge que leur ordre d’apparition n’a pas
d’importance, on peut alors considérer un tirage comme un sous ensemble à n
éléments de l’ensemble à N éléments. Dans ce cas on prendra, pour l’espace d’état
l’ensemble des parties à n éléments d’un ensemble à N éléments et card(Ω) = CN n.

Exemple 1.6.1 Dans une course, il y a 14 cheveux au départ, vous n’êtes pas joueur et
vous estimez que chacun d’eux à la même chance de gagner.
a) Calculer le nombre N des tiercés possibles, càd le nombre des arrivées possibles des 14
cheveux aux première, deuxième et troisième ( dans l’ordre)
N = A314 = 14.13.12 = 2184
b) Calculer la probabilié de gagner le tiercé à l’aide d’un seul ticket.
1
- Dans l’ordre : 2184 .
- Dans l’ordre où dans le désordre : C13 = 21846
14

Exemple 1.6.2 On considére l’arrivée d’une course de chevaux, avec dix partants, numéroté
de 1 à 10. On note l’ordre d’arrivée. On suppose que les concurrents sont de force égale et
qu’il n’y a pas d’ex-aequos. L’espace d’état Ω est l’ensemble des injections de {1, 2, · · · , 10}
dans lui-même et donc cardΩ = 10!.
Soit l’événement A = { le numèro 10 arrive dernier }, on a alors
cardA card(ω ∈ Ω : ω(10) = 10)
P(A) = = =
cardΩ cardΩ
nombre d’injections de {1, 2, · · · , 9} dans lui même
=
10!
9!
=
10!
Si l’on s’intéresse à l’événement A = { le numèro 10 arrive dans les trois premiers }, on
peut considérer Ak = { le numéro 10 arrive à la k-ième place } pour k = 1, 2, 3 de sorte
que A = A1 ∪ A2 ∪ A3 . Les Ak sont deux à deux disjoints, on a
3
P(A) = P(A1 ) + P(A2 ) + P(A3 ) = .
10
Exemple 1.6.3 Le jeu du loto consiste à choisir 6 numéros distincts parmi {1, 2, · · · , 49}.
On suppose que les boules qui portent les 49 numéros sont toutes parfaites et on s’intéresse
qu’aux résultats des 6 boules. L’espace Ω est
Ω = {{a1 , a2 , · · · , a6 } 1 ≤ ai ≤ 49, les ai sont deux à deux diffèrents}
Il est naturel de considérer que tous les tirages possibles sont équiprobables, donc P est la
probabilité uniforme sur Ω. Par conséquent
1 1
P( on gagne le premier prix avec un bulletin) = = 6
cardΩ C49
CHAPITRE 1. ESPACES PROBABILISÉS 19

Tirage sans remise dans une urne à deux catégories


On considère le cas les boules sont de deux catégories différentes :
- dans le jeu de cartes, les coeurs et les cartes des autres couleurs ;
- dans une population d’étudiants, les droitiers et les gauchers ;
- dans les billets vendus dans une loterie, les billets gagnants et les perdants.
On considère que l’urne est constituè de boules de deux catégorie différentes C1 de
cardinal N1 et C2 de cardinal N2 telles que N1 + N2 = N . On prélève successivement n
boules sans remettre les boules tirées dans l’urne” et donc n ≤ N1 + N2 . Cherchons alors
la probabilité de l’événement défini par : A ” parmi ces n boules, k sont de la catégorie
C1 et (n − k) sont de la catégorie C2 ”. Comme il s’agit d’un tirage sans remise, on peut
supposer qu’on tire simultanément les n boules. Ainsi, il est naturel de considérer qu’un
résultat est une partie à n éléments de l’ensemble M = {1, 2, · · · , N1 + N2 } des N1 + N2
boules (qu’on peut supposer numérotées de 1 à N1 + N2 ). Donc Ω est l’ensemble de
n (N1 +N2 )!
toutes les parties à n éléments de M , et cardΩ = CN 1 +N2
= n!(N 1 +N2 −n)!
. Ensuite il est
également naturel de considérer que tous les tirages possibles sont équiprobables, donc P
est la probabilité uniforme sur Ω. Ainsi,
- Les k boules de la catégorie C1 peuvent être choisies parmi les N1 boules de la
k façons avec k ≤ N .
catégorie C1 de CN1 1
- Les n − k boules de la catégorie C2 peuvent être choisies parmi les N2 boules de
n−k
la catégorie C2 de CN2
façons avec n − k ≤ N2 .
Il y a donc CN k C n−k façons d’obtenir le tirage voulu. Ce nombre représente en fait le
1 N2
nombre d’éléments de A, d’où

CNk C n−k k C n−k


CN
cardA 1 N2 1 N2
P(A) = = n = n
cardΩ CN 1 +N2
C N

Plus généralement pour un tirage sans remise d’une urne de K catégories, on procède de
la même façon, l’urne est composée de Nk boules de la catégorie Ck pour 1 ≤ k ≤ K ,
tout prélèvenement peut comporter des boules de chaque catégorie. On note An1 ,n2 ,···,nK
l’événement ”on extrait n1 boules de la catégorie C1 , · · · , nK boules de la catégorie CK ,
la probabilité de l’événement An1 ,n2 ,···,nK est :
n1 n2 nK
CN C · · · CN
1 N2 K
P(An1 ,n2 ,···,nK ) = n
CN
PK
telle que pour tout k ∈ {1, 2, · · · , K}, 0 ≤ nk ≤ Nk et k=1 nk = n ≤ N.

1.6.2 Tirage avec remise


Tirage avec remise dans une urne
On préleve n boules de l’urne selon un tirage avec remise de la façon suivante :
on choisit une première boule, on note son identité, on la remet dans l’urne que l’on
brasse puis on réitére cette opération n fois de suite. Cette expérience peut être assimilé
CHAPITRE 1. ESPACES PROBABILISÉS 20

à une application quelconque de l’ensemble {1, 2, · · · , n} dans U . L’espace d’état Ω est


l’ensemble des application de {1, 2, · · · , n} dans U dont le cardinal est N n . On suppose
encore que l’on est en situation d’équiprobabilité et donc chaque événement élémentaire
a une probabilité N1n .

Tirage avec remise d’une urne à deux catégories


On considère que l’urne est constitué de boules de deux catégorie différentes C1 de
cardinal N1 et C2 de cardinal N2 telles que N1 + N2 = N . On prélève au hasard avec
remise, n boules. Pour tout k ∈ {1, 2, · · · , n}, soit Ak l’événement ”le nombre de boules
de la catégorie Ck extraite est k”. Le dénombrement des issues favorable à Ak se fait en
deux étape :
- on choisit d’abord les numéros des rangs où apparaissent les k boules de la catégorie
C1 , il y a Cnk façons de choisir un sous ensemble Bk à k éléments dans l’ensemble
{1, 2, · · · , n}.
- une fois choisi un sous-ensemble Bk de {1, 2, · · · , n}, il faut considérer toutes les
applications de {1, 2, · · · , n} dans U telles que les images des éléments de Bk sont
dans l’ensemble des boules de la catégorie C1 et les images des éléments de Bkc
sont dans l’ensemble des boules de catégorie C2 .
Ainsi le nombre de tirages favorables à Ak est Cnk N1k N2n−k et

Cnk N1k N2n−k N1 N2


P(Ak ) = = Cnk ( )k ( )n−k
Nn N N

Si l’on dèsigne par p1 = NN1 = p et p2 = N2


N = 1 − p les proportions des boules des
catègories C1 et C2 , on alors

P(Ak ) = Cnk pk1 pn−k


2 = Cnk pk (1 − p)n−k .

Plus généralement pour un tirage avec remise d’une urne de K catégories, on procéde de
la même façon, l’urne est composée de Nk boules de la catégorie Ck pour 1 ≤ k ≤ K ,
tout prélevenement peut comporter des boules de chaque catégorie. On note An1 ,n2 ,···,nK
l’événement ”on extrait n1 boules de la catégorie C1 , · · · , nK boules de la catégorie CK ,
la probabilité de l’événement An1 ,n2 ,···,nK est :
nK
n2
P(An1 ,n2 ,···,nK ) = Cnn1 Cn−n1
· · · Cn−n pn1 pn2 2 · · · pnKK
1 −n2 ···nk−1 1

PK
telle que pour tout k ∈ {1, 2, · · · , K}, 0 ≤ nk ≤ Nk et k=1 nk = n ≤ N ou encore

n!
P(An1 ,n2 ,···,nK ) = pn1 1 pn2 2 · · · pnKK
n1 !n2 ! · · · nK !
Exemple
On jette trois fois une pièce de monnaie parfaite. On peut représenter l’espace d’état par
Ω = {P, F }3 (l’ensemble des applications de {1, 2, 3} dans {P, F }) donc cardΩ = 23 . Il
CHAPITRE 1. ESPACES PROBABILISÉS 21

est naturel de considérer que tous les tirages possibles sont équiprobables, donc P est la
probabilité uniforme sur Ω et
card( on sort exactement une fois P ) 3
P(on sort exactement une fois P ) = = .
cardΩ 8
1
P(on sort au moins une fois P ) = 1 − P( on sort trois fois F ) = 1 − .
8

1.7 Indépendance
Définition 1.7.1 Soit (Ω, A, P) un espace probabilisé.
1. Deux événements A et B de A sont dits indépendants si seulement si

P(A ∩ B) = P(A)P(B)

2. Les événements (Ai )i∈I où I est une famille quelconque, sont dits indépendants
dans leur ensemble (ou mutuellement indépendants) si pour toute partie finie J ⊂
I, \ Y
P( Ai ) = P(Ai )
i∈J i∈J

Ainsi dire que A est indépendant de B c’est dire que la réalisation de B n’apporte donc
aucune information supplémentaire sur l’éventuelle réalisation de A.

Remarque 1.7.2 1. Tout événement A est indépendant de ∅ et Ω. En effet,

P(A ∩ ∅) = P(∅) = P(A)P(∅) et P(A ∩ Ω) = P(A) = P(A)P(Ω)

2. Les seuls événements indépendants d’eux mêmes sont les événements de probabilité
0 ou 1. En effet, P(A ∩ A) = P(A)P(A) alors P(A)(1 − P(A)) = 0.
3. Les événements (Ai )1≤i≤n sont mutuellement indépendants si
\ Y
P( Ai ) = P(Ai ) pour tout J ⊂ {1, 2, · · · n} / card(J) ≥ 2.
i∈J i∈J

Le nombre des conditions à vérifier pour l’indépendance mutuelle se ramène à celui


de toutes les combinaisons sans répétions Cnk lorsque k varie de 2 à n ; le nombre
total de ces conditions est :
n
X n
X
N= Cnk = Cnk − n − 1 = 2n − n − 1.
k=2 k=0

Remarque 1.7.3 L’indépendance, sans autre précision, signifiera désormais l’indépendance

Exemple 1.7.4 On lance 3 fois un dé. Si Ai est un événement qui ne dépend que du
ième tirage i ∈ {1, 2, 3}, alors A1 , A2 et A3 sont indépendants.
CHAPITRE 1. ESPACES PROBABILISÉS 22

Remarque 1.7.5 Des événements indépendants (mutuellement) sont aussi deux-à-deux


indépendants, mais la réciproque est fausse. En effet, si nous lançons deux dés parfaite-
ment équilibrés et on considère les trois événements suivantes :
- A : le premier dé donne un nombre paire. A = {2, 4, 6}, P(A) = 12 .
- B : le deuxième dé donne un nombre impaire. B = {1, 3, 5}, P(B) = 12 .
- C : les deux dès donnet des nombres de même paritè. 18 cas parmi 36, P(C) = 21 .
Vérifions que ces trois événements sont deux à deux indépendants, nous avons :
- A ∩ B : le dé un donne pair et le dé deux donne un nombre impaire, P(A ∩ B) = 14 =
P(A)P(B).
- A ∩ C : le dé un donne pair et le dé deux la même parité, P(A ∩ C) = 41 = P(A)P(C).
- B ∩ C : le dé un donne impair et le dé deux donne un nombre impaire, P(B ∩ C) = 14 =
P(B)P(C).
Ils ne sont pas cependant indépendts, en effet on ne peut pas avoir A et B et C en même
temps, A ∩ B ∩ C = ∅, P(A ∩ B ∩ C) 6= P(A)P(B)P(C) = 81

Proposition 1.7.6 Soit (Ω, A, P) un espace probabilisé.


1. Si les événements A et B de A sont indépendants, il en est de même des couples
(A, B c ), (Ac , B) et (Ac , B c ).
2. Si (An )n≥1 une suite d’événements deux à deux disjoints et si A est un événement
indépendant de An pour tout n ≥ 1, alors A est indépendant de ∪+∞ n=1 An .

Démonstration 1.7.7 1. Comme P(A ∩ B c ) + P(A ∩ B) = P(A), alors on a

P(A ∩ B c ) = P(A) − P(A)P(B)


= P(A)(1 − P(B)) = P(A)P(B c )

2. En utilisant la propriété de la σ additivité, on a


+∞
X
P(A ∩ (∪+∞ +∞
n=1 An )) = P(∪n=1 (A ∩ An )) = P(A ∩ An )
n=1
+∞
X +∞
X
= P(A)P(An ) = P(A) P(An ) = P(A)P(∪+∞
n=1 An ).
n=1 n=1

Remarque 1.7.8 Lorsqu’on veut calculer la probabilité qu’au moins un événement, parmi
un groupe de plusieurs événements indépendants se réalise, on utilise la propriété de
complémentaire. En effet, soient A, B et C des événements indépendants on a

P(A ∪ B ∪ C) = P(A) + P(B) − P(A ∩ B) − P(A ∩ C) − P(C ∩ B)


= P(A) + P(B) + P(C) − P(A)P(B) − P(A)P(C) − P(C)P(B)

En utilisant la propriété de complémentaire, on a

P(A ∪ B ∪ C) = 1 − P(Ac ∩ B c ∩ C c )
= 1 − (1 − P(A))(1 − P(B))(1 − P(C))
CHAPITRE 1. ESPACES PROBABILISÉS 23

Remarque 1.7.9 Soient A, B, C et D des événements indépendants. Alors


1. les événements A ∩ B et C sont indépendants.
2. les événements A ∩ B et C ∪ D sont indépendants
Plus généralement, soient E1 , E2 , · · · , En , En+1 , · · · , En+m des événements indépendants
dans leurs ensemble. Si A est un événement obtenu à partir des événements E1 , E2 , · · · , En
à l’aide des opérations ensemblistes usuelles et si B est un événement obtenu à par-
tir des événements En+1 , · · · , En+m à l’aide des opérations ensembliste aussi, alors les
événements A et B sont indépendants.

Exemple 1.7.10 On désigne comme d’habitude par φ(n) la fonction d’Euler de la théorie
des nombres, c’est à dire φ(n) est le nombre des entiers plus petits que n et qui sont
premiers avec n. Alors
Y 1
φ(n) = n (1 − )
p
p : p/n

où le produit est sur tous les facteurs premiers p de n. Pour redémontrer cette for-
mule, on considère le modèle probabiliste suivant : on choisit au hasard un nombre parmi
{1, 2, · · · , n} avec équiprobabilité. Pour tout nombre premier p, soit

Ap = { le nombre choisit est divisible par p}

Soient p1 , p2 , · · · , pm les facteurs premiers de n. Montrons d’abord que Ap1 , Ap2 , · · · , Apm
sont des événements indépendants. D’aprés la proposition précédente, il suffit de montrer
que P(Api1 ∩ · · · ∩ Apik ) = P(Api1 ) · · · P(Apik ). Or il est clair que

n n/pi 1
P(Api ) = P( le nombre est un élément de ∈ {pi , 2pi , 3pi , · · · , pi }) = =
pi n pi
tandis que

n n/q 1
P(Api1 ∩ · · · ∩ Apik ) = P( le nombre est un élément de ∈ {q, 2q, 3q, · · · , q}) = =
q n q

où q = pi1 × · · · × pik ce qui donne P(Api1 ∩ · · · ∩ Apik ) = P(Api1 ) · · · P(Apik ). On


sait donc que Ap1 , Ap2 , · · · , Apm sont indépendants. Ainsi Acp1 , Acp2 , · · · , Acpm sont aussi
indépendants. On a,
k
Y 1
P(Acpi ∩ ··· ∩ Acpi ) = P(Acpi ) · · · P(Acpi ) = (1 − ).
1 k 1 k pi
i=1

φ(n)
D’autre part, P(Acpi ∩ · · · ∩ Acpi ) = n , d’où l’identité.
1 k

1.7.1 Probabilité conditionnelle


On considère un événement A de probabilité P(A). Cette probabilité peut être considérée
comme un degré de confiance, compte tenu des informations que l’on possède, dans la
CHAPITRE 1. ESPACES PROBABILISÉS 24

réalisation de cet événement. Cette probabilité peut donc être modifiée, en plus ou en
moins, si une information supplémentaire est donnée. En particulier si une information dit
qu’un événement B s’est réalisé au cours de l’épreuve, on pourra modifier la probabilité
qu’on accorde à l’événement A. C’est cette nouvelle probabilité qui sera appelée proba-
bilité conditionnelle de A ”conditionnée par B” ou ”sachant B” (ou encore sachant que
l’événement B s’est réalisé la probabilité que l’événement A se soit réalisé). En particulier
la probabilité conditionnelle de B sachant B est égale à 1 puisque l’on sait que B est réalis.

Exemple 1.7.11 On lance à 2 reprises un dé. Quelle est la probabilité d’obtenir au moins
une fois la valeur 6. Ω = {(i, j) / 1 ≤ i, j ≤ 6} et où P est la probabilité uniforme sur Ω :

card(A) 1
P(A) = pour tout A ∈ P(Ω), et P({(i, j)}) = pour tout (i, j) ∈ Ω.
card(Ω) 36

Soit A l’événement ”obtenir au moins un six”, on a alors

A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6), (6, 5), (6, 4), (6, 3), (6, 2), (6, 1)}
11
et P(A) = 36 . Maintenant, on lance le dé deux fois et on annonce que la somme des deux
lancers est 8. Étant donnée cette information, quelle est la probabilité d’obtenir au moins
un 6 ? On note B l’événement ”la somme des deux lancers est 8”, on alors

B = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}

Parmi ces 5 résultats possibles, il y en a 2 pour lesquels il y a un six : (2, 6) et (6, 2) et


la réponse est donc 25 . Autrement , on a A ∩ B = {(2, 6), (6, 2)} et

2 2/36 P(A ∩ B)
= =
5 5/36 P(B)

Définition 1.7.12 Soient A, B ∈ A deux événements, tel que P(B) > 0. On appelle
probabilité conditionnelle de A sachant B le nombre réelle noté P(A/B) défini par :

P(A ∩ B)
P(A/B) =
P(B)

Soient A et B ∈ A deux événements, tels que P(B) > 0 et P(A) > 0. Alors

P(A ∩ B) = P(A/B)P(B) = P(B/A)P(A).

Proposition 1.7.13 1. Soient A et B deux événements tels que P(B) > 0. Les
événements A et B sont indépendants si et seulement si P(A/B) = P(A).
P(A)
2. Soient A et B deux événements tels que A ⊂ B et P(A) > 0. Alors P(A/B) = P(B)
et P(B/A) = 1.
CHAPITRE 1. ESPACES PROBABILISÉS 25

Démonstration 1.7.14 1. Si A et B sont indépendants, on a

P(A ∩ B) P(A)P(B)
P(A/B) = = = P(A).
P(B) P(B)
P(A∩B)
Inversement, si P(A/B) = P(A) alors P(B) = P(A) et donc P(A ∩ B) =
P(A)P(B).
P(A)
2. A ∩ B = A alors P(A/B) = P(B) et P(B/A) = 1

Proposition 1.7.15 Soit B un événement, tel que P(B) > 0.


L’application P(./B) : A −→ [0, 1] définie par

P(A ∩ B)
P(A/B) = pour tout A∈A
P(B)

est une nouvelle probabilité sur A, appelé probabilité conditionnelle si B, on la note aussi
PB .

Démonstration 1.7.16 1. Pour tout A ∈ A, on a 0 ≤ P(A/B) ≤ 1.


P(Ω∩B) P(B)
2. P(Ω/B) = P(B) = P(B) =1
3. Pour toute suite (dénombrable) (An )n≥1 d’éléments de A deux à deux disjoints,
on a
+∞
!
P(( +∞ P( +∞
S S P+∞
n=1 An ) ∩ B) n=1 (An ∩ B)) P(An ∩ B)
[
P An /B = = = n=1
P(B) P(B) P(B)
n=1

(An ∩ B)n≥1 estPune suite d’éléments dans A disjoints deux à deux, ainsi
puisque S
on a P( +∞
n=1 An /B) =
+∞
n=1 P(An /B)

Tout événement B tel que P(B) > 0 définit un nouvel espace probabilisé (Ω, P(Ω), P(./B)).
Ainsi toutes les propriétés usuelles des probabilités sont également valides pour les pro-
babilités conditionnelles. Par exemple, on a :
1. P(A/B) = 1 − P(Ac /B)
2. P(A ∪ C/B) = P(A/B) + P(C/B) − P(A ∩ C/B)

Exemple 1.7.17 Soit (Ω, P(Ω), P) un espace probabilisé où Ω est fini et où P est la
probabilité uniforme sur Ω. Soient A et B deux événement tel que P(B) > 0. On a alors

card(A ∩ B)
P(A/B) =
cardB
Le calcul de P(A/B) souligne bien que le conditionnement par B entraı̂ne une restriction
sur Ω, B devenant un événement sûr à sa place, et que les seuls cas favorables sont les
ceux réalisant A ∩ B.
CHAPITRE 1. ESPACES PROBABILISÉS 26

Remarque 1.7.18 Comme tout événement B tel que P(B) > 0 définit une probabilité
P(./B) = PB , il est possible par un deuxième conditionnement définir une nouvelle proba-
bilité conditionnelle PB (./A) par rapport à un événement A tel que P(A) > 0 à condition
que P(A ∩ B) > 0. En effet, pour tout C ∈ A, on a
PB (C ∩ A) P(C ∩ A ∩ B) P(B) P(C ∩ A ∩ B)
PB (C/A) = = = = P(C/A ∩ B).
PB (A) P(B) P(A ∩ B) P(A ∩ B)
De même PA (C/B) = P(C/A ∩ B), donc dans deux conditionnements successifs, l’ordre
des conditionnements n’intervient pas et conditionner deux fois de suites revient à condi-
tionner par l’intersection des événements correspondants.

Remarque 1.7.19 Dans certains problèmes ce sont la probabilité conditionnelle P(A/B)


et la probabilité P(B) qui sont données ou bien facile à calculer. On peut alors calculer
P(A ∩ B) (règle de multiplication). Dans la pratique, ce sont les données du problème qui
nous indiquent laquelle des deux formulation utiliser. Souvent il y a un ordre chronologique
et l’on conditionne sur celui des événements A ou B qui vient le premier.

Exemple 1.7.20 Un panier contient 5 boules noires et 3 boules blanches. On tire deux
boules au hasard sans remise de l’urne. Quelle est la probabilité d’obtenir deux boules
noires ? On pose
A = l’événement ”obtenir une boule noire au premier tirage”
B = l’événement ”obtenir une boule noire au deuxième tirage”
Alors la probabilité désirée est P(A ∩ B) et on a
54
P(A ∩ B) = P(A)P(A/B) =
87
Proposition 1.7.21 (Théorème des probabilités composées) Si A1 , · · · , An sont
des événements tels que P(A1 ∩ · · · ∩ An ) > 0, alors on a

P(A1 ∩ · · · ∩ An ) = P(A1 )P(A2 /A1 )P(A3 /A1 ∩ A2 ) · · · P(An /A1 ∩ · · · ∩ An−1 )

Démonstration 1.7.22 On raisonne par récurrence. Pour n = 2 le résultat est évident


puisque par définition P(A1 ∩ A2 ) = P(A1 )P(A2 /A1 ). Supposons que la relation est vraie
pour n − 1 et soit B = A1 ∩ · · · ∩ An−1 , on a alors P(B ∩ An ) = P(B)P(An /B). D’où le
résultat en remplaçant P(B) par sa valeur donnée par la formule de récurrence.

Exemple 1.7.23 Une urne contient initialement r boules rouges et b boules blanches.
On tire une boule à la fois
- si la boule est blanche, on le remet et on rajoute c boules blanches.
- si la boule est rouge, on le remet et on rajoute c boules rouges.
Quelle est la probabilité d’avoir une boule rouge à chaque fois au cours des trois premiers
tirages ?
Ai : l’événement obtenir une boule rouge au ième tirage.
r + 2c r+c r
P(A1 ∩ A2 ∩ A3 ) = P(A3 /A1 ∩ A2 )P(A2 /A1 )P(A1 ) =
r + 2c + b r + c + b r + b
CHAPITRE 1. ESPACES PROBABILISÉS 27

Exemple 1.7.24 Un panier contient 5 boules blues, 6 boules blanches et 7 boules rouges.
On tire 4 boules au hasard sans remise du panier. Quelle est la probabilité d’obtenir 4
boules de la même couleur ? On pose
D = l’événement ”obtenir 4 boules de même couleur”
A = l’événement ”obtenir 4 boules blues”
B = l’événement ”obtenir 4 boules blanches”
C = l’événement ”obtenir 4 boules rouges”
alors on a D = A ∪ B ∪ C. Comme les événement A, B et C sont deux à deux disjoints
on a :
P(D) = P(A) + P(B) + P(C)
D’aprés la règle de multiplication on a
5 4 3 2
P(A) =
18 17 16 15
6 5 4 3
P(B) =
18 17 16 15
7 6 5 4
P(C) =
18 17 16 15
Proposition 1.7.25 Soit (Bi )i∈I une partition finie ou infinie de Ω (l’ensemble d’indice
I est finie ou infinie) constituée d’événements vérifiant P(Bi ) > 0. Alors pour tout A ∈ A,
X
P(A) = P(A/Bi )P(Bi ).
i∈I

Démonstration
S 1.7.26 Comme (Bi )i∈I est une partition de Ω, alors on a :
A = i∈I (A ∩ Bi ) pour
P tout A ∈ A, et les A ∩ Bi sont deux-à-deux disjoints.
Pa P(A) = i∈I P(A ∩ Bi ) et par suite
Ainsi, on
P(A) = i∈I P(A/Bi )P(Bi ) puisque P(A ∩ Bi ) = P(A/Bi )P(Bi ).

Exemple 1.7.27 On lance une pièce de monnaie jusqu’à ce qu’on obtienne une pile.
Puis, on lance un dé un nombre de fois égal au nombre de fois qu’on a lancé la pièce
de monnaie. Quelle est la probabilité d’obtenir au moins un six avec le dé ? On pose A :
l’èvènement ”obtenir au moins un six avec le dé” et pour n ∈ N∗ En = l’événement ”la
première pile survient au nème lancer de la pièce”. D’autre part on a :
1
P(En ) = , ∀n ∈ N∗
2n
D’autre part on a
5n
P(A/En ) = 1 − P(Ac /En ) = 1 − , ∀n ∈ N∗
6n
CHAPITRE 1. ESPACES PROBABILISÉS 28

La suite (En )n∈N∗ forme une partition, d’où d’aprés la probabilité totale on a
+∞
X
P(A) = P(A/En )P(En )
n=1
+∞
X 5 1
= (1 − ( )n ) n
6 2
n=1
+∞ +∞
X 1 X 5 5
= ( )n − ( )n = 1 −
2 12 7
n=1 n=1

Proposition 1.7.28 (Théorème de bayes)


Soit (Bi )i∈I une partition finie ou infinie de Ω constituée d’événements vérifiant
P(Bi ) > 0. Alors pour tout A ∈ A tel que P(A) > 0 :

P(A/Bi )P(Bi )
P(Bi /A) = P .
j∈I P(A/Bj )P(Bj )

(appelée aussi probabilité des causes).

i ∩A) i )P(Bi )
Démonstration 1.7.29 Par définition, on a P(Bi /A) = P(B P(A) = P(A/B
P(A) d’où le
résultat en remplaçant dans le dénominateur P(A) par sa valeur d’aprés la proposition
précédente.

Exemple 1.7.30 Dans une population donnée, tout individu à la probabilité 0, 25 d’être
porteur d’un virus V. on dispose d’un test, on sait que si un individu n’est pas prteur d’un
virus V il à 9 chances sur 10 de répondre négativement au test alors que s’il est porteur
de V, il à 85 chance sur 100 de répondre positivement.
Un sujet de la population subit le test et le résultat est négatif, quelle est la probabilité
que le sujet soit porteur du virus V ?
V : l’événement être porteur de virus.
T : l’événement répondre positivement au test de dépésitage.
Les données sont : P(V ) = 0, 25, P(T c /V c ) = 0, 9 et P(T /V ) = 0, 85.
c /V )P(V )
Nous cherchons P(V /T c ) = P(T P(T c) or P(T c /V ) = 1 − P(T /V ) = 1 − 0, 85 = 0, 15 et
P(T c ) = P(T c /V )P(V ) + P(T c /V c )P(V c ) = 0, 15.0, 25 + 0, 9.0, 75.
Donc P(V /T c ) = 0, 053

Exemple 1.7.31 On réalise l’expérience décrite à l’exemple précédent et on n’a pas


obtenu aucun 6 avec le dé. Quelle est la probabilité que le dé ait été lancé plus de 4
fois ? Avec les notation précédente, la probabilité recherchée est simplement la probabilité
conditionnelle P(∪+∞ c
n=5 En /A ). On obtient alors
X
P(∪+∞ c
n=5 En /A ) = P(En /Ac )
n=5
X P(Ac /En )P(En )
= P c
n=5 m=5 P(A /Em )P(Em )
CHAPITRE 1. ESPACES PROBABILISÉS 29

X ( 56 )n 21n
= P 5 m 1
n=5 m=1 ( 6 ) 2m

( 5 )n
P
5 4
= P n=5 12
5 m = ( 12 )
m=1 ( 12 )

Exemple 1.7.32 Soit Ω un ensemble de N boules blanches et M boules noires. Ces boules
sont réparties entre deux urnes U1 et U2 . U1 contient n boules blanches et m boules noires.
U2 contient N − n boules blanches et M − m boules noires. On choisit au hasard une urne
U1 avec une probabilité p et U2 avec une probabilité 1 − p. On tire une boule au hasard,
les divers tirages sont équiprobables, dans l’urne choisie qui demeure inconnue. Sachant
qu’elle est blanche, quelle est la probabilité pour qu’elle provienne de l’urne U1 ? Soit les
événements A : ”la boule tirée est blanche” et B : ”la boule provient de U1 ”. On cherche
donc P(B/A). Comme {B, B c } est une partition alors

P(A/B)P(B)
P(B/A) = .
P(A/B)P(B) + P(A/B c )P(B c )
n N −n
Or P(A/B) = n+m et P(A/B c ) = N −n+M −m , d’où

pn(N − n + M − m)
P(B/A) = .
pnN − n + M − m) + (1 − p)(N − n)(n + m)
Chapitre 2

Variables aléatoires

Soit (Ω, A, P) un espace probabilisé.

2.1 Variables aléatoires


2.1.1 Définitions et propriètés
Définition 2.1.1 Soit (E, B) un espace probabilisable.
On dit que l’application X : Ω −→ E est une variable aléatoire de (Ω, A) dans (E, B) si

pour tout B ∈ B, X −1 (B) = {ω ∈ Ω, X(ω) ∈ B} ∈ A.

En particulier si E est une partie de R (resp de Rd ) la variable aléatoire est dite réelle
(resp un vecteur aléatoire).

Comme on vient de le voir, toute variable aléatoire est une application, par contre toute
application n’est pas nécessairement une variable aléatoire. Du point de vue analyse, une
variable aléatoire n’est autre qu’une application mesurable.

Remarque 2.1.2 Si l’ensemble Ω est fini ou dénombrable et A = P(Ω), alors toute


application X définie sur Ω est une variable aléatoire. En effet, l’ensemble image X(Ω)
est fini ou dénombrable et l’image réciproque de tout singleton de X(Ω) est une partie de
Ω. La variable aléatoire est dite discrète.

Proposition 2.1.3 Soient (Ω, A, P) un espace probabilisé et (E, B) un espace probabili-


sable. Soit X : Ω −→ E une variable aléatoire.
Alors la famille σ(X) = {X −1 (B) ∈ A / B ∈ B} est une tribu sur Ω incluse dans A
appelée tribu engendrée par X.

Démonstration 2.1.4 1. Ω = X −1 (E) et donc Ω ∈ σ(X).


2. Si A ∈ σ(X), alors il existe B ∈ B tel que A = X −1 (B) et par suite

Ac = X −1 (B c ) ∈ σ(X).

30
CHAPITRE 2. VARIABLES ALÉATOIRES 31

3. Soit (An )n∈N une suite d’éléments de σ(X), il existe alors une suite (Bn )n∈N une
suite d’éléments de B tel que An = X −1 (Bn ) pour tout n ∈ N, comme ∪+∞ n=1 An =
X −1 (∪+∞
n=1 n B ) et ∪+∞
B
n=1 n ∈ B, alors on a ∪+∞
A
n=1 n ∈ σ(X).

Plus généralement soient (Ω, A, P) un espace probabilisé, (E, B) un espace probabilisable


et X : Ω −→ E une application.
Alors la famille X −1 (B) = {X −1 (B) / B ∈ B} est une tribu sur Ω

Remarque 2.1.5 La tribu σ(X) est la plus petite tribu d’éléments de A rendant X une
variable aléatoire, elle représente l’information portée par X sur le résultat de l’expérience
aléatoire.

Proposition 2.1.6 Soient (Ω, A, P) un espace probabilisé et (E, σ(C)) un espace proba-
bilisable où C est une famille de parties de E. L’application X : Ω −→ E est une variable
aléatoire de (Ω, A) dans (E, σ(C)), si seulement si X −1 (C) ⊂ A.

Démonstration 2.1.7 Comme X est une application alors on a

σ(X −1 (C)) = X −1 (σ(C)).

En effet,
1. on a C ⊂ σ(C), d’où X −1 (C) ⊂ X −1 (σ(C)). Comme ce dernier ensemble est une
tribu, on a alors σ(X −1 (C)) ⊂ X −1 (σ(C)).
2. Soit
D = {B ⊂ E / X −1 (B) ∈ σ(X −1 (C))}.
On a alors X −1 (D) ⊂ σ(X −1 (C)) et vérifions que D est une tribu sur E :
(a) On a X −1 (E) = Ω ∈ σ(X −1 (C)), d’où E ∈ D.
(b) Soit (B S suite d’éléments de D, alors S
S n )n∈N une
X −1 ( n Bn ) = n X −1 (Bn ) ∈ σ(X −1 (C)), d’où n Bn ∈ D.
(c) Soit B ∈ D, alors X −1 (B c ) = (X −1 (B))c ∈ σ(X −1 (C)). D’où B c ∈ D.
Comme C ⊂ D, donc σ(C) ⊂ D et par suite

X −1 (σ(C)) ⊂ X −1 (D) ⊂ σ(X −1 (C))

et ainsi, on a σ(X −1 (C)) = X −1 (σ(C)).


Ainsi si, X −1 (C) ⊂ A, alors la tribu σ(X −1 (C)) = X −1 (σ(C)) ⊂ A et l’application X est
une variable aléatoire.

Conséquence
Soit (Ω, A, P) un espace probabilisé. Si l’ensemble Ω est quelconque et A est strictement
incluse dans P(Ω), alors pour que l’application X : Ω −→ E où E = R (resp E = Rd )
il faut que pour tout x ∈ R, X −1 (] − ∞, x]) ∈ A,
puisse définir une variable aléatoire, Q
(resp pour tout x1 , · · · , xd ∈ R, X ( di=1 ] − ∞, xi ]) ∈ A).
−1
CHAPITRE 2. VARIABLES ALÉATOIRES 32

Proposition 2.1.8 Soit (Ω, A, P) un espace probabilisé. Soient X et Y deux variables


aléatoires réelles sur (Ω, A, P). Alors :
1. αX + Y est une variable aléatoire réelle pour tout α ∈ R.
2. XY est une variable aléatoire réelle.
1
3. Si de plus ∀ω ∈ Ω, X(ω) 6= 0, X est une variable aléatoire réelle.
Soit (Xn )n∈N une suite de variables aléatoires réelles. Alors :
1. supn Xn , inf n Xn , lim sup Xn = limn→+∞ supm≥n Xm et lim inf Xn = limn→+∞ inf m≥n Xm
sont des variables aléatoires réelles.
2. Si la suite (Xn )n∈N converge en tout point de Ω, alors l’application limn Xn est
une variable aléatoire réelle.

2.1.2 Loi de probabilité d’une variable aléatoire


Soient (Ω, A, P) un espace probabilisé et (E, B) un espace probabilisable. La notion de
variable aléatoire X : Ω −→ E permet de probabiliser l’espace d’arrivée E. Comme l’es-
pace E est connu dans la pratique, on va préférer s’intéresser aux chances de réalisations
des valeurs de X plutôt qu’aux chances des résultats de l’expériences. Or P(A) n’a de sens
que pour A ∈ A, donc on ne peut définir une probabilité sur E que pour des événements
B tels que X −1 (B) ∈ A.

Proposition 2.1.9 Soient (Ω, A, P) un espace probabilisé et X : Ω −→ E une variable


aléatoire. Alors, l’application PX : B −→ [0, 1] dèfinie par

PX (B) = P(X −1 (B)) pour tout B ∈ B

est une mesure de probabilité sur (E, B) appelée loi de probabilité de la variable aléatoire
X ou encore sa distribution. On dit aussi que X suit la loi de probabilité PX .

Démonstration 2.1.10 Toutes les propriétés à vérifier découlent des propriétés élémentaires
suivantes X −1 (∅) = ∅, X −1 (E) = Ω, X −1 (B c ) = (X −1 (B))c , X −1 (∪i∈I Ai ) = ∪i∈I X −1 (Ai )
et enfin X −1 (∩i∈I Ai ) = ∩i∈I X −1 (Ai ).

Une variable aléatoire X : Ω −→ E définit ainsi un nouvel espace probabilisé (E, B, PX ) :


espace probabilisé propre à la variable aléatoire X. L’espace probabilisé (Ω, A, P) est alors
appelé par opposition espace probabilisé fondamental.
Notation
Soit X une variable aléatoire réelle définie sur l’espace probabilisé (Ω, A, P) et soit PX la
loi de probabilité de X sur (E, BR ). Pour tout borélien B de BR , on note

PX (B) = P({ω / X(ω) ∈ B}) = P(X ∈ B)

Ainsi, si X est une variable aléatoire réelle alors ∀x ∈ R on a :


- PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x).
- PX ({x}) = P(X ∈ {x}) = P(X = x).
CHAPITRE 2. VARIABLES ALÉATOIRES 33

Remarque 2.1.11 Ainsi grâce à la variable X, on peut transporter la structure du


modèle probabiliste (Ω, A, P) sur l’espace d’arrivée (E, B, PX ).

Exemple 2.1.12 On a vu au chapitre précédent comment modéliser le lancer de deux


dés à l’aide de l’espace Ω = {1, 2, · · · , 6}2 muni de la probabilité uniforme A = P(Ω).
Lors d’une réalisation ω = (ω1 , ω2 ) ∈ Ω, ω1 est le résultat du premier dé et ω2 celui du
second. La somme des deux dés S(ω) = ω1 + ω2 définit donc une variable aléatoire. On a
2 1
par exemple P(S = 11) = P({(5, 6), (6, 5)}) = 36 = 18 .

2.1.3 Espérance d’une variable aléatoire réelle


Définition 2.1.13 Soit X une variable aléatoire réelle quelconque positive presque p.s (
P(X ≥ 0) = 1). On appelle Espérance de X et on note E(X) la limite croissante
( éventuellement infinie ∈ R), de
+∞
X k k k+1
E(X) = lim P( ≤X< )
n→+∞ 2n 2n 2n
k=0

Définition 2.1.14 Soit X une variable aléatoire réelle quelconque. On dit qu’elle est
intégrable si E(|X|) < +∞. Dans ce cas, on définit son Espérance(finie) par

E(X) = E(X1{X≥0} ) − E(|X|1{X<0} )

2.1.4 Fonction de répartition


Définition 2.1.15 Soit X une variable aléatoire réelle. La fonction de répartition de X
est la fonction mesurable F, parfois notée FX , définie sur R par :
F (x) = P(X ∈] − ∞, x]) = P(X ≤ x), x ∈ R.

Remarque 2.1.16 Soit X une variable aléatoire réelle de fonction de répartition FX .


Alors :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
2. limx→+∞ FX (x) = 1 et limx→−∞ FX (x) = 0.
3. FX est croissante sur R et continue à droite en tout point de R.
4. FX caractérise la loi de X :

∀x, y ∈ R tq x ≤ y ona :

P(X ∈]x, y]) = P(x < X ≤ y) = FX (y) − FX (x)

5. Soient X et Y deux variables aléatoires réelles, si FX = FY alors X et Y ont la


même loi.
CHAPITRE 2. VARIABLES ALÉATOIRES 34

2.2 Variables aléatoires réelles discrètes


Définition 2.2.1 On appelle variable aléatoire réelle discrète toute variable aléatoire
X : Ω → R telle que X(Ω) = ∆ est au plus dénombrable ( fini ou dénombrable).

Exemple 2.2.2 Soit A ∈ A. La fonction indicatrice de A, 1A : Ω → R est une variable


aléatoire réelle discrète.

Proposition 2.2.3 Soit X une variable réelle aléatoire discrète on a alors


X
P(X = x) = 1
x∈X(Ω)

P par la donnée {(x, P(X = x)) | x ∈ X(Ω)}. Ainsi,


et la loi PX de X est déterminer
pour tout B ∈ BR , P(X ∈ B) = x∈X(Ω) P(X = x)1B (x).

Remarque 2.2.4 1. Si x ∈ / X(Ω), alors P(X = x) = 0.


2. En pratique, trouver la loi de X, c’est calculer les P(X = x) pour tout x ∈ X(Ω).
3. La fonction de répartition
P d’une variable aléatoire réelle discrète est donnée par :
∀x ∈ R, FX (x) = {t∈X(Ω) | t≤x} P(X = t)

Changement de variable :
Proposition 2.2.5 Soient X une variable aléatoire discrète et ϕ : R → R une fonction
mesurable. Alors la loi de Y, la variable aléatoire Y = ϕ(X) est donnée par
PY (B) = PX (ϕ−1 (B)), ∀B ∈ BRP .
Ainsi, ∀y ∈ Y (Ω), P(Y = y) = {x∈X(Ω) | y=ϕ(x)} P(X = x)

Remarque 2.2.6 Soit X une variable aléatoire discrète positive. On a :


k k+1 k k+1
2n P(X = x) ≤ xP(X = x) ≤ 2n P(X = x), x ∈ [ 2n , 2n [.
k k+1
En sommant sur x ∈ X(Ω) ∩ [ 2n , 2n [ il vient :
k k k+1 X k+1 k k+1
n
P( n ≤ X < )≤ xP(X = x) ≤ P( n ≤ X < ).
2 2 2n 2 n 2 2n
x∈X(Ω)∩[ 2kn , k+1
2n
[

En sommant sur k, et en prenant la limite quand n tend vers l’infin, on obtient alors que
X
E(X) = xP(X = x)
x∈X(Ω)

En utilisant la formule du changement de variable, on a, pour une variable aléatoire réelle


discrète quelconque :
X X
E(|X|) = y1{|x|=y} P(X = x) = |x|P(X = x).
x∈X(Ω) x∈X(Ω)

En
P conclusion, on obtient que si X est une variable aléatoire discrète intégrable, i.e. si
x∈X(Ω) |x|P(X = x) < +∞, alors son Espérance est définie par :
X
E(X) = xP(X = x)
x∈X(Ω)
CHAPITRE 2. VARIABLES ALÉATOIRES 35

Exemple 2.2.7 Si A est un événement, la variable aléatoire discrète 1A est positive et


E(1A ) = P(A). En particulier si Ω = A ⇒ E(1) = 1

Exemple 2.2.8
P Soit X : la variable aléatoire : le résultat d’un lancer d’un dé à 6 faces
⇒ E(X) = 6k=1 k6 = 72

Proposition 2.2.9 Soient X une variable aléatoire réelle discrète et g : R → R une


fonction telles que X
|g(x)|P(X = x) < +∞
x∈X(Ω)

Alors la variable aléatoire réelle discrète g(X) est intégrable et on a :


X
E(g(X)) = g(x)P(X = x)
x∈X(Ω)

Conséquence :
Si x∈X(Ω) |x|n P(X = x) < +∞, alors X n est intégrable et on a :
P

X
E(X n ) = xn P(X = x)
x∈X(Ω)

appelé moment d’ordre n.


Définition 2.2.10 Soit X une variable aléatoire réelle discrète de carré intégrable (
E(X 2 ) est fini). On appelle variance de X, le réel

V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2


p
et on appelle σ(X) = V(X) l’écart type de la variable X.

2.2.1 Fonction génératrices


Définition 2.2.11 Soit X une variable aléatoire discrète à valeurs P
dans N. On appelle
fonction génératrice de X la fonction GX : [0, 1] → R, s 7→ E(sX ) = +∞ n
n=0 s P(X = n)

Proposition 2.2.12 Soit X une variable aléatoire discrète à valeurs dans N, alors :
1. GX est une fonction entière sur [0, 1], de rayon de convergence ≥ 1.
2. GX est continue sur [0, 1] et de classe C ∞ sur [0, 1[.
(n)
GX (0)
3. GX détermine la loi de X et ∀n ∈ N, P(X = n) = n!

Proposition 2.2.13 Soit X une variable aléatoire discrète à valeurs dans N. Alors GX
admet une dérivée à gauche en s = 1 ssi E(X) existe et est finie, et l’on a : E(X) = G0X (1).

Remarque 2.2.14 La fonction GX admet une dérivée seconde à gauche en s = 1 ssi


E(X(X − 1)) existe et est finie, et l’on a :

E(X(X − 1)) = G”X (1)


CHAPITRE 2. VARIABLES ALÉATOIRES 36

2.3 Variables aléatoires réelles à densité


Définition 2.3.1 Soit X une variable alétoire réelle. On dit que X est absolument conti-
nue ou à densité, s’il existe une fonction mesurable réelle f : R → R telle que :
1. f ≥ 0 et mesurable sur R.
R +∞
2. −∞ f (x)dx = 1.
R R +∞
3. Pour tout borélien B ∈ B(R), on a : P(X ∈ B) = B f (x)dx = −∞ 1B (x)f (x)dx.
La fonction f est appelée densité de la variable aléatoire X.

Remarque 2.3.2 1. Pour tout x ∈ R, P(X = x) = 0.


2. La fonction de répartition associée
Rx est donnée par :
Pour tout x ∈ R, FX (x) = −∞ f (t)dt.
En particulier, si la densité f est continue, la fonction de répartition est continue
et même C 1 et de dérivée f.

Proposition 2.3.3 Soient X une variable aléatoire


R +∞ réelle de densité f et g : R → R une
fonction mesurable. g(X) est intégrable ssi −∞ |g(x)|f (x)dx < +∞ et dans ce cas son
Espérance est donnée par
Z +∞
E(g(X)) = g(x)f (x)dx
−∞

Conséquence
R +∞ n : R +∞
Si −∞ |x |f (x)dx < +∞, alors X admet un moment d’ordre n et E(X n ) = −∞ xn f (x)dx
R +∞ R
Exemple 2.3.4 Si A ∈ B(R), E(1A (X)) = −∞ 1A (x)f (x)dx = A f (x)dx = P(X ∈ A).
En particulier si A = R ⇒ E(1) = 1

Exemple 2.3.5 Déterminer la valeur de a pour que la fonction f définie sur R, soit une
d.d.p. d’une v.a.r. X, dans chacun des cas suivants :
a
(1) f (x) = 3x+1 si x > 0 et f (x) = 0 si x ≤ 0.
(2) f (x) = x2a+x pour x ∈ R.
3

Exemple 2.3.6 Déterminer (a, b) ∈ R2 tel que la fonction F définie par


(
a(x+4)
F (x) = b+|x| , si x ∈] − 4, +∞[;
0, si x ∈] − ∞, −4].

Soit une fonction de répartition d’une v.a.r. X

Remarque 2.3.7 1. Soit X une variable aléatoire réelle (discrète ou absolument


continue) telle que a ≤ X ≤ b p.s ⇒ a ≤ E(X) ≤ b.
2. E(αX + β) = αE(X) + β
CHAPITRE 2. VARIABLES ALÉATOIRES 37

Définition 2.3.8 Soit X une variable aléatoire réelle ( discrète ou absolument continue)
de carré intégrable ( E(X 2 ) est fini). On appelle variance de X, le réel

V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2


p
et on appelle σ(X) = V(X) l’écart type de la variable X.

Proposition 2.3.9 Soit X une variable aléatoire réelle de carré intégrable. Alors on a :
1. ∀a ∈ R, E((X − a)2 ) ≥ V(X).
2. ∀a, b ∈ R, V(aX + b) = a2 V(X) et σ(aX + b) = |a|σ(X).
3. Si V(X) = 0, alors il existe a ∈ R tel que X = a p.s.

Changement de variable

Proposition 2.3.10 Soient I et J deux intervalles ouverts de R. Soient X une variable


à valeurs dans I de densité fX et g : I → J C 1 −difféomorphisme. Alors Y = g(X) est
une variable aléatoire réelle de densité fY

fY (y) = fX (h(y))|h0 (y)|1J (y)

où h = g −1 la bijection réciproque de g.

Exercice 2.3.11 Soit X une variable aléatoire continue de fonction densité f définie
par : 
λ(4x − 2x2 ), si 0 < x < 2;
f (x) =
0, si non.
1. Déterminer λ
2. Calculer P(X > 1)

Exercice 2.3.12 Soit f la fonction définie sur R par :


ax(1 − x), si 0 < x < 1;
f (x) =
0, si non.
1. Trouver a pour que f soit la densité d’une V.A.R X.
2. Déterminer la fonction de répartition F de X.

2.3.1 Fonction caractéristique d’une v.a réelle


Définition 2.3.13 Soit X une v.a réelle. On appelle fonction caractéristique de X la
fonction ΦX : R → C, t 7→ ΦX (t) = E(eitX ).
En particulier :
1. Si la v.a X est réelle discrète, alors
X
ΦX (t) = eitx P(X = x)
x∈X(Ω)
CHAPITRE 2. VARIABLES ALÉATOIRES 38

2. Si la v.a X admet une densité fX , alors


Z +∞
ΦX (t) = eitx fX (x)dx
−∞

Remarque 2.3.14 Soit X une v.a réelle et (a, b) ∈ R2 , alors ΦaX+b (t) = eibt ΦX (at)

Complément : transformée de Fourier


Si X est une v.a.c de densité fX , on a :
Z
ΦX (t) = eitx fX (x)dx = fb(−t)
R

où fb est la transformée de Fourier de fX . OnRsait dans certains cas inverser la transfor-
mation de Fourier. Ainsi si fb est intégrable ( R |fb(t)|dt < +∞), alors on peut retrouver
la fonctionR fX à l’aide de la transformée de Fourier inverse de fb :
iux du
fX (x) = R e fb(−u) 2Π , pour tout x ∈ R.
Ainsi si ΦX est intégrable, on peut retrouver la densité de la loi à partir de la fonction
caractéristique.

Proposition 2.3.15 (admis)


La fonction caractéristique caractérise la loi :
Deux v.a réelles X et Y ont la même loi ssi ΦX = ΦY

Proposition 2.3.16 Soit X une v.a réelles de fonction caractéristique ΦX , alors :


1. ΦX est continue sur R.
2. |ΦX (t)| ≤ 1 pour tout t ∈ R.
3. ΦX (0) = 1.
4. ΦX (−t) = ΦX (t).

Remarque 2.3.17 Soit X une v.a.r admet des moments d’ordre ≤ n, alors ΦX est de
classe C n et
(n)
ΦX (t) = (i)n E(X n eitX ), ∀t ∈ R

Exemple 2.3.18 Soit X une v.a.r discrète tq X(Ω) = N∗ et ∀n ∈ N∗ , P(X = n) = 1


2n .
Déterminer la fonction caractéristique de X et en déduire E(X) et V(X).

Exemple 2.3.19 Soit X une v.a.r de fonction caractéristique ΦX définie par ΦX (t) =
t
e3(e −1) . Calculer P(X = 3)

2.4 Lois de probabilités usuelles


1-Lois dicrètes usuelles
CHAPITRE 2. VARIABLES ALÉATOIRES 39

1. Loi de Bernoulli. Soit p ∈]0, 1[. On dit qu’une


 v.a X suit la loi de Bernoulli de
P(X = 1) = p ;
paramètre p notée B(p), si X(Ω) = {0, 1} et
P(X = 0) = 1 − p,
X admet des moments de tous ordres et
E(X) = p, V(X) = p(1 − p) et GX (s) = 1 − p + sp ∀s ∈ R
2. Loi Binomiale. Soient p ∈]0, 1[ et n ∈ N∗ . On dit qu’une v.a X suit la loi
Binomiale de paramètres (n, p) notée B(n, p) si X(Ω) = {0, · · · , n} et ∀ 0 ≤ k ≤ n,

P(X = k) = Cnk pk (1 − p)n−k

X admet des moments de tous ordres et


E(X) = np, V(X) = np(1 − p) et GX (s) = (1 − p + sp)n , ∀s ∈ R
Exemple 2.4.1 On a constaté qu’un vaccin provoque un accident grave pour 5000
vaccacinations. On administre ce vaccin à 10000 individus.
(a) Donner la loi de probabilité de la variable aléatoire
X :=” nombre d’accidents grave pour 10000 vaccinations”.
(b) Calculer les probabilité des événements suivants : ”aucun accident”, ”un acci-
dent seulement”, ”plus d’un accident”.
3. Loi géométrique :
Soit p ∈]0, 1[. On dit qu’une v.a X suit la loi géométrique de paramètre p notée
G(p) si X(Ω) = N∗ et P(X = n) = p(1 − p)n−1 , ∀n ∈ N∗
E(X) = p1 , V(X) = 1−pp2
ps
, et GX (s) = 1−(1−p)s , ∀s ∈] − 1, 1[
4. Loi de Poisson. Soit λ ∈ R∗+ . On dit qu’une v.a X suit la loi de Poisson de
paramètre λ noté P(λ) si X est à valeurs dans N et
−λ n
P(X = n) = e n!λ , ∀n ∈ N
X admet des moments à tout ordre 2 et l’on a E(X) = V(X) = λ et GX (s) =
exp(λ(s − 1)), ∀s ∈ R
2-Les principales lois absolument continues
1. Loi uniforme U(a, b) Une v.a.r X à valeurs dans [a, b] suit la loi uniforme sur
[a, b] notée U(a, b), si elle admet pour densité
1
fX (x) = 1 (x)
b − a [a,b]

 0, si x < a;
x−a
(a) Pour tout x ∈ R, FX (x) = b−a , si a ≤ x ≤ b;
1, si x ≥ b.

X−a
(b) X est de loi U(a, b) ssi la v.a Y = b−a est de loi U(0, 1).
(c) X admet des moments a toutes ordres :
(b−a)2
E(X) = a+b
2 et V(X) = 12
(d) Soit Y une v.a de loi U(0, 1), alors
it sin( 2t )
ΦY (t) = e 2 t , ∀t ∈ R
2
CHAPITRE 2. VARIABLES ALÉATOIRES 40

Exemple 2.4.2 Soit X une v.a.r qui suit une loi uniforme sur [a, b]. Sachant que
E(X) = 4 et V(X) = 12 calculer a et b.
Exemple 2.4.3 Soit X une v.a.r qui suit une loi uniforme sur [−1, 32 ].
Déterminer la fonction d.d.p fY de la v.a.r Y = X 2 .
Exemple 2.4.4 Soit X une v.a.r qui suit une loi uniforme sur [a, b].
Déterminer la loi de Y = −X.
Exemple 2.4.5 Soit X une v.a.r qui suit une loi uniforme sur ] − 1, 1[.
1
Déterminer la fonction d.d.p fY de la v.a.r Y = e X .
2. Loi normales N (m, σ) soient m ∈ R et σ ∈ R∗+ . Une v.a X à valeurs dans R
est dite de loi normale de paramètres m et σ notée N (m, σ) si elle admet pour
densité 2
fX (x) = σ√12Π exp(− (x−m)
2σ 2
), ∀x ∈ R
X−m
Remarque 2.4.6 La v.a X est de loi normales N (m, σ) ssi la v.a U = σ est
de loi normale N (0, 1) appelée normale centré, si donc de densité
2
fU (u) = √12Π exp(− u2 ), ∀u ∈ R

Propriéts 2.4.7 Soit U une v.a de loi normale N (0, 1) et soit X une v.a de loi
normale N (m, σ)
(a) fU est paire et admet un maximum pour u = 0, qui vaut fU (0) = √12Π .
f ”U (u) = 0 ssi u = ±1.
Ru 2
(b) Les valeurs de FU (u) = √12Π −∞ exp(− t2 )dt sont lues on utilisons les tables
numériques : FU (1, 96) = 0, 975 et FU (0) = 0, 5
(c) Pour tout u ∈ R, FU (−u) = 1 − FU (u).
(d) Pour tout (a, b) ∈ R2 tels que a < b, on a

b−m a−m
P(a < X ≤ b) = FU ( ) − FU ( )
σ σ

(e) U et X admettent des moments de tous ordres. E(U ) = 0 et V(U ) = E(U 2 ) = 1


et par suite E(X) = m et V(X) = σ 2
t2 t2 σ 2
(f ) Pour tout t ∈ R, on a ΦU (t) = e− 2 et ΦX (t) = eitm− 2

Exemple 2.4.8 Soit X une v.a.r. qui suit une loi N (µ, σ).
Sachant que
P(X ≤ −2) = 0, 0062 et P(X > 15) = 0, 0401. Calculer µ et σ.
Exemple 2.4.9 Soit X une v.a.r. qui suit une loi N (µ, σ),
telle que P(X ≥ 3) = 0, 08413 et P(X ≥ 9) = 0, 0228. Calculer µ et σ.
Exemple 2.4.10 En utilisant Φ la fonction √
de répartition de la loi N (0, 1) caculer
2+ 2 2
une valeur approchée à 10−4 prés de 2 e−x +4x−2 dx.
R
CHAPITRE 2. VARIABLES ALÉATOIRES 41

3. Loi exponentielle Soit λ ∈ R∗+ . Une v.a X à valeurs dans ]0, +∞[ est dite de loi
exponentielle de paramètre λ notée E(λ) si elle admet pour densité
f (x) = λe−λx 1]0,+∞[ (x), ∀x ∈ R
(a) Pour tout x ∈ R :
FX (x) = (1 − e−λx )1R∗+ (x)

(b) X admets des moments de tous ordres et on a :


E(X) = λ1 et V(X) = λ12
Exemple 2.4.11 Soit T une v.a.r qui suit une loi exponentielle de paramètre λ
Déterminer α pour que P(T > α) = P(T ≤ α).
4. Loi Gamma G(a, λ) Soient a ∈ R∗+ . Une v.a X à valeurs dans R∗+ est dite de loi
Gamma de paramètres a et λ notée G(a, λ) si elle admet pour densité

λa −λx a−1
fX (x) = e x 1R∗+ (x)
Γ(a)
R +∞
On rappelle que la fonction Γ est définie sur R∗+ par Γ(a) = 0 e−x xa−1 dx et
que ∀a > 0, Γ(a + 1) = aΓ(a) et donc Γ(n) = (n − 1)! pour tout n ∈ N∗ .

Exemple 2.4.12 Soit X une v.a.r qui suit une loi normale centrée réduite et soient
Y = |X| et Z = X 2 ;
1. Déterminer la fonction d.d.p de la v.a.r Z et E(Z).
2. Déterminer la fonction d.d.p de la v.a.r Y et E(Y ).

Exemple 2.4.13 Soit X une v.a.r. qui suit une loi N (0, 1). On pose Y = eX+1 . Déterminer
la fonction d.d.p. de la v.a.r. Y et l’éspérance E(Y ).

Exemple 2.4.14 Soit X = N (0, 1) et ε une v.a.r discrète tq ε(Ω) = {−1, 1} et


P(ε = 1) = P(ε = −1) = 21 .
Déterminer la loi de Y = εX.
FY (y) = P(−X ≤ y/ε = −1)P(ε = −1) + P(X ≤ y/ε = 1)P(ε = 1)

Exemple 2.4.15 X est dite suit la loi de Gauchy de paramètre a > 0 : si la densité de
X est donnée par f (x) = Πa x2 +a
1 1
2 . Calculer la loi de X .

Exercice 2.4.16 Soit X une v.a.r continue de fonction de répartition F. Soit Y = F (X).
Déterminer la loi de Y

Indication :
∀x ∈ R, F (x) ∈ [0, 1] 
 P(∅), si y ≤ 0;
FY (y) = P(F (X) ≤ y) = −1 −1
P(X ≤ F (y)) = F ◦ F (y) = y, si y ∈]0, 1[;
P(Ω) = 1, si y ≥ 1.

Chapitre 3

Vecteurs aléatoires

On suppose dans la suite que toutes les v.a sont définies sur le même espace probabilisé
(Ω, A, P).

3.1 V.a et lois de probabilités


Proposition 3.1.1 Une application X : Ω → Rd d’applications coordonnées X1 , X2 , · · · , Xd
est une variable aléatoire (vecteur aléatoire) si et seulement si chaque application coor-
donnée Xi : Ω → R est une v.a réelle.

Un vecteur aléatoire X à valeurs dans Rd est un d−uplet (X1 , X2 , · · · , Xd ) de v.a réelles.

3.1.1 Loi de probabilité d’une v.a


Définition 3.1.2 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd .
1. On appelle loi conjointe des v.a réelles X1 , X2 , · · · , Xd , la loi du v.a X = (X1 , X2 , · · · , Xd )
dans Rd .
2. On appelle lois marginales, les lois PX1 , · · · , PXd des v.a réelles X1 , X2 , · · · , Xd .

3.1.2 Fonction de répartition d’une v.a

Définition 3.1.3 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd .


On appelle fonction de répartition de X la fonction FX : Rd → [0, 1] telle que pour tout
d,
x = (x1 , x2 , · · · , xd ) ∈ RT
FX (x1 , x2 , · · · , xd ) = P( di=1 {Xi ∈] − ∞, xi ]}) = P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xd ≤ xd ).

Proposition 3.1.4 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd


de fonction de répartition FX , alors
1. FX est croissante par rapport à chaque variable.
2. Pour tout i = 1, · · · , d
(a)
lim FX (x1 , · · · , xi , · · · , xd ) = 0
xi →−∞

42
CHAPITRE 3. VECTEURS ALÉATOIRES 43

(b)
lim FX (x1 , · · · , xd ) = 1
x1 →+∞,···,xd →+∞

3. FX est continue à droite par rapport à chaque variable.


4. FX est discontinue en (x1 , x2 , · · · , xd ) ssi P(X1 = x1 , X2 = x2 , · · · , Xd = xd ) > 0

Proposition 3.1.5 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd


de fonction de répartition FX . Pour tout k ∈ {1, · · · , d}, la v.a (X1 , X2 , · · · , Xk ) à pour
fonction de répartition

F(X1 ,X2 ,···,Xk ) (x1 , · · · , xk ) = lim FX (x1 , · · · , xd )


xi →+∞, i=k+1,···,d

En particulier la v.a Xk a pour fonction de répartition

FXk (xk ) = lim FX (x1 , · · · , xd )


xi →+∞, i6=k

3.2 V.a discrètes


Définition 3.2.1 La v.a (X1 , X2 , · · · , Xd ) est une v.a discrète (vecteur aléatoire) si et
seulement si chaque application coordonnée Xi : Ω → R est une v.a réelle discrète.

Proposition 3.2.2 Soit X = (X1 , X2 , · · · , Xd ) une v.a discrète dans Rd . La loi de la v.a
X est caractérisée par la donnée de l’ensemble

{(x, P(X = x)) / x ∈ X(Ω)} ⊂ Rd × [0, 1]


P
telle que : x∈X(Ω) P(X = x) = 1

Lois marginales :
On peut déterminer la loi marginale de Xi à partir de la loi de X = (X1 , X2 , · · · , Xd ).
Quitte à permuter i par 1, il suffit de calculer la loi marginale X1 .
Proposition 3.2.3 Soit X = (X1 , X2 , · · · , Xd ) une v.a discrète vectorielle. Pour tout
y ∈ R, on a
X
P(X1 = y) = P(X1 = y, X2 = x2 , · · · , Xd = xd )
x2 ∈X2 (Ω),···,xd ∈Xd (Ω)

Exemple 3.2.4 (Loi discrète du couple (X, Y ))


Soient X et Y deux v.a réelles discrètes. Ainsi,
P
x∈X(Ω),y∈Y (Ω) P(X = x, Y = y) = 1.
Les lois marginales PX et PY sont données par :
X
P(X = x) = P(X = x, Y = y)
y∈Y (Ω)
X
P(Y = y) = P(X = x, Y = y).
x∈X(Ω)
CHAPITRE 3. VECTEURS ALÉATOIRES 44

La fonction de répartition FX,Y est donnée par :


X
FX,Y (x, y) = P(X = z, Y = t)
{z∈X(Ω) | z≤x, t∈Y (Ω) | t≤y}

Exemple 3.2.5 On considère le lancer de deux dés, modèlisé par l’espace probabilisé
Ω = ({1, 2, · · · , 6})2 muni de la probabilité uniforme. Si X est la v.a.d qui représente le
résultat du premier dé et Y celui du second, on a pour ω = (ω1 , ω2 ) ∈ Ω, X(ω) = ω1 et
Y (ω) = ω2 .
On a : £(X) = £(Y ), c’est la loi uniforme sur {1, 2, · · · , 6}.
1
Mais on a P(X = 5, X = 6) = 0 et P(X = 5, Y = 6) = 36 .
Ainsi les v.a.d (X, Y ) et (X, X) n’ont pas la même loi alors que toutes les lois marginales
sont ègales.

3.3 V.a absolument continues


Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd .

Définition 3.3.1 Soit PX est absolument continue, s’il existe une fonction réelle
f : Rd → R, telle que
(i) f ≥ 0, mesurable.
(ii) f est intégrable sur Rd et
Z +∞ Z +∞
··· f (x1 , · · · , xd )dx1 · · · dxd = 1.
−∞ −∞

de sorte que pour tout B ∈ BRd


Z Z
PX (B) = f (x1 , · · · , xd )dx1 · · · dxd = 1B (x1 , · · · , xd )f (x1 , · · · , xd )dx1 · · · dxd
B Rd

La fonction f est appelée densité de la loi de probabilité de X.

Proposition 3.3.2 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd de fonction de


répartition FX et densité fX . Alors
R x1 R xd
1. pour tout (x1 , · · · , xd ) ∈ Rd , on a FX (x1 , · · · , xd ) = −∞ · · · −∞ f (y1 , · · · , yd )dy1 · · · dyd
2. FX est continue sur Rd .
3. FX est dérivable presque partout sur Rd et telle que pour tout (x1 , · · · , xd ) où fX
est continue
∂ d FX
(x1 , · · · , xd ) = fX (x1 , · · · , xd )
∂x1 · · · ∂xd

Exemple 3.3.3 La densité conjointe


 −(x+y)
e , si x > 0 et y > 0;
f(X,Y ) (x, y) =
0, si non.
CHAPITRE 3. VECTEURS ALÉATOIRES 45

Déterminer la fonction densité de probabilité fZ de la v.a.r Z = X


Y .
X x
FZ (z) = P(Z ≤ z) = P( Y ≤ z), on pose Ωz = {(x, y) / y ≤ z} et
x
Ω ∩ Ωz = {(x, y) /x > 0, y > 0 et ≤ z}
y
−(x+y) dxdy.
RR RR
FZ (z) = P((X, Y ) ∈ Ω ∩ Ωz ) = Ω∩Ωz f(X,Y ) (x, y)dxdy = Ω∩Ωz e
Si z ≤ 0 Ω ∩ Ωz = R∅.
+∞ R yz
Si z > 0, FZ (z) = 0 e−y ( 0 e−x dx)dy = 1 − 1+z 1
(
1
(1+z)2
, si z > 0;
fZ (z) = F 0 (z) =
0, si z ≤ 0.

3.3.1 Lois marginales


Proposition 3.3.4 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd de densité fX .
Alors pour tout k ∈ {1, · · · , d}, la v.a (X1 , X2 , · · · , Xk ) à pour fonction de densité
Z
f(X1 ,X2 ,···,Xk ) (x1 , x2 , · · · , xk ) = fX (x1 , x2 , · · · , xd )dxk+1 · · · dxd
Rd−k
En particulier, la v.a Xk à pour densité
Z
fXk (xk ) = fX (x1 , x2 , · · · , xd )dx1 · · · dxk−1 dxk+1 · · · dxd
Rd−1

Démonstration 3.3.5 Il suffit de calculer PX (B) où B = A × Rd−k avec A ∈ BRk


Remarque 3.3.6 À partir de la loi du couple (X, Y ), on peut donc calculer la loi de X
et la loi de Y. La réciproque est fausse comme le montre l’exercice suivant.
Exercice 3.3.7 Soit deux couples (X1 , Y1 ), dont la loi pour densité
f (x, y) = (x + y)1{(x,y)∈[0,1]2 }
et (X2 , Y2 ), dont la loi pour densité
1 1
g(x, y) = (x + )(y + )1{(x,y)∈[0,1]2 } .
2 2
Montrer que les lois marginales sont égales £(X1 ) = £(X2 ) et £(Y1 ) = £(Y2 ) alors que
les lois des couples sont distinctes.
Proposition 3.3.8 Soient ∆ et D deux ouverts de Rd . Soient X = (X1 , · · · , Xd ) une v.a
à valeurs dans ∆ de densité f(X1 ,···,Xd ) et g : ∆ → D C 1 −diffèomorphisme de ∆ dans D.
Alors Y = g(X) est une v.a de densité
fY (y) = fX (h(y))|J(h(y))|1D (y)
où h = g −1 est bijection réciproque de g et où J(h(y)) est le jacobien de l’application
h = (h1 , · · · , hd ) en y = (y1 , · · · , yd ) :
 
∂h1 ∂h1
(y1 , · · · , yd ) ··· ∂yd (y1 , · · · , yd )
 ∂y1
J(h(y)) = det  ··· ··· ···


∂hd ∂hd
∂y1 (y1 , · · · , yd ) ··· ∂yd (y 1 , · · · , yd )
CHAPITRE 3. VECTEURS ALÉATOIRES 46

Exemple 3.3.9 On considdère (X, Y ) un couple de v.a.r de densité conjointe f(X,Y )


définie par :  2
x2 y 2
, si x ≥ y ≥ 1;
f(X,Y ) (x, y) =
0, sinon.
On pose U = XY et V = X Y
Déterminer la densité conjointe f(U,V ) du couple (U, V ).

Indication :
Domaine du couple (X, Y ) : Ω = {(x, y) ∈ R2 / x ≥ y ≥ 1}
Lorsque (x, y) varient dans Ω : u = xy ≥ 1, v = xy ≥ 1 et uv = y 2 ≥ 1 donc u ≥ v. D’autre

part x = h1 (u, v) = uv et y = h2 (u, v) = uv et donc det Jh(u,v) = −1
p
2v , d’où
 1
u2 v
, si u ≥ v ≥ 1;
f(U,V ) (u, v) =
0, sinon.

Exemple 3.3.10 On considère le couple de v.a.r (X, Y ) de densité conjointe f(X,Y )


définie par : ( x+1
ky 2 e−( 2 ) , si 0 < y < x + 1;
f(X,Y ) (x, y) =
0, sinon.
Déterminer k, on pose U = X − Y + 1 et V = 21 Y
Déterminer la densité conjointe f(U,V ) de (U, V ) et les dinsités marginales fU et fV .

Indication :
Ω = {(x, y) ∈ R2 / 0 < y < x + 1}
RR R +∞ 2 R +∞ −( x+1 ) 1
R2 f (x, y)dxdy = 0 y ( y−1 e 2 dx)dy = 1 ⇔ k = 32
u = x − y + 1 et v = 12 y ⇒ x = h1 (u, v) = u + 2v − 1 et y = h2 (u, v) = 2v
(x, y) varie dans Ω ⇔ u > 0 et v > 0
det Jh (u, v) = 2 d’où
(
1 2 −( u+2v )
4v e , si u > 0 et v > 0
2
f(U,V ) (u, v) =
0, sinon.

-Si u ≤ 0 alors fU (u) = 0.


u R +∞ u
-Si u > 0 alors fU (u) = 41 e− 2 0 v 2 e−v dv = 21 e− 2
fV (v) = 12 v 2 e−v 1{v>0}

3.4 Moments d’un vecteur aléatoire


Proposition 3.4.1 Soit X = (X1 , X2 , · · · , Xd ) une v.a. Soit g : Rd → R une fonction
mesurable. Alors g(X1 , X2 , · · · , Xd ) est une v.a réelle.
- Si la v.a X est discrète et
X
|g(x1 , · · · , xd )|P(X1 = x1 , · · · , Xd = xd ) < +∞,
x1 ∈X1 (Ω)···xd ∈Xd (Ω)
CHAPITRE 3. VECTEURS ALÉATOIRES 47

on a alors
X
E(g(X)) = g(x1 , · · · , xd )P(X1 = x1 , · · · , Xd = xd )
x1 ∈X1 (Ω)···xd ∈Xd (Ω)

- Si la v.a X est absolument continue et


Z +∞ Z +∞
··· |g(x)|fX (x)dx1 · · · dxd < ∞
−∞ −∞

on a alors Z +∞ Z +∞
E(g(X)) = ··· g(x)fX (x)dx1 · · · dxd
−∞ −∞

3.4.1 Espérance d’un vecteur aléatoire


Proposition 3.4.2 Soient X et Y deux v.a réelles intégrables,
1. Pour tout α ∈ R, la v.a αX +Y est intégrable et on a : E(αX +Y ) = αE(X)+E(Y )
2. Si X ≤ Y p.s alors E(X) ≤ E(Y )

Exercice 3.4.3 Soit ϕ une fonction réelle convexe : Pour tout x, y ∈ R, et t ∈ [0, 1],
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y).
Il existe une unique caractérisation des fonctions convexes, pour tout a ∈ R, il existe
λa ∈ R tel que
ϕ(a) + λa (x − a) ≤ ϕ(x)
1. On suppose X est une variable aléatoire réelle intégrable. Montrer que
ϕ(E(X)) ≤ E(ϕ(X)), dés que E(ϕ(X)) a un sens.
2. En déduire que si X 2 est intégrable, alors (E(X))2 ≤ E(X 2 )

Proposition 3.4.4 Soit X une v.a réelle


1. Inégalité de Markov : Soit X une v.a.r positive, alors ∀a > 0, on a :

E(X)
P(X ≥ a) ≤
a
2. Inégalité de Tchebychev : ∀a > 0, on a :

E(X 2 )
P(|X| ≥ a) ≤
a2
3. Inégalité de Jensen : On suppose que X est intégrable. Soit ϕ une fonction
convexe. Si E(ϕ(X)) existe alors on a :

ϕ(E(X)) ≤ E(ϕ(X)).

En particulier (E(X))2 ≤ E(X 2 )


CHAPITRE 3. VECTEURS ALÉATOIRES 48

4. Inégalité de Cauchy-Shawrtz : Soit (X, Y ) un couple de v.a réelles. On suppose


que X 2 et Y 2 sont intégrables. Alors XY est intégrable et on a :
p p
|E(XY )| ≤ E(X 2 ) E(Y 2 )

Remarque 3.4.5 (Inégalité de Bienaymé-Tchebytchev)


Soit X une v.a.r de carré intégrable, alors ∀a > 0

V(X)
P({|X − E(X)| ≥ a}) ≤
a2
Corollaire 3.4.6 Soit X une v.a positive p.s (i.e P(X ≥ 0) = 1). Si E(X) = 0 alors X
est nulle p.s (i.e P(X = 0) = 1.)

Démonstration 3.4.7 On déduit de l’inégalité de Tchebychev que pour tout n ≥ 1,


on a : P(X ≥ n ) = 0. Par convergence monotone P(X > 0) = P( n≥1 (X ≥ n1 ) =
1 T

limn→+∞ P(X ≥ n1 ) = 0. Comme P(X ≥ 0) = 1, cela implique X = 0 p.s.

Démonstration 3.4.8 (1) On a vu que P(|X| ≥ a) = E(1{|X|≥a} ). Soit ω ∈ Ω.


X(ω)2
- Si |X(ω)| ≥ a, alors on a 1{|X|≥a} (ω) = 1 ≤ a2
.
X(ω)2
Si |X(ω)| < a, alors on a 1{|X|≥a} (ω) = 0 ≤ a2 .
2
Dans tous les cas, on a 1{|X|≥a} (ω) = 0 ≤ X(ω)
a2
. Par croissance de l’espérance, on obtient
l’inégalité de Tchebychev.
(2)Pour la démonstration de l’inégalité de Jenson, voir l’exercice précédent.
2 2 (X 2 +Y 2 )
(3) ∀x, y ∈ R, |xy| ≤ x +y 2 . Donc |XY | ≤ 2 . Comme X 2 et Y 2 sont intégrables,
2 2
par linéairité, (X +Y
2
)
est intégrable.
- Si E(Y 2 ) = 0 ⇒ Y = 0 p.s ⇒ XY = 0 p.s et l’inégalité est triviale.
- Si E(Y 2 ) > 0, on a : ∀λ ∈ R

0 ≤ E[(X − λY )2 ] = E((X)2 ) − 2λE(XY ) + λ2 E(Y 2 )


E(XY ) 2
Le membre de droite est minimal pour λ = E(Y 2 )
. On obtient alors : 0 ≤ E(X 2 )− (E(XY ))
E(Y 2 )

Définition 3.4.9 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd tel que les v.a
réelles X1 , · · · , Xd admettent des espérances finies. On appelle Espérance du vecteur X
le vecteur de Rd
E(X) = (E(X1 ), E(X2 ), · · · , E(Xd )).
Ainsi en
 utullisant
 l’écriture 
matricielle,
 on a
X1 E(X1 )
[X] =  .  et E([X]) =  . 
Xd E(Xd )
CHAPITRE 3. VECTEURS ALÉATOIRES 49

3.4.2 Covariance de deux v.a réelles


Définition 3.4.10 Soient X et Y deux v.a réelles admettant des moments d’ordre 2. On
appelle covariance de X et Y le réel
cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
Si cov(X, Y ) = 0, on dit que X et Y sont non corrélées.

Remarque 3.4.11 cov(X, Y ) = cov(Y, X) et cov(X, X) = V(X).

Proposition 3.4.12 Soient X et Y deux v.a réelles admettant des moments d’ordre 2,
alors
1. cov(aX + b, cY + d) = ac cov(X, Y ) pour tout réels a, b, c et d.
2. cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
3. V(X + Y ) = V(X) + V(Y ) + 2cov(X, Y ).

Exemple 3.4.13 Soient X et Y deux v.a.r conjointement continues de fonction densité


conjointe f(X,Y ) définie par :
−x−2y , si x ≥ 0 et y ≥ 0;
 4
f(X,Y ) (x, y) = 5 (x + 2y)e
0, sinon.

1. Déterminer les densités marginales fX de X et fY de Y.


2. Calculer E(X), E(Y ), E(XY ) et cov(X, Y ).

Coefficient de corrélation entre deux v.a.r


Définition 3.4.14 Soient X et Y deux v.a réelles admettant des moments d’ordre 2. On
appelle coefficient de corrélation entre X et Y le réel :
cov(X, Y )
ρ(X, Y ) = p
V(X)V(Y )

Proposition 3.4.15 Soient X et Y deux v.a réelles admettant des moments d’ordre 2.
Alors
1. −1 ≤ ρ(X, Y ) ≤ 1.
2. ρ(aX + b, cY + d) = ac
|ac| ρ(X, Y ) pour tous réels a, c ∈ R∗+ et b, d ∈ R.

Exemple 3.4.16 Soit X = N (0, 1). On pose Y = a + bX + cX 2 où a, b, et c ∈ R∗ .


b
Montrer que ρ(X, Y ) = √b2 +2c 2
.

Matrices de covariance
Définition 3.4.17 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd tel que les v.a
réelles X1 , · · · , Xd admettent des moments d’ordre 2.
On appelle matrice de covariance la matrice réelle d’ordre d définie par

ΣX = (cov(Xi , Xj ))1≤i,j≤d
CHAPITRE 3. VECTEURS ALÉATOIRES 50

 
V(X1 ) · · · cov(X1 , Xd )
 cov(X2 , X1 ) · · · cov(X2 , Xd ) 
ΣX = 
 ··· ··· ··· 
cov(Xd , X1 ) ··· V(Xd )
En utilisant l’écriture matricielle,
ΣX = E(([X] − E([X])([X] − E([X])t ) = E([X][X]t ) − E([X])(E([X]))t où [X]t est le
transposée du vecteur [X].
Conséquence
Soit X = (X1 , X2 , · · · , Xd ) une v.a de matrice de covariance ΣX . Alors
1. Pour tout α ∈ R, ΣαX = α2 ΣX .
2. Pour tout u ∈ Rd , Σu+X = ΣX .
3. (ΣX )t = ΣX
4. Soit une matrice A ∈ Mq×d et Y une v.a à valeurs dans Rq tel que Y = AX, alors
ΣY = AΣX At
Proposition 3.4.18 Soient X1 , X2 , · · · , Xn n v.a réelles admettant des moments d’ordre
2, alors
V(X1 + · · · + Xn ) = ni=1 V(Xi ) + 2 1≤i<j≤n cov(Xi , Xj )
P P

3.5 Fonction carctéristique d’une v.a


Définition 3.5.1 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd . On appelle
fonction caractéristique de X, la fonctionQΦX : Rd → C définie par
ΦX (s1 , · · · , sd ) = E(eis1 X1 +···+isd Xd ) = E( dk=1 eisk Xk ) En utilisant l’écriture matricielle,
t [X]
Φ(X1 ,···,Xd ) (s1 , · · · , sd ) = E(ei[s] ) = E(eihs,Xi )

Remarque 3.5.2 1. Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd . On suppose


que pour tout i ∈ {1, 2, · · · , d}, E(|Xi |) < +∞. Alors ΦX admet des dérivées
partielles continues et l’on a :
∂ d ΦX (s1 , · · · , sd ) Pd
= id E(X1 · · · Xd ei j=1 sj Xj )
∂s1 · · · ∂sd
2. La loi du v.a X = (X1 , · · · , Xd ) est déterminée par celles de toutes les combinaisons
linéaires de ces composantes.
3. Deux v.a X et Y à valeurs dans Rd ont la même loi ssi ΦX = ΦY

3.6 V.a indépendantes


Définition 3.6.1 Les v.a X1 , · · · , Xn à valeurs dans Rd1 , · · · , Rdn sont indépendantes si
pour tout A1 ∈ B(Rd1 ), · · · , An ∈ B(Rdn )
n
Y
P(X1 ∈ A1 , · · · , Xn ∈ An ) = P(Xi ∈ Ai )
i=1
CHAPITRE 3. VECTEURS ALÉATOIRES 51

Proposition 3.6.2 Soient X1 , · · · , Xn n v.a réelles indépendantes. Soient h1 , · · · , hn ; n


fonctions réelles mesurables. Alors les v.a réelles

h1 (X1 ), · · · , hn (Xn )

sont indépendantes.

Proposition 3.6.3 Soient X1 , · · · , Xn n v.a réelles. Alors X1 , · · · , Xn sont indépendantes


ssi pour tout (x1 , · · · , xn ) ∈ Rn
n
Y
F(X1 ,···,Xn ) (x1 , · · · , xn ) = FXi (xi )
i=1

Indépendance de v.a discrètes

Proposition 3.6.4 Soient X1 , · · · , Xn n v.a réelles discrètes. Les v.a X1 , · · · , Xn sont


indépendantes si pour tout (x1 , · · · , xn ) ∈ Rn :
n
Y
P(X1 = x1 , · · · , Xn = xn ) = P(Xi = xi )
i=1

Exemple 3.6.5 On désigne par X1 et X2 le résultat de lancer de deux dés, on vérifier


facilement que X1 et X2 sont indépendantes.

Exercice 3.6.6 Soient A et B deux événements. Montrer que A et B sont indépendantes


ssi 1A et 1B sont des v.a.d indépendantes.

Exercice 3.6.7 On considère le lancer de deux dés à 6 faces. Soit X = (X1 , X2 ) le couple
de v.a.d. réprésentant le résultat du premier dé et du second dé.
Calculer la loi de la somme des deux faces S = X1 + X2 . Calculer la loi de max(X1 , X2 )
et du vecteur aléatoire Y = (max(X1 , X2 ), min(X1 , X2 )).

Indépendance de v.a absolument continues

Proposition 3.6.8 Soit (X1 , · · · , Xn ) une v.a absolument continu à valeurs dans Rn .
Alors Les v.a X1 , · · · , Xn réelles sont indépendantes si pour tout (x1 , · · · , xn ) ∈ Rn :
n
Y
f(X1 ,···,Xn ) (x1 , · · · , xn ) = fXi (xi )
i=1

Indépendance et espérance

Proposition 3.6.9 Soient X1 , · · · , Xn ; n v.a.réelles. X1 , · · · , Xn sont indépendantes ssi


pour toutes fonctions réelles mesurables bornées h1 , · · · , hn , on a
n
Y
E(h1 (X1 ) · · · hn (Xn )) = E(hi (Xi ))
i=1
CHAPITRE 3. VECTEURS ALÉATOIRES 52

Conséquences
Soient X et Y deux v.a réelles indépendantes admettant un moment d’ordre 2. Alors
1. cov(X, Y ) = ρ(X, Y ) = 0.
2. V(X + Y ) = V(X) + V(Y ).

Remarque 3.6.10 La réciproque est fausse : deux variables aléatoires peuvent être non
corrélées sans être indépendantes.

Exemple 3.6.11 Soit X une variable aléatoire de loi uniforme sur {1, · · · , 6}. On pose
Y = 1{X∈{1,6}} . Montrer que cov(X, Y ) = 0, mais X et Y ne sont pas indépendants.

Proposition 3.6.12 Soient X1 , · · · , Xn n v.a réelles. X1 , · · · , Xn sont indépendantes ssi


pour tout (s1 , · · · , sn ) ∈ Rn
n
Y
Φ(X1 ,···,Xn ) (s1 , · · · , sn ) = ΦXk (sk )
k=1

3.7 Somme de v.a réelles


Somme de v.a.r discrètes
Proposition 3.7.1 Soient X et Y deux v.a à valeurs entières. Soit Z = X + Y.
1. La loi de probabilité de Z est donnée par
P(Z = k) = i+j=k P(X = i, Y = j) = ki=0 P(X = i, Y = k − i)
P P

2. Si de plus X et Y sont indépendantes, alors


k
X
P(Z = k) = P(X = i)P(Y = k − i)
i=0

et Pour tout s ∈ [0, 1]


GX+Y (s) = GX (s)GY (s)

3.7.1 Shéma de Bernoulli et autres exemples


Définition 3.7.2 On appelle shéma de Bernoulli toute suite de variables réelles discrètes
{Xn , n ∈ N∗ } indépendantes et indentiquement distribuées (i.i.d) telle que la loi de Xn
est la loi de Bernouilli de paramètre p.

Remarque 3.7.3 1. Le shéma de Bernoulli {Xn , n ∈ N∗ } modèlise un jeu infini de


pile ou face avec une pièce biaisé de parmètre p. La v.a.d Xn modèlise le résultat
du n−ième lancer.
2. Si {Xn , n ∈ N∗ } le shéma de Bernoulli de parmètre p. Alors Sn = ni=1 Xi est
P
de loi Binomiale de paramètre (n, p).
3. Si {Xn , n ∈ N∗ } le shéma de Bernoulli de parmètre p.
Alors T = inf{n ≥ 1, Xn = 1} est de loi géomètrique de paramètre p.
CHAPITRE 3. VECTEURS ALÉATOIRES 53

4. La loi de Poisson apparait comme limite de la loi Binomiale de paramètre (n, p)


lorsque n → +∞ et np → λ et donc p → 0.

Somme de v.a.r absolument continues


Proposition 3.7.4 Soient X et Y deux v.a réelles indépendantes de fonctions densités
fX et gY . Alors
1. La v.a X + RY admet pour densité la fonction hX+Y = fX ∗ gY définie par
+∞ R +∞
hX+Y (z) = −∞ fX (z − y)gY (y)dy = −∞ fX (x)gY (z − x)dx
2. Pour tout s ∈ R
ΦX+Y (s) = ΦX (s)ΦY (s)

Exemple 3.7.5 Soient X et Y deux v.a réelles indépendantes de lois respectivementp


N (m1 , σ1 ) et N (m2 , σ2 ). Alors la v.a somme X+Y est de loi normale N (m1 +m2 , σ12 + σ22 ).

Exemple 3.7.6 Soient X et Y deux v.a.r indépendantes qui suivent une loi uniforme
sur [0, 2].
On pose Z = X + Y et T = X − Y
Déterminer les fonctions d.d.p fZ et fT .
 1
 4 z, si 0 < z ≤ 2;
1
fZ (z) = fX ∗ fY (z) = (4 − z), si 2 < z ≤ 4;
 4
0, sinon.

Exercice 3.7.7 Montrer que :


1. Si X = B(n, p), Y = B(m, p) et X et Y sont indépendantes alors

X + Y = B(n + m, p).

2. Si X = P(λ1 ), Y = P(λ2 ) et X et Y sont indépendantes alors X +Y = P(λ1 +λ2 ).

3.8 Vecteurs gaussiens


Définition 3.8.1 Une v.a (X1 , · · · , Xd )Pà valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi normale.

Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk est une v.a réelle de
loi normale.
Exemple 3.8.2 Soit X1 , · · · , Xd des v.a gaussiennes indépendantes. On supoose que la
loi de Xk est la loi gaussienne N (mk , σk ). Alors le vecteur X = (X1 , · · · , Xd ) est un vec-
teur gaussien. En effet, soit a = (a1 , · · · , ad ) ∈ Rd . On calcule la fonction caractéristique
de ha, Xi :
d d a2 2 2
k σk u
Pd Y Y
Φha,Xi (u) = E[e iu k=1 ak Xk
]= E[e iuak Xk
]= eiuak mk − 2 =
k=1 k=1
CHAPITRE 3. VECTEURS ALÉATOIRES 54

ha, ΣX aiu2
exp(iuha, mi − ),
2
où m = (m1 , · · · , md ) et ΣX = Diag(σ12 , · · · , σd2 ) est une matrice diagonale. On en déduit
que la loi de ha, Xi est la loi gaussienne N (ha, mi, ha, ΣX ai). Donc X est un vecteur
gaussien.

Théorème 3.8.3 Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance


m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
   
s1 m1
pour tout s =  .  où m =  . 
sd md

Démonstration 3.8.4 On a vu que Xi est une variable aléatoire gaussienne. En particu-


lier elle est de carré intégrable. Ceci implique que X est de carré intégrable. On remarque
que pour s ∈ Rd :
ΦX (s) = E[eihs,Xi ] = Φhs,Xi (1).

P hs, Xi est de
Or par définition, P loi gaussienne. On calcule les paramètres de cette loi :
E[hs, Xi] = E[ dk=1 sk Xk ] = dk=1 sk E[Xk ] = hs, mi, où m = E[X],
et par bilinéarité
Pd: P
V(hs, Xi) = V( k=1 sk Xk ) = 1≤k,l≤d sk sl (E[Xk Xl ] − E[Xk ]E[Xl ]) = hs, ΣX si.
On en déduit, que :
hs,ΣX si
Φhs,Xi (1) = eihs,mi− 2 .
Il reste à vérifier que la matrice ΣX est symétrique (évident d’aprés sa construction) et
positive. On remarque que hs, ΣX si = V(hs, Xi), et cette quantité est toujours positive.
La démonstrartion de la réciproque est similaire à la démonstration de l’exemple 3.8.2.

Proposition 3.8.5 Soit (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd . Les com-
posantes X1 , · · · , Xd sont indépendantes ssi la matrice de covariance ΣX est diagonale.
Qd
Démonstration 3.8.6 On montre que Φ(X1 ,···,Xd ) (s1 , · · · , sd ) = i=1 ΦXi (si )

Remarque 3.8.7 1. Soit (X, Y ) un vecteur gaussien. Alors, on a :


les v.a X et Y sont indépendantes ⇔ Cov(X, Y ) = 0.
2. Soient X et Y deux v.a réelles de loi normales. On peut avoir Cov(X, Y ) = 0 sans
que les v.a X et Y soient indépendantes.

Exemple 3.8.8 Soit X une variable aléatoire réelle de loi N (0, 1). Soit ε une variable
aléatoire discrète indépendante de X et telle que P(ε = 1) = P(ε = −1) = 21 . On pose
Y = εX.
1) Déterminer la fonction de répartition de Y en fonction de FX . En déduire la loi de Y.
2) Calculer ρ(X, Y ).
CHAPITRE 3. VECTEURS ALÉATOIRES 55

3) Soit (a, b) ∈ R2 tel que 0 < a < b.


(a) Calculer E[X 2 Y 2 ] et E[X 2 ]E[Y 2 ]. En conclure que X et Y ne sont pas indépendantes.
Le vecteur (X, Y ) est-il gaussien ?
(b)Calculer P(X ∈ [−a, a]) en fonction de FX (a).
(c) Calculer P(X ∈ [−a, a], Y ∈ [−b, b]) et P(X ∈ [−a, a])P(Y ∈ [−b, b]). Vèrifier encore
les v.a.r. X et Y ne sont pas indépendantes ?
(c) Calculer P(X = Y ).

Proposition 3.8.9 Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd d’espérance


m = (m1 , · · · , md ). X admet une densité sur Rd ssi sa matrice de covariance ΣX est in-
versible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = 1
d√ e− 2 h(x−m),ΣX (x−m)i
  (2Π) 2 det
ΣX 
m1 x1
où m =  .  et x =  . 
md xd

3.9 Espérance conditionnelle


Cas de v.a réelle discrète
Définition 3.9.1 Soient X une v.a discrète et Y une v.a quelconque intégrable. Soit
x ∈ X(Ω) tel que
P(X = x) > 0. On appelle espérance conditionnelle de Y sachant [X = x].
E(Y 1{X=x} )
E(Y /X = x) = .
P(X = x)

Définition 3.9.2 Soient X et Y 2 v.a rélles discrètes et x ∈ X(Ω) tel que


P(X = x) > 0. On appelle loi conditionnelle de Y sanchant [X = x], la mesure de
probabilité
P(X = x, Y = y) pxy
PY /X=x ({y}) = P(Y = y/X = x) = = .
P(X = x) px
On définit de même les lois conditionnelles de X sachant [Y = y].
P
On suppose que Y admet une espérance finie ( y∈Y (Ω) |y|py < +∞). Par suite pour
p
x ∈ X(Ω) fixé, la série y∈Y (Ω) pxy
P
x
y, est aussi absolument convergente.
P pxy
Remarque 3.9.3 y∈Y (Ω) px εy est une mesure de probabilité sur Y (Ω).
p
E(Y /X = x) = y∈Y (Ω) y pxy
P
x

Définition 3.9.4 On suppose que Y admet un moment d’ordre 1. L’éspérance condition-


nelle de Y sachant X est la v.a réelle définie par
E(Y /X)(ω) = h(X(ω))
où h est la fonction définie par
h(x) = E(Y /X = x) pour tout x ∈ X(Ω).
CHAPITRE 3. VECTEURS ALÉATOIRES 56

Attention
E(Y /X = x) est un nombre réel et E(Y /X) est une v.a réelle et E(Y /X)(ω) dépend de ω
car la valeur de X(ω) dépend de ω.
Remarque 3.9.5 E(Y /X)(Ω) = {E(Y /X = x) / x ∈ X(Ω)}
Exercice 3.9.6 Soient A et B deux événements tq 0 < P(B) < 1. Calculer la loi de 1A
sachant 1B . Caculer E(1A /1B ).
Proposition 3.9.7 Soit X une v.a discrète et Y une v.a quelconque.
1. Soit g une fonction mesurable tq la v.a g(X, Y ) est intégrable alors on a
E[E(g(X, Y )/X)] = E(g(X, Y ))
en particulier E[E(Y /X)] = E(Y )
2. Si X et Y sont indépendantes, alors pour toute fonction mesurable u tq u(Y ) est
intégrable, on a :
E(u(Y )/X) = E(u(Y ))
3. Pour toute fonction mesurable u telle que u(X) est intégrable, on a :
E(u(X)/X) = u(X)
4. Soit u une fonction mesurable telle que u(Y ) est intégrable et soit v une fonction
réelle mesurable bornée alors on a :
E(v(X)u(Y )/X) = v(X)E(u(Y )/X)
{X=x} E(g(X,Y )1 )
Démonstration 3.9.8 1. On pose h(x) = E(g(X, Y )/X = x) = P(X=x)
P P
E[E(g(X,
P Y )/X)] = E(h(X)) = x∈X(Ω) h(x)P(X = x) = x∈X(Ω) E(g(x, Y )1{X=x} ) =
E( x∈X(Ω) g(x, Y )1{X=x} ) = E(g(X, Y )).
E(u(Y )1{X=x} )
2. h(x) = P(X=x) comme X et Y sont indépendantes alors h(x) = E(u(Y ))
E(u(X)1{X=x} ) E(u(x)1{X=x} ) E(1{X=x} )
3. h(x) = P(X=x) = P(X=x) = u(x) P(X=x) = u(x)
E(v(X)u(Y )1{X=x} ) E(v(x)u(Y )1{X=x} )
4. h(x) = P(X=x) = P(X=x) =
E(u(Y )1{X=x} )
v(x) P(X=x) = v(x)E(u(Y )/X = x)
Cas de v.a réelle absolument continues
Soit (X, Y ) un couple de v.a réelles de densité f(X,Y ) et de densité marginales fX et fY .
Définition 3.9.9 On appelle densité de Y conditionnelle à [X = x], la fonction fY /X=x (.)
définie par : (
f(X,Y ) (x,y)
fY /X=x (y) = fX (x) , si fX (x) > 0;
0, sinon.
De même, on appelle densité de X conditionnelle à [Y = y], la fonction fX/Y =y (.) définie
par : fY /X=x (.) définie par :
(
f(X,Y ) (x,y)
fX/Y =y (x) = fY (y) , si fY (y) > 0;
0, sinon.
CHAPITRE 3. VECTEURS ALÉATOIRES 57

Remarque 3.9.10 Si X et Y sont indépendantes, alors pour tout x tq fX (x) > 0, on


a:
fY /X=x (y) = fY (y)

Convention : R
On pose P(Y ∈ A/X = x) = A fY /X=x (y)dy
Espérance conditionnelle :
Soit (X, Y ) Rune v.a et soit g : R2 → R une fonction mesurable réelle telle que g(X, Y ) est
intégrable ( |g(x, y)|f(X,Y ) (x, y)dxdy < +∞).
Définition 3.9.11 On appelle espérance de g(X, Y ) conditionnelle sachant [X = x] le
réel Z
E(g(X, Y )/X = x) = g(x, y)fY /X=x (y)dy
R
R
Remarque 3.9.12 E(Y /X = x) = R yfY /X=x (y)dy elle peut s’intrèpreter comme l’espérance
de Y par rapport à la loi de probabilité de densité fY /X=x .

Définition 3.9.13 On appelle espérance de g(X, Y ) sachant X la v.a réelle définie par :
E(g(X, Y )/X)(ω) = h(X(ω))
où h : R → R, x 7→ h(x) = E(g(X, Y )/X = x)

Exercice 3.9.14 On considère (X, Y ) un vecteur aléatoire à valeurs dans R2 , continue


et de densité f(X,Y ) (x, y) = λx e−λx 1{0<y<x} .
Déterminer la loi conditionnelle de Y sachant X.
Soit ϕ : une fonction réelle mesurable bornée. Caculer E[ϕ(X, Y )/X].

Indication :
on a la densité de X est donnée par fX (x) = R f(X,Y ) (x, y)dy = λe−λx 1{0<x} , on en
R

déduit que, pour x > 0, fY /X=x (y) = x1 1{0<y<x} . c’est la densité de la loi uniforme sur
[0, x].
On dit que conditionnellement à X, Y suit une loi uniforme sur [0, X]. Comme ϕ est
bornée, ϕ(Y ) est intégrable et on a :
1 X
Z
E(ϕ(Y )/X) = ϕ(y)dy
X 0
Exercice 3.9.15 Soient X1 , X2 des v.a.c uniformes sur [0, 1] indépendantes. Calculer
la loi de X1 sachant S = X1 + X2 .
Pour cela on pourra calculer d’abord la loi du couple (X1 , S). Remarquer que la loi de X1
sachant S est la loi uniforme sur l’intervalle [S − 1, S] ∩ [0, 1].

Remarque 3.9.16 On admet le résultat qui est similaire à la définition de l’espérance.


Soient X, Y deux v.a telles que Rpour tout fonction bornnée mesurable g, on ait :
E(g(Y )/X) = ψ(X) où ψ(x) = g(y)h(x, y)dy.
Alors conditonnellement à X = x, Y est une v.a.c de densité y 7→ h(x, y).
En fin l’espérance conditionnelle possède les propriétés de linéarité, postivité et croissance.
Chapitre 4

Convergence de suites de variables


aléatoires

Soit (Xn )n∈N une suite de variables aléatoires définie sur l’espace probabilisè (Ω, A, P).
On se propose dans ce chapitre d’étudier avec précision la notion ”Xn est voisin de X
pour n assez grand” et plus généralement l’étude de divers types de convergences d’une
suite de variables aléatoires (g(Xn ))n∈N .

4.1 Divers mode de Convergence


On rappelle que deux variables aléatoires X et Y définies sur le même l’espace pro-
babilisé (Ω, A, P) sont égales presque-sûrement si

P({ω ∈ Ω/X(ω) 6= Y (ω)}) = 0.

On suppose dans la suite que toutes les variables aléatoires réelles ou suite de variables
aléatoires sont définies sur le même espace probabilisé (Ω, A, P).

4.1.1 Convergence presque sûre


Définition 4.1.1 Soit (Xn )n∈N une suite de variables aléatoires. On dit que la suite
P.s
(Xn )n∈N converge presque sûrement vers une variable aléatoire X, et on écrit Xn → X,
s’il existe un événement A avec P(A) = 1, tel que

lim Xn (ω) = X(ω) pour tout ω ∈ A.


n→+∞

ou encore P({ω/ limn→+∞ Xn (ω) = X(ω)}) = 1. Une suite de v.a vectorielles (Xn,1 , · · · , Xn,d )n∈N
converge p.s si les suites coordonnées (Xn,i )n∈N pour i ∈ {1, · · · , d} converge p.s.

En d’autres termes l’ensemble des points de divergence au sens classique de l’analyse est
de probabilité nulle.
Proposition 4.1.2 Soit (Xn )n∈N une suite de v.a qui converge p.s vers X. Soit h une
fonction continue. Alors la suite (h(Xn ))n∈N converge p.s vers h(X).

58
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 59

Démonstration 4.1.3 Soit A = {ω ∈ Ω |Xn (ω) → X(ω)} alors P(A) = 1. Pour ω ∈ A


on a limn→+∞ h(Xn (ω)) = h(X(ω))

P.s 1 P.s 1
Exemple 4.1.4 Si Xn → X et si P(X = 0) = 0, alors la suite Xn → X

Théorème 4.1.5 (Convergence dominée) Soit Y une v.a réelle positive telle que
E(Y ) < +∞. Soit (Xn )n∈N une suite de v.a (réelles ou vectorielles) telles que pour tout
n ∈ N, |Xn | ≤ Y (on dit que les v.a Xn sont dominées par la v.a Y ). Si la suite (Xn )n∈N
converge p.s vers X, alors X est intégrable et l’on a

lim E(Xn ) = E( lim Xn )


n→+∞ n→+∞

Application Soit X une v.a et Y une v.a.d. Soit ϕ une fonction mesurable bornée. Alors
on a X
E(ϕ(X, Y )) = E(ϕ(X, y)1{Y =y} ).
y∈Y (Ω)

Et montrer donc si X et Y sont indépendantes


X
E(ϕ(X, Y )) = E(ϕ(X, y))P(Y = y).
y∈Y (Ω)

On
S considère une suite croissante P (Ωn )n∈N∗ de sous ensemble finis telle que
n∈N∗ Ωn = Y (Ω) On pose Zn = P y∈Ωn ϕ(X, y)1{Y =y} .
La v.a Zn est dominée par kϕk∞ y∈Ωn 1{Y =y} P ≤ kϕk∞ .
De plus la suite (Zn )n∈N∗ converge p.s vers y∈Y (Ω) ϕ(X, y)1{Y =y} = ϕ(X, Y ). par le
théorème de convergence dominée, on obtient
X
E(ϕ(X, y)1{Y =y} ) = lim E(Zn ) = E( lim Zn ) = E(ϕ(X, Y ))
n→+∞ n→+∞
y∈Y (Ω)

Théorème 4.1.6 (Convergence monotone). Soit (Xn )n∈N∗ une suite croissnte de v.a
réelles positives. On a alors

lim E(Xn ) = E( lim Xn )


n→+∞ n→+∞

(les limites peuvent être infini).

4.1.2 Convergence en probabilité


Définition 4.1.7 Soit (Xn )n∈N une suite de variables aléatoires réelles.
1. On dit que la suite (Xn )n∈N converge en probabilité vers la constante a, et on écrit
P
Xn → a, si
pour tout ε > 0, lim P(|Xn − a| > ε) = 0.
n→+∞

ou encore pour tout ε > 0 limn→+∞ P(|Xn − a| ≤ ε) = 1.


CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 60

2. On dit que la suite (Xn )n∈N converge en probabilité vers une variable aléatoire X,
P P
et on écrit Xn → X, si Xn − X → 0,
(pour tout ε > 0, limn→+∞ P(|Xn − X| > ε) = 0).

Exemple 4.1.8 Soit (Xn )n∈N la suite de variables aléatoires réelles telles que pour tout
n ∈ N∗ , la variable aléatoire réelle Xn suit la loi de Bernoulli B( n1 ), P(Xn = 1) = n1 et
P(Xn = 0) = 1 − n1 . Pour tout ε > 0, on a P(|Xn | > ε) ≤ P(|Xn | > 0) = n1 . D’où par
passage à la limite lorsque n tend vers +∞, on a limn→+∞ P(|Xn | > ε) = 0 et par suite
P
Xn → 0.

Remarque 4.1.9 1)Il est facile de voir que les résultats usuels sur les limites (unicités,
linéarité,...) sont valables dans les deux cas.
2) Lorsque E(Xn ) = a, il suffit de montrer que limn→+∞ V(Xn ) = 0, pour établir
la convergence en probabilité de Xn vers a. En effet, d’aprés l’inégalité de Bienaymé-
Tchebycheff, pour tout ε > 0, on a
V(Xn )
P(|Xn − E(Xn )| > ε) < .
ε2
P
par passage à la limite lorsque n tend vers +∞, on en déduit que Xn − E(Xn ) → 0.

Exemple 4.1.10 Soit (Xn )n∈N une suite de variables aléatoires indépendantes définie
sur l’espace probabilisé (Ω, A, P) de loi de Bernoulli B(p), associées à une suite d’épreuves :
si Xn prend la valeur 1, on dit qu’il y a succés ; sinon on a un échec. Soit Sn =
X1 + · · · + Xn , le nombres de succés durant les n premières épreuves et soit Sn /n la
proportions des succés parmi ces n épreuves. La variable aléatoire Sn suit la loi Bino-
miale B(n, p), et donc
   
Sn Sn p(1 − p)
E = p et V =
n n n
D’aprés l’inégalité Bienaymé-Tchebycheff, pour tout ε > 0, on a
 
Sn p(1 − p)
P | − p)| > ε ≤
n nε2

Comme pour tout p ∈ [0, 1], on a p(1 − p) ≤ 14 , et donc


 
Sn 1
P | − p)| > ε ≤ ,
n 4nε2
Sn P
et par passage à la limite lorsque n tend vers +∞, on a n → p.

Théorème 4.1.11 (lois faibles des grands nombres) Soit (Xn )n∈N une suite de va-
riables aléatoires réelles indépendantes toutes de mme loi ayant une espérance m et une
variance σ 2 . On a
1 P
(X1 + · · · + Xn ) → m.
n
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 61

Démonstration 4.1.12 Comme


σ2
   
1 1
E (X1 + · · · + Xn ) = m et V (X1 + · · · + Xn ) = ,
n n n
alors d’aprés l’inégalité de Bienaymé-Tchebycheff, pour tout ε > 0, on a
σ2
 
1
P | (X1 + · · · + Xn ) − m| > ε < 2 .
n nε
D’où le résultat par passage à la limite lorsque n tend vers +∞.

Proposition 4.1.13 Soit (Xn )n∈N une suite de variables aléatoires. Si la suite (Xn )n∈N
converge presque sûrement vers une variable aléatoire X, alors la convergence a lieu
P.s P
également en probabilité (Xn → X alors Xn → X).

Proposition 4.1.14 Soit (Xn )n∈N une suite de variables aléatoires. Si la suite (Xn )n∈N
converge en probabilité vers une variable aléatoire X, alors il existe une suite extraite
(XΦ(n) )n∈N qui converge presque sûrement vers une variable aléatoire X.

Remarque 4.1.15 Soit (Xn )n∈N une suite de variables aléatoires réelles admettant des
moments d’ordre 1 et soit X une variable aléatoire admettant un moment d’ordre 1.
P
Si limn→+∞ E(|Xn − X|) = 0 alors Xn → X.
En effet, d’aprés l’inégalité de Markov, on a
1
P (|Xn − X| ≥ ε) ≤ E(|Xn − X|)
ε
Proposition 4.1.16 Soient (Xn )n∈N une suite de variables aléatoires réelles définie et
f une fonction continue de Rd dans R.
P.s P.s
1. Si Xn → X, alors f (Xn ) → f (X).
P P
2. Si Xn → X, alors f (Xn ) → f (X).

4.1.3 La loi forte des grands nombres


On considère une suite (Xn )n∈N de variables aléatoires réelles indépendantes et de
même loi : dire qu’elles sont indépendante sous-entend qu’elles sont définie sur le même
espace probabilisé (Ω, A, P) . On considère la moyenne empirique des n premières variables
aléatoires, définie par
1
X n = (X1 + · · · + Xn )
n
on se propose d’étudier la convergence presque sûre de X n vers l’espérance des Xn lorsque
cette dernière existe (comme les Xn ont même loi, cette espérance ne dépend pas de n)
ou encore dans une suite d’expériences aléatoires indépendantes, la moyenne empirique
converge presque sûrement vers la moyenne théorique. Il s’agit là d’un des résultats essen-
tiels de toute la théorie des probabilités, connu sous le nom de loi des grands nombres car
elle justifie à posteriori son axiomatique en la reliant à l’expérience et à la notion intuitive
de fréquence relative d’apparition d’un événement dans la suite d’expérience aléatoires
indépendantes.
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 62

Théorème 4.1.17 (Loi forte des grands nombres) Soit (Xn )n∈N une suite de va-
riables aléatoires réelles indépendantes et de même loi admettant un moment d’ordre 1,
et on note m = E(Xn ). On a alors
1 P.s
Xn = (X1 + · · · + Xn ) → m
n
(on a donc aussi la convergence en probabilité).

Remarque 4.1.18 Soit (Xn )n∈N une suite de variables aléatoires réelles indépendantes
et de même loi admettant un moment d’ordre 1, et on note m = E(Xn ). On a alors
 
lim E (X n − m) = 0.
n→+∞

on a donc aussi la convergence en probabilité. On a même un peu plus que la convergence


en moyenne, à savoir que :

lim E (X n − m)2 = 0.
 
n→+∞

si les Xn admettent des moments d’ordre 2.


Revenons à ”l’approche par les fréquences”. Soit un événement A. On répéte l’expérience,
et on note Xn la variable aléatoire qui vaut 1 si A est réalisé ou cours de la nème
expérience et 0 sinon. La fréquence de réalisation de A au cours des n premières expériences
est alors
1
fn (A) = (X1 + · · · + Xn ) = X n .
n
Par ailleurs, les Xi ont la même loi et E(Xi ) = P(Xi = 1) = P(A), et elles sont
indépendantes. Donc d’aprés le théorème précédent, on a limn→+∞ fn (A) = P(A) p.s :
on obtient ainsi une justification a posteriori de l’approche par les fréquences, qui, sans
en démontrer de manière rigoureuse la validité (c’est évidemment impossible), montre au
moins que cette approche est compatible avec la théorie qui a été basée dessus. En outre,
la loi des grands nombres nous indique aussi dans quel sens il convient de prendre la
convergence, à savoir au sens p.s. Il faut remarquer que dans les théorèmes précédents,
et donc aussi dans l’approche par les fréquences, on ne peut pas avoir la convergence
de X n (ω) vers m pour tout ω : prenons, comme pour approche par les fréquences, une
suite Xn de variables aléatoires ne prenant que les valeurs 0 et 1. L’espace ”minimal” sur

lequel on peut définir cette suite est Ω = {0, 1}N : un point ω est une suite numérique
x1 , · · · , xn , · · · de 0 et 1, et chaque suite est en principe possible. Soit P une probabilité
sous laquelle les Xn sont indépendantes et de même loi, avec P(Xn = 1) = p ∈]0, 1[. La loi
des grands nombres nous dit que pour toute suite x1 , · · · , xn , · · · en dehors d’un ensemble
de probabilité nulle, la moyenne n1 (x1 + · · · + xn ) tend vers le nombre p. Mais d’une part
il existe évidemment beaucoup de suites ne vérifiant pas cette propri étés (par exemple
xn = 0 pour tout n, ect· · ·) et d’autre part chaque suite particulière (y-compris celle qui
vérifient cette propriété) est de probabilité nulle. Ainsi, lorsqu’on étudie la convergence de
variables aléatoires réelles il est indispensable d’introduire la convergence p.s, puisqu’on
n’a généralement pas la convergence simple (i.e pour tout ω).
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 63

4.1.4 Convergence en loi


Bien que la plus faible, elle est la plus utilisée en pratique car elle permet d’approximer
la fonction de répartition de Xn par celle de X.
Définition 4.1.19 Soient (Xn )n∈N une suite de variables aléatoires réelles et (Fn )n∈N
la suite de fonction de répartition correspondantes. On dit que la suite (Xn )n∈N converge
loi
en loi vers la variable aléatoire X de fonction de répartition F , et on écrit Xn → X, si
en tout point x de continuité de F , on a
lim Fn (x) = F (x).
n→+∞

Si une telle limite est prouvée, on utilisera ce résultat pour considérer que, si n est ”assez
grand” (tout dépend de la précision voulue), on peut remplacer la fonction de répartition
Fn de la variable aléatoire Xn par la fonction de répartition F jugée plus simple ou
de calculs plus faciles. La loi limite qui va jouer le plus grand rôle, tant du point de vue
théorique que pratique, est la loi normale centrée réduite qui a une fonction de répartition
FN (0,1) continue sur R mais dont l’écriture n’est que sous forme intégrale
Z x
1 t2
FN (0,1) (x) = √ e− 2 dt.
2π −∞
Pour avoir la convergence en loi vers la loi normale centrée réduite d’une suite de variables
aléatoires (Xn )n≥1 , il suffit que pour tout intervalle [a, b],
lim P(a < Xn ≤ b) = FN (0,1) (b) − FN (0,1) (a).
n→+∞

Remarque 4.1.20 La convergence en loi ne peut impliquer aucun autre type de conver-
gence, car elle ne concerne que les lois.
Pour une suite (Xn )n∈N de variables aléatoires discrètes, la convergence en loi vers une
variable discrète s’exprime par limn→+∞ P(Xn = x) = P(X = x). C’est ainsi qu’on a
établit la convergence de la loi Binomiale vers la loi de Poisson. Une suite de variables
aléatoires discrètes peut ce pendant converger en loi vers une variable aléatoire absolu-
ment continue.
Soit (Xn )n∈N une suite de variables aléatoires absolument continue dont (fn )n∈N est la
suite de densité correspondantes et X une variable aléatoire de densité f , alors
loi
Xn → X, si et seulement si lim fn (x) = f (x).
n→+∞

Proposition 4.1.21 Soient (Xn )n∈N une suite de variables aléatoires réelles définie et
f une fonction continue de Rd dans R.
loi loi
1. Si Xn → X, alors f (Xn ) → f (X).
P loi
2. Si Xn → X, alors Xn → X.
3. Soit h une fonction de N à valeurs dans R telle que limn→+∞ h(n) = +∞ et
vérifiant
loi
h(n)(Xn − a) → N (0, 1).
Soit g une fonction dérivable de R à valeurs dans R, alors
loi
h(n)(g(Xn ) − g(a)) → N (0, g 02 (a)).
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 64

Convergence en loi d’une suite à valeurs entières


Proposition 4.1.22 Soient (Xn )n∈N une suite de variables aléatoires à valeurs entières
et X une variable aléatoire à valeurs dans N. Les assertions suivantes sont équivalentes
(i) Xn converge en loi vers X.
(ii) Pour chaque k ∈ N, on a limn→+∞ P(Xn = k) = P(X = k).
(iii) GXn converge simplement vers GX sur [0, 1] (où GY est la fonction génératrice de
la variable aléatoire Y ).

Exemple 4.1.23 1. Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗
la variable Xn suit la loi Binomiale B(m, pn ) telle que limn→+∞ pn = p. Soit X
une variable aléatoire de loi de B(m, p). Pour tout k ∈ N, on a
k k
lim P(Xn = k) = lim Cm pn (1 − pn )m−k = Cm
k k
p (1 − p)m−k = P(X = k).
n→+∞ n→+∞

et par suite Xn converge en loi vers X.


2. Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗ la variable Xn
suit la loi Poisson P(θn ) telle que limn→+∞ θn = θ. Soit X une variable aléatoire
de loi Poisson P(θ). On a alors

lim GXn (s) = lim eθn (s−1) = eθ(s−1) = GX (s)


n→+∞ n→+∞

et par suite Xn converge en loi vers X.

Convergence en loi et fonction caractéristique


Proposition 4.1.24 Soient (Xn )n∈N une suite de variables aléatoires et X une variable
aléatoire. Les assertions suivantes sont èquivalentes
(i) Xn converge en loi vers X.
(ii) ΦXn converge simplement vers ΦX (où ΦY est la fonction caractéristique de la
variable aléatoire Y ).

Remarque 4.1.25 Soient (Xn )n∈N une suite de variables aléatoires définie sur l’espace
probabilisé (Ω, A, P) et (ΦXn )n∈N la suite de fonction caractéristiques correspondantes. Si
(ΦXn )n∈N converge simplement vers une fonction (complexe) Φ sur R, et si cette fonction
est continue en 0, alors c’est la fonction caractéristique d’une variable aléatoire X et
loi
Xn → X.

Exemple 4.1.26 Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗ la
variable Xn suit la loi normale N (mn , σn ) telle que limn→+∞ mn = m et
limn→+∞ σn = σ > 0. Soit X une variable aléatoire de loi normale N (m, σ). On a alors
t2 σn
2
t2 σ 2
lim ΦXn (t) = lim eitmn − 2 = eitm− 2 = ΦX (t)
n→+∞ n→+∞

et par suite Xn converge en loi vers X.


CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 65

Exemple 4.1.27 La suite (Xn )n∈N∗ , où Xn est de loi uniforme sur {0, n1 , · · · , n−1
n },
converge en loi vers U[0,1] . Il suffit d’appliquer somme de Reimann.

Exercice 4.1.28 Soit (Xn )n∈N une suite de variables aléatoires de loi exponentielle de
paramètre λn . Étudier la convergence en loi dans les trois cas suivants :
1. limn→+∞ λn = λ ∈]0, +∞[, (Xn )n∈N converge en loi vers E(λ) convergence do-
minée.
2. limn→+∞ λn = +∞, (Xn )n∈N converge en loi vers X = 0 (changement de variable
et convergence dominée).
3. limn→+∞ λn = 0, on supoose qu’il ya convergence en loi alors ΦXn (t) → ΦX (t),
∀t ∈ R, or limn→+∞ ΦXn (t) = limn→+∞ λnλ−it n
= 1{t=0} n’est pas continue en
0. ce n’est pas donc une fonction caractéristique d’une variable aléatoire pas de
convergence en loi.
On peut utiliser les fonctions de répartitions.

Remarque 4.1.29 Si (Xn )n∈N converge en loi vers X et (Yn )n∈N converge en loi vers
Y ceci n’implique pas que (Xn + Yn )n∈N converge en loi vers X + Y et ((Xn , Yn ))n∈N
converge en loi vers (X, Y ).

Exemple 4.1.30 Soit X = N (0, 1), ∀n ∈ N, on pose Xn = X et Yn = (−1)n X, comme


£(X) = £(−X) donc les lois de Xn et de Yn sont indépendantes de n, il s’agit de la loi
N (0, 1). En revanche X2n + Y2n = 2X et X2n+1 + Y2n+1 = 0. La suite (Xn + Yn )n∈N ne
converge pas donc en loi. En utilisant les fonctions caractéristiques, on vérifie facilement
que l’on n’a pas non plus la convergence en loi de la suite ((Xn , Yn ))n∈N .

La convergence en loi n’est pas une convergence d’espace vectoriel.

4.2 Le théorème limite centrale


Soit (Xn )n∈N est une suite de variables aléatoires réelles indépendantes et de même
loi admettant un moment d’ordre 2. On note m et σ 2 la moyenne et la variance des Xn
et soit
Sn = X1 + · · · + Xn
on a vu que Sn /n converge vers m p.s, et il est naturel de chercher la vitesse à laquelle
cette convergence a lieu. Pour évaluer cette vitesse, c’est-à-dire trouver un équivalent de
Sn /n − m, on est amené à étudier la limite éventuelle de la suite nα (Sn /n − m) pour
différentes valeurs de α : si α est ”petit” cette suite v.a encore tendre vers 0, et elle va
”exploser” si α est ”grand”. On peut espérer que pour une (et alors nécessairement une
seule) valeur de α, cette suite converge vers une limite qui n’est ni infinie ni nulle. Il se
trouve que la réponse à cette question a un aspect ”négatif” : la suite nα (Sn /n − m) ne
converge pas au sens p.s, ou même en probabilité, pour aucune valeur de α. Elle a aussi
un aspect ”positif” : cette suite converge, au sens de la convergence en loi, pour la même
valeur α = 1/2 quelle que soit la loi des Xn , et toujours vers la loi normale ! (si σ > 0,
sinon on a Xn = m et Sn /n−m = 0 p.s pour tout n, et le problème n’a aucun intérêt). Ce
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 66

résultat, qui peut sembler miraculeux, montre pourquoi la loi normale joue un rôle aussi
important en probabilités. Il fait l’objet du théorème suivant, appelé théorème central
limite, ou de la limite centrale.

Théorème 4.2.1 Soit (Xn )n∈N une suite de variables aléatoires réelles indépendantes et
de même loi admettant un moment d’ordre 2, et on note m = E(Xn ) et σ 2 = V(Xn ) > 0,
alors les variables aléatoires
(X1 + · · · + Xn ) − nm

σ n
converge en loi vers une variable aléatoire U de loi N (0, 1), ou encore pour tout x ∈ R,
  Z x
(X1 + · · · + Xn ) − nm 1 t2
lim P √ ≤ x = FU (x) = √ e− 2 dt.
n→+∞ σ n 2π −∞
Ce résultat général justifie la place privilégiée qu’occupe la loi normale en calcul des pro-
babilité et en statistique.

Propriéts 4.2.2 Pour tout n ∈ N∗ on désigne par

Sn − E(Sn ) (X1 + · · · + Xn ) − nm
Un = = √
σSn σ n

En utilisant les fonctions caractéristiques, on a


n n
!!   
it X Y it
ΦUn (t) = E exp √ (Xk − m) = E exp √ (Xk − m)
σ n σ n
k=1 k=1

puisque les Xk sont indépendantes. D’autre part comme elles ont même loi, alors
   n  n
it t
ΦUn (t) = E exp √ (Xk − m) = ΦX−m ( √ ) .
σ n σ n

Or X − m est une variable aléatoire d’espérance nulle et de variance σ 2 donc ΦX−m est
0 00
de classe C 2 et ΦX−m (0) = iE(X − m) = 0 et ΦX−m (0) = −E((X − m)2 ) = −σ 2 . Ainsi
d’aprés la formule de Taylor à l’ordre 2 de ΦX−m , on a

u2 σ 2
ΦX−m (u) = 1 − + u2 ε(u)
2
avec limu→0 ε(u) = 0. D’où

t2 t2
   
t t
ΦX−m √ =1− + ε √ .
σ n 2n nσ 2 σ n

Par conséquent, on a

t2
   
0 t
log(ΦUn (t)) = n log 1 − 1+ε √
2n n
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 67

0
 
avec limn→+∞ ε √t = 0. Comme log(1 − x) ∼0 −x, alors
n
 2 
t2
   
t 0 t 2 00 t
log(ΦUn (t)) ∼n→+∞ n − 1+ε √ =− −t ε √
2n n 2 n
t2
00
 
avec limn→+∞ ε √t
n
= 0, d’où le résultat puisque limn→+∞ ΦUn (t) = e− 2 .

Remarque 4.2.3 Pour tout x ∈ R, on a


  Z x
X1 + · · · + Xn σ 1 t2
lim P − m ≤ x√ = Φ(x) = √ e− 2 dt.
n→+∞ n n 2π −∞

Exemple 4.2.4 Suite à l’annulation d’un match de football, un guichet procède à cer-
taines heures au remboursement des places. Le prix moyen d’une place est de 5D avec un
écart type de 3D . Quelle est la probabilité pour qu’à une heure donnée, le guichet disposant
de 650D puisse rembourser les 120 personnes qui s’y présentent.
Pour tout i ∈ {1, · · · , 120}, soit Xi = ”le montant à rembourser d’une place de la ième
personne. Alors
P120 les Xi sont indépendantes et de même loi avec E(Xi ) = 5D et σXi = 3D .
Soit X120 = i=1 Xi le montant à rembourser, alors
   
X120 − 120 × 5 650 − 120 × 5 650 − 120 × 5
P(X120 ≤ 650) = P √ ≤ √ = FN (0,1) √ .
3 120 3 120 3 120

Théorème 4.2.5 Soit (Xn )n∈N une suite de vecteurs aléatoires à valeurs dans Rd indépendants
et de même loi . On suppose que les composantes des Xn = (X1,n , · · · , Xd,n ) admettent
un moment d’ordre 2, et on note m = E(Xn ) le vecteur espérance et Σ = (σij ) la matrice
des covariance de Xn , alors les vecteurs aléatoires
n
!
1 X
√ Xk − nm
n
k=1

converge en loi vers un vecteur aléatoire gaussien centré de matrice de covariance Σ :


N (0, Σ).

Dans le cas où la matrice de covariance Σ s’écrit sous la forme Σ = AAt , alors
n
!
1 −1 X
√ A Xk − nm
n
k=1

converge en loi vers un vecteur aléatoire gaussien centré de matrice de covariance Id :


N (0, Id ).
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 68

4.3 Approximations de lois de probabilité


4.3.1 Application du théorème central limite
La grande utilité du théorème central limite réside dans le fait qu’il permet de calculer
simplement des valeurs approchées des probabilités du type
n
!
X
P Xk ∈ [a, b]
k=1

où (Xn )n∈N est une suite de variables aléatoires réelles indépendantes et de même loi
admettant un moment d’ordre 2. Ainsi
1
( nk=1 Xk − nm) suit approximativement une loi normale N (0, 1).
P
1. σ√ n
Pn 2
2. k=1 Xk suit approximativement une loi normale N (nm, nσ ).
2
3. n1 nk=1 Xk suit approximativement une loi normale N (m, σn ).
P

Convergence de la loi binomiale vers la loi de Laplace-Gauss


Théorème 4.3.1 (de Moivre-Laplace). Soit (Xn )n∈N une suite de variables aléatoires
telle que, pour tout entier n, Xn est de loi B(n, p) où p ∈]0, 1[ et soit U une variable
aléatoire de loi normale N (0, 1). Alors on a
X − np loi
p n →U
np(1 − p)

ou encore pour tout couple (a, b) de réels, on a


Xn − np
lim P(a < p ≤ b) = Φ(b) − Φ(a).
n→+∞ np(1 − p)

En partique,p lorsque n est assez garnd, la variable aléatoire Xn suit approximativement


la loi N (np, np(1 − p)) et l’on a

P(a < √Xn −np ≤ b) = Φ(b) − Φ(a) dès que n ≥ 30 avec np ≥ 5 et n(1 − p) ≥ 5.
np(1−p)

Il convient cependant d’effectuer ce qu’on appelle la correction de continuité : la conver-


gence de la loi Binomiale vers la normale se traduit par le fait que les extrémités des
bâtonspdu diagramme de la loi binomiale B(n, p) sont voisine de la courbe de densité
N (np, np(1 − p)). On obtient une valeur approchée de P(X = x) par la surface sous la
courbe de densité comprise entres les droites d’abscisse x − 12 et x + 12
!
x − 12 − np x + 12 − np
P(X = x) w P p <U < p
np(1 − p) np(1 − p)
on aura alors !
x + 1 − np
P(X ≤ x) w P U ≤ p 2
np(1 − p)
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 69

Ainsi si X est de loi B(40; 0, 3) alors np = 12 et np(1 − p) = 8, 4. la valeur exacte


de P(X = 11) est 0, 1319 d’aprés les tables. La formule d’approximation avec la loi

N (12, 8, 4) donne  
10, 5 − 12 11, 5 − 12
P √ <U ≤ √
8, 4 8, 4
soit P(−0, 52 < U ≤ −0, 17) = P(0, 17 < U ≤ 0, 52) = 0, 6895 − 0, 5675 = 0, 132. Soit une
erreur de moins de 1%. Quant à P(X ≤ 11) qui vaut exactement 0, 4406 l’approximation
normale fournit 1 − P(U ≤ 0, 17) soit 0, 4325. En l’absence de correction de continuité on
aurait trouvé
 
11 − 12
P U≤ √ = P(U ≤ −0, 35) = 1 − P(U ≤ 0, 35) = 0, 3632
8, 4

Exemple 4.3.2 Une épreuve consiste à lancer une pièce de monnaie équilibrée 800 fois
et à noter le nombre de fois où face est apparue. On note N la variable aléatoire égale
au nombre de faces observées. Quelle est la probabilité que ce nombre soit compris entre
390 et 420.
La variable aléatoire N suit la loi B(800; 1/2) alors np = 400 et np(1 − p) = 200
 
390 − 400 N − 400 420 − 400
P(390 < N ≤ 420) = P √ < √ ≤ √ w P(−0, 707 ≤ U ≤ 1, 414)
200 200 200
d’où
P(390 ≤ N ≤ 420) w Φ(1, 414) − Φ(−0, 707) w 0, 6815.

Convergence de la loi Poisson vers la loi de Laplace-Gauss


Théorème 4.3.3 . Soit (Xn )n∈N une suite de variables aléatoires telle, pour tout entier
n, Xn est de loi P(nλ) où λ > 0 et soit U une variable aléatoire de loi normale N (0, 1).
Alors on a
Xn − nλ loi
√ →U

ou encore pour tout couple (a, b) de réels, on a

Xn − nλ
lim P(a < √ ≤ b) = Φ(b) − Φ(a).
n→+∞ nλ
En partique,√lorsque n est assez garnd, la variable aléatoire Xn suit approximativement
la loi N (nλ, nλ) et l’on a
n −nλ
X√
P(a < nλ
≤ b) = Φ(b) − Φ(a) dés que nλ ≥ 18.

On a ici encore, intérêt à effectuer la correction de continuité.


CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 70

4.4 Théorème fondamental de statistique


La loi des grands nombres nous permet en outre d’estimer la fonction de répartition
de la variable aléatoire X à l’aide de la fonction de répartition empirique définie par
n
1X
Fn (x) = 1{Xk (ω)≤x}
n
k=1

En effet, puisque pour chaque valeur de x, 1{Xk ≤x} sont des variables aléatoires de Ber-
noulli indépendantes avec

P(1{Xk ≤x} = 1) = P(Xk ≤ x) = FX (x), P(1Xk ≤x = 0) = P(Xk > x) = 1 − FX (x)

E(1{Xk ≤x} ) = FX (x)


P.s
Fn (x) → FX (x)
C’est à dire que pour chaque valeur de x, il existe un événement A(x) de A de probabilité
1, telle que si ω ∈ A(x), limn→+∞ Fn (x) = FX (x) (au sens d’une suite numérique). Un
théorème, appelé lemme de Glivenko-Cantelli, affirme un résultat plus fort : la famille de
suites de variables aléatoires Fn (x) converge uniformément sur R avec la probabilité 1
vers la famille de constantes FX (x). On peut alors écrire :
P.s
sup |Fn (x) − FX (x)| → 0.
x∈R

Vous aimerez peut-être aussi