Poly Proba

Cours de Probabilité
Anouar Ben Kaddour et Skander Hachiha

Table des matières
Introduction générale i
1 Espaces probabilisés 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Operation sur les ensembles . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Expériences aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2 Vocabulaire probabiliste des événements . . . . . . . . . . . . . . . 9
1.4.3 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4 Événements presque sûr . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Probabilité sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.1 Probabilité uniforme sur un ensemble fini . . . . . . . . . . . . . . 15
1.5.2 Rappel : Formules classiques de dénombrement . . . . . . . . . . . 16
1.6 Application : Modèle de l’urne . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.1 Tirage sans remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Tirage avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 23
2 Variables aléatoires 30
2.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.1 Définitions et propriètés . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.2 Loi de probabilité d’une variable aléatoire . . . . . . . . . . . . . . 32
2.1.3 Espérance d’une variable aléatoire réelle . . . . . . . . . . . . . . . 33
2.1.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . . . . . . . 34
2.2.1 Fonction génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Fonction caractéristique d’une v.a réelle . . . . . . . . . . . . . . . 37
2.4 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . 38
ii
TABLE DES MATIÈRES iii
3 Vecteurs aléatoires 42
3.1 V.a et lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.1 Loi de probabilité d’une v.a . . . . . . . . . . . . . . . . . . . . . . 42
3.1.2 Fonction de répartition d’une v.a . . . . . . . . . . . . . . . . . . . 42
3.2 V.a discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 V.a absolument continues . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 Moments d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Espérance d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . 47
3.4.2 Covariance de deux v.a réelles . . . . . . . . . . . . . . . . . . . . . 49
3.5 Fonction carctéristique d’une v.a . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 V.a indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7 Somme de v.a réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.7.1 Shéma de Bernoulli et autres exemples . . . . . . . . . . . . . . . . 52
3.8 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.9 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Convergence de suites de variables aléatoires 58

4.1 Divers mode de Convergence . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . 59
4.1.3 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . 61
4.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Le théorème limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3 Approximations de lois de probabilité . . . . . . . . . . . . . . . . . . . . 68
4.3.1 Application du théorème central limite . . . . . . . . . . . . . . . . 68
4.4 Théorème fondamental de statistique . . . . . . . . . . . . . . . . . . . . . 70
Chapitre 1
Espaces probabilisés
1.1 Introduction
Depuis toujours l’homme est confronté directement ou indirectement à la notion de
hasard (mot d’origine arabe : az-zhar) qu’il le perçoit à travers des mots comme maktoub,
la chance, probable, les jeux de hasard, les paris ou à travers de nombreuses disciplines
comme la science de la vie, les sciences humaines et de la physique (mouvement des
particules ...) la météorologie, la médecine, l’économie (marchés boursiers...) la théorie du
signal la production agricole ou industrielle. La description ou l’analyse des lois du hasard
par une approche scientifique et plus précisément par des modèles mathématiques, a
donné lieu à l’élaboration d’une discipline mathématique appelée probabilité. Celle-ci s’est
beaucoup développée ces dernières années pour devenir incontournable dans plusieurs
branches scientifiques.
1.2 Ensembles
Définition 1.2.1 1. Un ensemble est une collection bien determiné d’objets appelé
éléments de l’ensemble.
2. Si E est un ensemble si x est un e élément de E on dit que x appartient à E,
x ∈ E.
3. Si x n’est pas un élément de E on dit que x n’appartient pas à E, x ∈
/ E.
4. Un ensemble qui contient un seul d’ élément est appelée singleton.
5. Un ensemble qui contient une paire d’éléments est appelée paire.
6. Un ensemble qui ne contient aucun élément est appelé l’ensemble vide notée ∅.
Inclusion-égalité :
1. Soient E et F deux ensembles donnée l’ensemble E est dit inclus dans l’ensemble
F ssi tous les éléments de E sont éléments de F et on écrit E ⊂ F
E ⊂ F ⇔ ∀x ∈ E ⇒ x ∈ F.
2. Si E ⊂ F, on dit alors que E est une partie où ensemble de F.
1
CHAPITRE 1. ESPACES PROBABILISÉS 2
3. Ensemble de parties d’un ensemble :

Soit E un ensemble donnée. On note par P(E) l’ensemble de toutes les parties de
E, on a toujours ∅ ∈ P(E) et E ∈ P(E).
4. E et F deux ensembles données
E = F ⇔ E ⊂ F et F ⊂ E
1.2.1 Operation sur les ensembles

Intersection :
Soient E un ensemble et A et B deux parties de E.
A ∩ B est l’ensemble des éléments de E qui sont à la fois dans A et dans B.
A ∩ B = {x ∈ E | x ∈ A et x ∈ B}
Réunion :
Soient E un ensemble et A et B deux parties de E
A ∪ B est l’ensemble des éléments de E qui sont dans A ou dans B.
A ∪ B = {x ∈ E | x ∈ A ou x ∈ B}
Complémentaire :
Soient E un ensemble et A une partie de E le complémentaire de A dans E notée CEA ou
A est l’ensemble des éléments de E qui ne sont pas des e éléments de A,
CEA = {x ∈ E | x∈
/ A}
Définition 1.2.2 Soient A et B deux parties de E, si A ∩ B = ∅. On dit que A et B

sont disjoints.
Propriéts 1.2.3 Soient E un ensemble donnée et A, B, C des parties de E.

1. Commutativité : A ∩ B = B ∩ A et A ∪ B = B ∪ A
2. Associativité : A ∩ (B ∩ C) = (A ∩ B) ∩ C et (A ∪ B) ∪ C = A ∪ (B ∪ C)
3. A ∩ ∅ = ∅, A ∩ E = A, A ∪ ∅ = A et A ∪ E = E.
4. Distributivité de ∩ par rapport à ∪ :
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Distributivité de ∪ par rapport à ∩ :
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
5. Complémentaire :
CEE = ∅, CE∅ = E
CA
CE E = A
CEA∩B = CEA ∪ CEB
CEA∪B = CEA ∩ CEB
Produit cartésienne :
Soient E et F deux ensembles données, l’ensemble E × F appelée produit cartésien de E
et F est définie par :
E × F = {(x, y) | x ∈ E et y ∈ F }
Partition :
Une partition de E est une collection des parties non vide A1 , · · · , An de E telle que :
1. A1 ∪ · · · ∪ An = E et
2. Les (Aj )j sont deux à deux disjoints c’est à dire Ai ∩ Aj = ∅ si i 6= j.
Une partition peut avoir un nombre infini des parties {Aj }∞
j=1
Exemple 1.2.4 Supposons qu’on a jeté une pièce de monnaie trois fois. L’ensemble S
contiendra huit résultats possibles S1 , S2 , · · · , S8 .
S1 : P F F, S2 : P F F, S3 : F P F, S4 : F F P,
S5 : F P P, S6 : P F P, S7 : P P F, S8 : P P P.
On définit quatre ensembles : A l’ensemble que au moins un coté face est obtenue, soit B
l’ensemble qu’un coté face est obtenu au second jet, soit C l’ensemble qu’un coté pile est
obtenu au troisième jet et soit D l’ensemble qu’aucun coté face n’est obtenu.
A = {S1 , S2 , S3 , S4 , S5 , S6 , S7 }, B = {S1 , S2 , S4 , S6 }, C = {S4 , S5 , S6 , S8 }, D = {S8 }.
B ⊂ A, Ac = D, B ∩ D = ∅, B ∩ C = {S4 , S6 }, (B ∪ C)c = {S3 , S7 },
A ∩ (B ∪ C) = {S1 , S2 , S4 , S5 , S6 }
Exercice 1.2.5 1. Montrer que si A ⊂ B ⇒ B c ⊂ Ac

2. Pour une collection quelconque (Ai )i∈I , montrer que (∪i∈I Ai )c = ∩i∈I Aci .
1.3 Expériences aléatoires

Les expériences alèatoires sont des expériences dont on ne peut prévoir le resultat à
l’avance, ainsi le résultat est incertain ou inconnu par l’expérimentateur avant que celui-ci
n’effectue l’expérience ou ne la subisse et qui reproduite dans des conditions identiques
peut conduire à plusieurs résultats possible. Par exemple le lancer d’un dé au ”hasard”
est une expérience aléatoire et le résultat est l’un des nombres de 1 à 6. On admet
que le résultat d’une telle expérience relève du hasard dans le sens où on est incapable
de le prévoir avec certitude du fait du manque d’information ou de la complexité qui
interviennent.
La théorie des probabilités vise à fournir un modèle mathématique pour décrire ces
expériences. Le modèle utilisé est celui de Kolmogorov qui a rattaché les probabilités à
la théorie de mesures et de l’intégration développée par Borel et Lebesgue et c’est sur
ce modèle qu’on pourra raisonner et calculer. Il est décrit par les 4 notions essentielles
suivantes :
1. Espace d’état (ou univers). L’espace d’état c’est l’ensemble non vide noté Ω, de
tous les résultats possible de l’expérience aléatoire qu’on réalise. Ses éléments sont
appelés issues ou éventualités. Ainsi, une et une seule issue est observée au cours
d’une expérience aléatoire. L’ensemble des résultats possibles d’une expérience

aléatoire est en général codé de manière à n’en retenir que certains aspects. Jouer
à pile ou face consiste lors du lancer d’une pièce à ne s’intéresser qu’à la face sur
laquelle elle tombe en oubliant le nombre de rotation dans l’air, le point de chute...
Ainsi Ω est l’ensemble de toutes les valeurs possibles que peut prendre ce codage.
Exemple 1.3.1
Expérience Ω
Lancer une pièce {Pile, face }
Relever l’état d’une case mémoire {0, 1}
Interroger un électeur avant un référendum {Oui, Non}
Lancer un dé {1, 2, · · · , 6}
Compter les clients d’une file d’attente N
Observer une durée de fonctionnement d’une machine R+
Observer le nb d’articles défectueux dans un lot de 15 article {0, 1, 2, · · · , 15}
2. Événement. Un événement est une proposition (propriété) dépendant du résultat
d’une expérience aléatoire dont on peut dire si elle est vraie ou non, une fois
l’expérience réalisée. Ainsi dans l’expèrience qui consiste à lancer un dè et à noter
la valeur de la face visible, la proposition ”la face apparente du dé est paire” est
un événement ; cette proposition est vraie si on a observé l’une des faces {2, 4, 6}
et fausse dans le cas contraire. Par contre ”la pièce tombe sur la tranche” n’est pas
un événement. On dit qu’un événement A est réalisé au cours d’une expérience
lorsque l’issue de celle-ci rend la proposition vraie.
En termes mathématiques, à chaque événement A, on associe alors un sous-
ensemble de Ω formé des issues qui permettent de dire que A est vraie, cette
partie notée aussi A est elle-même appelée événement
A = {ω ∈ Ω/A est réalisé si ω est le résultat de l’expérience}
Ainsi l’événement A se réalise dans l’issue ω de l’expérience si et seulement si
ω∈A
On note A l’ensemble des parties de Ω associées à tous les événements. Comme

toutes les combinaisons logiques d’événements sont encore des événements alors
A doit satisfaire un certain systeme d’axiome définissant une tribu sur Ω et qui
modélise l’information que l’on peut obtenir à partir des résultats de l’expériences.
Lorsque Ω est fini, on prendera A = P(Ω) l’ensemble de toutes les parties de Ω.
3. Probabilité :A chaque événement A on associe un nombre, noté P(A) et appelé
probabilité de A. Ce nombre mesure le degré de vraisemblance qu’on accorde a
priori à A, avant la réalisation de l’expérience ( ou encore qui mesure le degré de
confiance que l’on a dans sa réalisation). Il est choisi entre 0 et 1, et il est d’autant
plus prés de 1 que l’événement est jugé vraisemblable.
Intuitivement, on peut imaginer la probabilité d’un événement A comme limite
de fréquences de la réalisation de A. Supposons qu’une expérience aléatoire puisse
être répétée dans les mêmes conditions. Soit nA le nombre de fois où l’événement
A s’est réalisé au bout de n expériences aléatoires identiques et on désigne par
nA
n la fréquence de réalisation de l’événement A. On constate expérimentalement
que lorsque n augmente nnA a tendance à se stabiliser autour d’une certaine valeur
alors intuitivement, et par passage à la limite la probabilitè de A peut être définie
par :
nA
P(A) = lim .
n→+∞ n
Des proprietés des fréquences, on en déduit que si A et B sont des événements, on

a:
- 0 ≤ P(A) ≤ 1,
- P(Ω) = 1,
- P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅.
4. Variable aléatoire :Il s’agit d’une grandeur qui dépend du résultat de l’expérience
aléatoire. Il arrive fréquemment qu’au cours d’une épreuve on ne s’intéresse pas
directement à une issue précise, mais à certaines de ses conséquences. Par exemple,
pour le lancer de deux dés, on peut s’intèresser à la somme des chiffres obtenus
lors d’une lancer, à leur produit ou au nombre de lancers qu’il faut pour obtenir le
6 sur chaque dé en même temps. En termes mathématiques, une variable aléatoire
est une application
X : Ω −→ E
l’espace E, est en général R, ou Rd . De la même manière qu’il a fallu munir
l’ensemble des événements A d’un minimum de structure, il faut que cette appli-
cation soit compatible avec la structure de A. Ce qui nous permet de transporter
la structure probabiliste de Ω sur l’espace d’arrivé E.
1.4 Espace probabilisé

La formalisation de tout problème de calcul des probabilités repose sur la donnée
d’un ensemble non vide Ω contenant selon les cas un nombre fini ou dénombrable ou
encore infini non dénombrable d’éléments remplissant conjointement les deux conditions
suivantes
- associer à toute partie de Ω un événement et respecter quelques règles de calcul
sur les opérations logiques.
- attribuer une probabilité à toute partie de Ω
Il se trouve que pour des raisons mathématiques, on ne peut pas satisfaire à ces
deux exigences à la fois, du moins lorsque Ω n’est pas dénombrable. L’idée est alors de
ne pas attribuer une probabilité à toute partie A ∈ P(Ω) mais seulement aux parties
appartenant à une certaine classe, en général strictement contenue dans P(Ω). Cette
classe d’événements doit avoir une structure particulière nous permettant d’effectuer les
opérations naturelles (unions et intersections finies ou dénombrables) sur la famille des
événements qui nous interessent.
1.4.1 Espace probabilisable

Soit Ω un ensemble non vide. On désigne par P(Ω) l’ensemble des parties de Ω.
Définition 1.4.1 Soit A un sous-ensemble de P(Ω). On dit que A est une tribu sur Ω,
si A vérifie les propriétés suivantes :
(i) Ω ∈ A.
(ii) Si A ∈ A alors Ac ∈ A.
S+∞
(iii) Si (An )n∈N est une suite d’éléments de A alors n=1 An ∈ A.
Exemple 1.4.2 1. A = {∅, Ω} est la tribu grossière sur Ω (c’est la petite tribu sur
Ω).
2. P(Ω) est une tribu sur Ω.
3. Soit (Ai )i∈I une partition finie ou dénombrable de Ω alors A = {∪j∈J Aj , J ∈ P(I)}
est une tribu sur Ω.
Proposition 1.4.3 Soit A une tribu sur Ω.

1. ∅ ∈ A.
2. Si A, B ∈ A alors A ∪ B ∈ A et A ∩ B ∈ A.
T+∞
3. Si (An )n∈N est une suite d’éléments de A, alors n=1 An ∈ A.
Démonstration 1.4.4 1. Ω ∈ A, alors par définition d’une tribu, on a ∅ = Ωc ∈ A.

2. Soit (An )n∈N la suite d’éléments de A définie par
A1 = A
An = B pour tout n ≥ 2
Par définition d’une tribu, on a A ∪ B = +∞ c c

S
n=1 An ∈ A, d’où A ∪ B ∈ A et donc
c c
on a A ∩ B = (A ∪ B ) ∈ A.c
3. (Acn )n∈N est une suite d’éléments de A, alors on a +∞

T S+∞ c c
n=1 An = ( n=1 An ) ∈ A.
Définition 1.4.5 On appelle espace probabilisable tout couple (Ω, A) où Ω est un en-
semble non vide et où A est une tribu sur Ω. On appelle événement tout élément de
A.
Exemple 1.4.6 (Ω, P(Ω)) est un espace probabilisable (c’est l’espace probabilisable qu’on
associe toujours à Ω lorsque Ω est fini ou dénombrable).
Exercice 1.4.7 Soit A une tribu sur Ω. Soit (An )n∈N une suite d’éléments de A. On
pose
+∞
\ [ +∞
[ \
lim sup An = An , lim inf An = An
m=0 n≥m m=0 n≥m
vérifier que
1. lim sup An ∈ A et lim inf An ∈ A.

2. lim inf An est l’événement ”tous les An se réalisent aprés un certain rang”.
3. lim sup An est l’événement ”il se produit une infinité d’événements An ”.
Rappel
On dit qu’un ensemble E est dénombrable s’il est fini ou en bijection avec N c-à-d si l’on
peut énumérer ses points en une suite. C’est le cas de l’ensemble N lui même, de Z, de Q
∗
ou des entiers pairs. Ce n’est pas le cas de {0, 1}N de R ni des intervalles [a, b].
Remarque 1.4.8 Si l’ensemble Ω est dénombrable, un événement A ∈ P(Ω) est dit
élémentaire lorsqu’il ne se réalise que pour une seule issue de l’expérience : A = {ω} où
ω ∈ Ω. Ainsi tout événement de P(Ω) est une réunion finie ou dénombrable d’événements
élémentaires.
Exemple 1.4.9 Pour l’épreuve qui consiste à lancer deux dés, l’espace d’état est
Ω = {(i, j) 1 ≤ i, j ≤ 6} = {1, · · · , 6}2
et la tribu associée à Ω est P(Ω). Ainsi {(i, j)} est un événement élémentaire et l’événement
A ”la somme des lancers est paire” est composé de 18 événements élémentaires :
A = {(1, 1), (1, 3), (1, 5), (2, 2), (2, 4), (2, 6), (3, 1), (3, 3), (3, 5), (4, 2), (4, 4)(4, 6),
(5, 1), (5, 3), (5, 5), (6, 2), (6, 4), (6, 6)}
Proposition 1.4.10 Soit (Ai )i∈I une famille de tribus sur un ensemble non vide Ω.
Alors ∩i∈I Ai est aussi une tribu sur Ω.
Démonstration 1.4.11 1. Pour tout i ∈ I, Ω ∈ Ai et donc Ω ∈ ∩i∈I Ai

2. Soit A ∈ ∩i∈I Ai . Pour tout i ∈ I, A ∈ Ai or Ai est une tribu et donc Ac ∈ Ai et
par suite Ac ∈ ∩i∈I Ai
3. Soit (An )n∈N une suite d’éléments de ∩i∈I Ai . Ainsi pour tout i ∈ I, (An )n∈N une
suite d’éléments Ai et donc +∞
S S+∞
A
n=1 n ∈ A i et par suite n=1 An ∈ ∩i∈I Ai
Définition 1.4.12 Soit C un ensemble de parties de Ω (C ⊂ P(Ω)). On appelle tribu

engendrée par C la petite tribu contenant C, soit encore l’intersection de toutes les tribus
contenant C et on la note σ(C).
Exemple 1.4.13 1. Soit C une tribu sur Ω, alors σ(C) = C

2. Soit A ⊂ Ω, la tribu engendrée par {A} est σ({A}) = {∅, Ω, A, Ac }.
Définition 1.4.14 1. On appelle tribu borélienne de R la tribu engendrée par la

classe des intervalles de la forme : ] − ∞, x], pour x ∈ R, on la note BR . Un
élément de BR est appelé borélien de R.
2. On appelle tribu d
Qdborèlienne de R la tribu engendrée par la classe des rectangles
de la forme : i=1 ] − ∞, xi ], pour xi ∈ R, on la note BRd . Un élément de cette
tribu est appelé borélien de Rd .
Proposition 1.4.15 1. Tout intervalle (ouvert, fermé, semi-ouvert) de R est un

borélien.
2. Tout singleton de R est un borélien.
3. Toute partie dénombrable de R est un borélien.
4. Toute réunion finie ou dénombrable d’intervalles de R est un borélien.
5. Toute intersection finie ou dénombrable d’intervalles de R est un borélien.
Démonstration 1.4.16 1. Soit a, b ∈ R tels que a < b.

S+∞
1. ] − ∞, b[= n=1 ] − ∞, b − n1 ].
2. [b, +∞[=] − ∞, b[c .
3. ]a, b] =] − ∞, b]\] − ∞, a].
4. Soit a ∈ R, {a} = +∞ 1
T
n=1 ]a − n , a].
Exercice 1.4.17 Soit (xn )n∈N une suite décroissante de limite x et soit (yn )n∈N une
suite croissante de limite y. Montrer que
+∞
[
]x, y[= (] − ∞, yn ]∩] − ∞, xn ]c )
n=0
Remarque 1.4.18 1. La tribu borélienne BR est aussi la tribu engendrée par la

classe des intervalles ouverts ]a, b[ pour −∞ < a ≤ b < +∞.
2. La tribuQborélienne BRd est aussi la tribu engendrée par la classe des rectangles
ouverts di=1 ]ai , bi [, pour −∞ < ai ≤ bi < +∞.
La tribu borélienne BRd est srictement incluse dans P(Rd ). Il existe donc des parties
de Rd qui ne sont pas dans BRd . Mais dans la partique, tous les ensembles que nous serons
amenés à utiliser dans Rd seront en fait des boréliens.
Remarque 1.4.19 Soit Ω un ensemble non vide. Le choix en pratique de la tribu A de

parties de Ω dépend naturellement de Ω. Deux cas sont envisageables :
1. L’ensemble Ω est dénombrable. Toute partie de Ω est réunion finie ou dénombrable
de singletons et donc toutes les parties de Ω peuvent être associées à des événements.
Il est donc naturel de prendre comme ensemble d’événements l’ensemble de toutes
les parties de Ω : A = P(Ω).
2. L’ensemble Ω est infini non-dénombrable. Contrairement au cas précédent le choix
de P(Ω) comme tribu pose des problèmes (notamment pour l’attribution de mesure
de probabilité à chacun de ses éléments) et on se restreint à une tribu strictement
incluse dans P(Ω) comme la tribu engendrée par une certaine classe de parties
données (la plus maniable possible). Ainsi, si Ω = R (resp Ω = Rd ), on prendra
toujours comme ensemble d’événements la tribu borélienne : A = BR (resp A =
BRd ).
1.4.2 Vocabulaire probabiliste des événements

Soit (Ω, A) est un espace probabilisable. Soient A et B deux événements.
L’événement certain est représenté par Ω.
L’événement impossible est représenté par ∅.
L’événement contraire de A est représenté par Ac .
L’événement A ou B sont réalisés est représenté par A ∪ B.
L’événement A et B sont rèalisés est représenté par A ∩ B.
Événements incompatibles A et B si A ∩ B = ∅.
Ainsi si (Ai )i∈I est une famille d’événements alors :
L’événement ∪i∈I Ai est réalisé si l’un au moins des Ai est réalisé.
L’événement ∩i∈I Ai est réalisé si tous les Ai sont réalisés.
Et enfin le fait que la réalisation de l’événement A entraı̂ne la réalisation de l’événement
B se traduit par A ⊂ B.
1.4.3 Espace probabilisé

Définition 1.4.20 On appelle mesure de probabilité (ou simplement probabilité) sur l’es-
pace probabilisable (Ω, A) toute application P : A −→ [0, 1] telle que ;
(i) P(Ω) = 1
(ii) Pour toute suite (dénombrable) (An )n≥1 d’éléments de A deux à deux disjoints
(c-à-d si i 6= j, Ai ∩ Aj = ∅ ) alors,
+∞
! +∞
[ X
P An = P(An )
n=1 n=1
(P est σ-additive).
P
Remarque 1.4.21 ii) entraı̂ne en particulier que la série n≥0 P(An ) est convergente.
Exemple 1.4.22 Soit (Ω, A) un espace probabilisable. Pour tout ω ∈ Ω, l’application

εω : A −→ [0, 1] définie par

1 si ω ∈ A
εω (A) = pour tout A ∈ A
0 si ω ∈ Ac
est une mesure de probabilité appelée mesure de probabilité de Dirac en ω. En effet, on a

εω (Ω) = 1, puisque ω ∈ Ω. Soit (An )n≥1 une suite d’éléments de A disjoints deux à deux,
on a
/ ∪+∞
1. soit ω ∈ / An , par conséquent εω (∪+∞
n=1 An et donc pour tout n ≥ 1, ω ∈ n=1 An ) = 0
et pour tout n ≥ 1, εω (An ) = 0.
2. soit ω ∈ ∪+∞
n=1 An et donc il existe un unique indice i ∈ N tel que ω ∈ Ai puisque
les An sont deux à deux disjoints, par conséquent εω (∪+∞
n=1 An ) = 1, εω (Ai ) = 1 et
pour tout n ≥ 1 tel que n 6= i, εω (An ) = 0.
Définition 1.4.23 On appelle espace probabilisé tout triplet (Ω, A, P), où (Ω, A) est un
espace probabilisable et où P est une mesure de probabilité sur (Ω, A).
La modélisation probabiliste consiste donc à décrire une expérience aléatoire par la donnée
d’un espace probabilisé.
Notation
Soient (Ω, A, P) un espace probabilisé et A un événement de A. La notation P(A) se lit
probabilité de A ou probabilité que l’événement A se produit.
Exemple 1.4.24 Soit B[a,b] = [a, b] ∩ BR la tribu trace de Borel associèe à Ω = [a, b].
L’application P : B[a,b] −→ [0, 1] dèfinie par
l(A)
P(A) = pour tout A ∈ B[a,b] ,
l(Ω)
où l(A) désigne la longueur (mesure de Lebesgue) de A est une mesure de probabi-
d−c
lité. Elle est caractérisée par P([c, d]) = b−a pour tout [c, d] ⊂ [a, b], et elle correspond
Ã l’expérience aléatoire : choix d’un point au hasard sur l’intervalle [a, b].
Exemple 1.4.25 Soit BQd [ai ,bi ] = di=1 [ai , bi ] ∩ BRd la tribu trace de Borel associée à
Q
i=1
Ω = di=1 [ai , bi ]. L’application P : BQd [ai ,bi ] −→ [0, 1] définie par
Q
i=1
v(A)
P(A) = pour tout A ∈ BQd [ai ,bi ] ,
v(Ω) i=1
où v(A) désigne le volume (mesure de Q Lebesgue) de A est une mesure de probabilité. Elle
d
(d −c )
est caractérisée par P( i=1 [ci , di ]) = Qdi=1 i i pour tout di=1 [ci , di ] ⊂ di=1 [ai , bi ], et
Qd Q Q
i=1 (bi −ai )
elle correspond à l’expérience aléatoire : choix d’un point au hasard sur le pavé di=1 [ai , bi ].
Q
Exercice 1.4.26 Soit λ ∈ R∗+ . Pour tout A ⊂ N, on pose
X λn e−λ
P(A) =
n!
n∈A
Montrer que (N, P(N), P) est un espace probabilisé.
Exercice 1.4.27 Soient Q1 et Q2 deux probabilités définie sur le même espace probabi-
lisable (Ω, A).
1. Soit α ∈ [0, 1]. Montrer que l’application P définie par
P(A) = αQ1 (A) + (1 − α)Q2 (A) pour tout A ∈ A,
est une probabilité sur (Ω, A).

2. Généraliser ce résultat, montrer que l’application Pn définie par

n
X
Pn (A) = αi Qi (A) pour tout A ∈ A,
i=1
Pn
où αi ∈ [0, 1] pour tout i et i=1 αi = 1 est une probabilité sur (Ω, A).
Remarque 1.4.28 Du point de vue de l’analyse, une mesure de probabilité n’est autre
qu’une mesure positive bornée telle que la valeur en Ω vaut 1. Ainsi toutes les propriétés
des probabilités se déduisent simplement des propriétés des mesures positives bornées,
néanmoins on rappelle quelques propriétés élémentaires qui sont fondamentales dans les
calculs des probabilités d’événements.
Proposition 1.4.29 Soit (Ω, A, P) un espace probabilisé. Alors on a

1. P(∅) = 0.
2. Soit (Ai )1≤i≤n une suite de n éléments deux à deux disjoints de A. Alors
n n
!
[ X
P Ai = P(Ai )
i=1 i=1
en particulier si A, B ∈ A sont disjoints, alors P(A ∪ B) = P(A) + P(B) et donc

P(A) + P(Ac ) = 1.
3. Soient A, B ∈ A, alors P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
4. Soient A, B ∈ A tels que B ⊂ A, alors P(B) ≤ P(A) et P(A\B) = P(A) − P(B).
Démonstration 1.4.30 1. Soit (An )n∈N la suite d’éléments de A définie par
A1 = Ω
An = ∅ pour tout n ≥ 2
Par définition de probabilité, P( +∞

S P+∞ P+∞
n=1 An ) = n=1 P(An ) = 1 d’où n=2 P(∅) = 0
et donc P(∅) = 0.
2. Soit (Bn )n∈N la suite d’éléments de A définie par
Bi = Ai pour 1 ≤ i ≤ n
Bi = ∅ pour i ≥ n + 1
Comme P( +∞
S P+∞
n=1 Bn ) = S P(Bn ) (puisque
n=1 les Bn sont deux à deux disjoints)
et P(∅) = 0, alors on a P( ni=1 Ai ) = ni=1 P(Ai ).
P
3. Comme A ∪ B = A ∪ (B ∩ Ac ) et B = (A ∩ B) ∪ (B ∩ Ac ), on a alors
P(A ∪ B) = P(A) + P(B ∩ Ac ) et P(B) = P(A ∩ B) + P(B ∩ Ac )
et par suite P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

4. Comme B ⊂ A alors on a A = B ∪ (A ∩ B c ) d’où P(A) = P(B) + P(A ∩ B c ). Par

suite P(B) ≤ P(A) et P(A\B) = P(A) − P(B).
Exercice 1.4.31 Soit (Ω, A, P) un espace probabilisé.

1. Soient A et B deux événements de A. Montrer que P(A ∩ B) ≤ min(P(A), P(B))
et P(A ∪ B) ≥ max(P(A), P(B)).
2. Soient (Ai )1≤i≤n et (Bi )1≤i≤n deux suites d’événements de A tel que Bi ⊂ Ai pour
tout i. Montrer que
n
X
P(∪ni=1 Ai ) − P(∪ni=1 Bi ) ≤ (P(Ai ) − P(Bi )) .
i=1
Proposition 1.4.32 Soit (Ω, A, P) un espace probabilisé.

1. Soit (An )n≥1 une suite croissante d’éléments de A (c’est-à-dire pour tout n ∈ N,
An ⊂ An+1 ). Alors,
+∞
!
[
P An = lim P(An ).
n→+∞
n=1
2. Soit (An )n≥1 une suite décroissante d’éléments de A. Alors,

+∞
!
\
P An = lim P(An ).
n→+∞
n=1
3. Soit (An )n≥1 une partition finie ou infinie dénombrable de Ω. Alors pour tout
B ∈ A,
+∞
X
P(B) = P(An ∩ B).
n=1
Démonstration 1.4.33 1. Soit (Bn )n≥1 la suite d’éléments de A deux à deux dis-
joints définie par,
B0 = A0 = ∅
Bn = An \An−1 pour tout n ≥ 1.
Les suites (An )n≥1 et (Bn )n≥1 vérifient :

1. Pour tout n ∈ N, An = ∪ni=0 Bi .
2. S+∞
S S+∞
n=0 An = S n=0 Bn . En effet, Bn ⊂ An pour tout n ∈ N, on a alors l’inclusion
+∞ +∞ S+∞
n=1 B n ⊂ n=1 A n . Inversement, soit ω ∈ n=1 An , il existe donc au moins un
indice i tel que ω ∈ Ai . Soit i0 le plus petit de ces indices :
(a) i0 = 0 et alors ω ∈ A0 = B0 et donc ω ∈ +∞
S
n=0 Bn
/ Ai0 −1 donc ω ∈ Ai0 \Ai0 −1 = Bi0 et par suite à ω ∈ +∞
S
(b) i0 ≥ 1 et ω ∈ n=0 Bn .
Les événements Bn sont deux à deux disjoints, ainsi en utilisant la propriété de σ−additivité,
on a
+∞ +∞
! ! +∞
[ [ X
P An = P Bn = P(Bn ).
n=0 n=0 n=0
P
La série n≥0 P(Bn ) est convergente et sa somme est
+∞
X n
X
P(Bn ) = lim P(Bi )
n→+∞
n=0 i=0
= lim P(∪ni=0 Bi ) = lim P(An ).
n→+∞ n→+∞
1. La démonstration est une conséquence du résultat précédent en remarquant que,

si la suite (An )n≥1 est décroissante, la suite (Acn )n≥1 est croissante et donc
+∞
!
[
P Acn = lim P(Acn ).
n→+∞
n=1
T+∞
Par suite, on a 1 − P n=1 An = limn→+∞ (1 − P(An )).
2. Soit (Bn )n≥1 la suite d’éléments de A définie par
Bn = An ∩ B
pour tout n ≥ 1.
disjoints avec P+∞

S
Les Bn sont deux à deux P n=1 Bn = B. Par la propriété de la
σ−additivité on a P(B) = n=1 P(Bn ) = +∞
+∞
n=1 P(An ∩ B).
Remarque 1.4.34 Dire que (An )n≥1 une partition finie ou infinie dénombrable de Ω est
équivalent à dire que lorsque notre expérience aléatoire sera réalisée, un et un seul des
événements A1 , A2 , · · · se réalisera.
Exemple 1.4.35 Si on jette n fois une pièce de monaie l’espace d’état est
Ω = {P, F }n
c’est un ensemble fini de cardinal 2n . La probabilité de chaque tirage est uniforme

cardA
∀A ∈ P(Ω) P(A) =
2n
On jette maintenant indéfiniment la pièce
∗
Ω = {P, F }N
c-à-d l’ensemble des uplets de longueur infinie. C’est un ensemble infini. Soit A” on ne
tire pas de pile” et soit An ” on ne tire pas de pile lors des n premiers tirages”. On a
alors P(An ) = 21n , An+1 ⊂ An (la réalisation de An+1 implique la réalisation de An ) et
A = +∞
T
n=1 An et par suite
P(A) = lim P(An )
n→+∞
Proposition 1.4.36 Soit (Ω, A, P) un espace probabilisé. Soit (An )n≥1 une suite d’éléments
de A. Alors
+∞
! +∞
[ X
P An ≤ P(An ).
n=1 n=1
Démonstration 1.4.37 Soit (Bn )n∈N la suite d’éléments de A définie par
B 0 = A0 = ∅
Bn = An \(A0 ∪ A1 ∪ · · · ∪ An−1 ) pour tout n ≥ 1.
Ainsi,
Sn Sn S+∞ S+∞
1. les Bn sont deux à deux disjoints et i=1 Bi = i=1 Ai d’où n=1 Bn = n=1 An .
2. pour tout i ∈ N, Bi ⊂ Ai et donc P(Bi ) ≤ P(Ai ).
S+∞ P+∞
D’aprés
S+∞ la propriété
P+∞ de la σ−additivité on a P( n=1 B n ) = n=1 P(Bn ) et par suite
P( n=1 An ) ≤ n=1 P(An ), ce deuxième terme pouvant éventuellement être supérieur à
1 et même être infini.
Exemple 1.4.38 Soit Ω un ensemble non vide fini ou dénombrable. Soit ((αn , ωn ))n≥1
une suite d’éléments de R × Ω telle que :
(i) αn ≥ 0, pour tout n ∈ N∗ ;
(ii) la série n≥1 αn est convergente et l’on a +∞
P P
n=1 αn = 1.
Alors l’application P : P(Ω) −→ [0, 1] définie par
∞
X X
P(A) = αn εωn (A) = αn pour tout A ∈ P(Ω)
n=1 n/ωn ∈A
est une mesure de probabilité, appelée probabilité

P∞ discrète porte par les éléments ωn et
pondérée par les poids αn , notée aussi P = n=1 αn εωn . Plus généralement toute mesure
de probabilité sur un espace fini ou dénombrable est discrète.
Exercice 1.4.39 Soit (Ω, A) un espace probabilisable, et soit Q : A −→ [0, 1] une appli-
cation telle que
1. Q(Ω) = 1.
2. Q(A ∪ B) = Q(A) + Q(B) pour tout A, B ∈ A disjoints.
S+∞ (An )n≥1 d’éléments de A (c’est-à-dire pour tout n ∈ N,

3. Pour toute suite croissante
An ⊂ An+1 ), on a Q( n=1 An ) = limn→+∞ Q(An ).
Montrer que Q est probabilité sur (Ω, A).
1.4.4 Événements presque sûr

Soit (Ω, A, P) un espace probabilisé. Par définition, on a toujours P(∅) = 0 et P(Ω) =
1, mais il se peut que pour d’autres événements A, B ∈ A, on ait P(A) = 0 et P(B) = 1.
Définition 1.4.40 Soit (Ω, A, P) un espace probabilisé.
1. On appelle presque sûr ou presque certain tout événement C ∈ A tel que C 6= Ω

et P(C) = 1.
2. On appelle P-négligeable ou presque impossible tout événement C ∈ A tel que
C 6= ∅ et P(C) = 0.
3. Une propriété P est vraie presque-sûrement (p.s) lorsqu’elle est vraie en tout point
ω ∈ Ω sauf peut être pour un ensemble P-négligeable.
Remarque 1.4.41 Soit (Ω, A, P) un espace probabilisé. Plus généralement, un sous-

ensemble A ⊂ Ω est dit P-négligeable, s’il existe C ∈ A tel que A ⊂ C et P(C) = 0.
1.5 Probabilité sur un ensemble fini

Soit Ω = {ω1 , ω2 , · · · , ωN } un ensemble fini de cardinal N .
1.5.1 Probabilité uniforme sur un ensemble fini

Une probabilité P sur (Ω, P(Ω)) est entièrement caractérisée par ses valeurs sur les
singletons {ωi } de Ω : {P({ωi }), i = 1, · · · , N }
N
X
P= P({ωi })εωi .
i=1
Inversement, étant donnée une famille finie (pi )1≤i≤N de réels, il lui correspond une pro-
babilité P (unique) telle que P({ωi }) = pi pour tout i = 1, · · · N , si seulement si
N
X
pi ≥ 0 et pi = 1
i=1
et dans ce cas, on a pour tout A ∈ A :

X N
X
P(A) = p({ωi }) = P({ωi })εωi (A)
ωi ∈A i=1
Définition 1.5.1 Soit Ω = {ω1 , ω2 , · · · , ωN } un ensemble fini de cardinal N . On dit

que la probabilité P sur Ω est uniforme si P({ω}) ne dépend pas de ω ∈ Ω, tous les
événements élémentaires ont même probabilité (ou équiprobable) : P({ω1 }) = P({ω2 }) =
· · · P({ωN }) = N1 et donc
N
X 1
P= εω .
N i
i=1
P est dite aussi équiprobabilité.
Conséquence
Si P est une probabilité uniforme sur Ω fini de cardinal N , alors
1 1
∀ω ∈ Ω, P({ω}) = = .
N cardΩ
cardA cardA nb de cas favorables

∀A ⊂ Ω, P(A) = = = .
N cardΩ nb de cas possibles
de sorte que le calcul des probabilités se ramène à des dénombrements : on est dans le
cas de la combinatoire.
1.5.2 Rappel : Formules classiques de dénombrement

Soit A un ensemble non vide de cardinal N.
Suite quelconque de longueur donné.

L’ensemble des suites (u1 , u2 , · · · , un ) de longueur n où chaque ui ∈ A a pour cardinal
(card(A))n .
De telles suites sont appelées aussi ””arrangements avec répétitions de N objets pris n
n”, deux éléments ui et uj pouvant être égaux pour i 6= j. Dans le langage fonctionnel,
on peut dire que l’ensemble AB de toutes les applications d’un ensemble B de cardinal
n, dans un ensemble A de cardinal N , a pour cardinal N n .
Suite de termes distincts.

Une suite (u1 , u2 , · · · , un ) est dite (n, N )−injective, si elle est de longueur n ≤ N ,
si tous ses éléments sont pris dans A et si tous les ui sont distincts. Une telle suite est
appelée aussi ”arrangement sans répétition de N éléments pris n à n”. Si n = N les suites
(N, N )− injectives sont les numérotations de l’ensemble A, on dit encore les permutations
de A. Le nombre AnN des suites (n, N )−injective est
N!
AnN = N (N − 1) · · · (N − n + 1) = .
(N − n)!
En particulier, le nombre de permutation d’un ensemble de cardinal N est AN

N = N ! (où
la factorielle d’un entier N est N ! = 1.2 · · · (N − 1)N ).
Partie d’un ensemble.

Soit un entier n tel que 0 ≤ n ≤ N , le nombre de parties de cardinal n d’un ensemble
de cardinal N est
n N!
CN = .
n!(N − n)!
En effet, soit A un ensemble de cardinal N ; Pour obtenir une suite (n, N )−injective
(u1 , u2 , · · · , un ), il suffit de se donner la partie {u1 , u2 , · · · , un } de A, une permutation de
ces n éléments. Par conséquent, avec an,N désignant le nombre de parties de A de cardinal
An
n, on obtient AnN = an,N Ann , soit an,N = ANn = n!(NN−n)! !
.
n
Exercice 1.5.2 Montrer que si card(A) = n alors card(P(A)) = 2n .

Coefficients multinomiaux.
Soient un entier k tels que 1 ≤ k ≤ N , et soient la suite d’entiers (n1 , n2 , · · · , nk ) telle
que
n1 ≥ 0, n2 ≥ 0, · · · nk ≥ 0 et n1 + n2 + · · · + nk = N.
Le nombre de suites de longueur N , contenant n1 fois 1, n2 fois 2, · · ·, nk fois k est égal
au coefficient multinomial
N!
n1 !n2 ! · · · nk !
1.6 Application : Modèle de l’urne

Soit U une urne (un ensemble) de N boules (de cardinal N ). En pratique la nature
de l’urne peut être trés variés. Par exemple
- un jeu de 32 cartes (les boules sont alors les cartes) ;
- une population statistique à enquêter (les boules sont des individus) ;
- l’ensemble des billets vendus au cours d’une loterie...
Soit l’preuve e qui consiste à tirer une boule de l’urne. La succession des épreuves n fois
constitue elle même une épreuve E ”tirer successivement n boules de l’urne”. Il s’agit
d’une épreuve aléatoire dans la mesure où on ne connaı̂t pas à priori le résultat. La
méthode des prélèvement successifs, la connaissance de la composition de l’urne et les
préoccupations de l’expérimentateur conduisent à différents problèmes ainsi qu’a l’espace
d’état approprié. On s’intèresse en particulier aux épreuves qui consistent à prélever
plusieurs boules soit avec remise soit sans remise dans une urne où les boules sont d’une
catégorie ou de deux catégories.
1.6.1 Tirage sans remise

On appelle tirage sans remise le choix d’un ensemble de n boules avec n ≤ N sous les
conditions suivantes
- on choisit successivement les boules dans l’urne sans remettre dans l’urne les boules
tirées : tout élément ne peut pas l’être de nouveau ;
- à chaque tirage, toutes les boules restant dans l’urne au moment du tirage ont la
même probabilité d’être choisies : équiprobabilité sur les boules restantes.
Tirage sans remise dans une urne

Deux types de problèmes, donc deux espace d’états différents, sont à envisager selon
que l’on tient compte de l’ordre d’apparition des boules ou que l’on n’en tient pas compte.
Mais, dans les deux cas, on suppose l’équiprobabilité sur (Ω, P(Ω)).
1. Soit les boules sont tirées les unes aprés les autres et on note la suite des éléments
choisis. Un tel tirage peut être assimilé à une application de l’ensemble {1, 2, · · · , n}
dans l’ensemble U : à chaque rang i on fait correspondre la boule extraite au
cours du ième tirage. Or le tirage se faisant sans remise, à chaque rang on fait
correspondre une boule différente, donc le tirage est une application injective
de l’ensemble {1, 2, · · · , n} dans l’ensemble U . Il conduit à observer une suite
(n, N )−injective. L’espace d’état de cette épreuve est donc Ω = l’ensemble des
applications injectives de {1, 2, · · · , n} dans U de cardinal AnN .
2. Soit les boules sont tirées simultanèment (on ne note que le résultat global) ou
elle sont tirées successivement mais on juge que leur ordre d’apparition n’a pas
d’importance, on peut alors considérer un tirage comme un sous ensemble à n
éléments de l’ensemble à N éléments. Dans ce cas on prendra, pour l’espace d’état
l’ensemble des parties à n éléments d’un ensemble à N éléments et card(Ω) = CN n.
Exemple 1.6.1 Dans une course, il y a 14 cheveux au départ, vous n’êtes pas joueur et
vous estimez que chacun d’eux à la même chance de gagner.
a) Calculer le nombre N des tiercés possibles, càd le nombre des arrivées possibles des 14
cheveux aux première, deuxième et troisième ( dans l’ordre)
N = A314 = 14.13.12 = 2184
b) Calculer la probabilié de gagner le tiercé à l’aide d’un seul ticket.
1
- Dans l’ordre : 2184 .
- Dans l’ordre où dans le désordre : C13 = 21846
14
Exemple 1.6.2 On considére l’arrivée d’une course de chevaux, avec dix partants, numéroté
de 1 à 10. On note l’ordre d’arrivée. On suppose que les concurrents sont de force égale et
qu’il n’y a pas d’ex-aequos. L’espace d’état Ω est l’ensemble des injections de {1, 2, · · · , 10}
dans lui-même et donc cardΩ = 10!.
Soit l’événement A = { le numèro 10 arrive dernier }, on a alors
cardA card(ω ∈ Ω : ω(10) = 10)
P(A) = = =
cardΩ cardΩ
nombre d’injections de {1, 2, · · · , 9} dans lui même
=
10!
9!
=
10!
Si l’on s’intéresse à l’événement A = { le numèro 10 arrive dans les trois premiers }, on
peut considérer Ak = { le numéro 10 arrive à la k-ième place } pour k = 1, 2, 3 de sorte
que A = A1 ∪ A2 ∪ A3 . Les Ak sont deux à deux disjoints, on a
3
P(A) = P(A1 ) + P(A2 ) + P(A3 ) = .
10
Exemple 1.6.3 Le jeu du loto consiste à choisir 6 numéros distincts parmi {1, 2, · · · , 49}.
On suppose que les boules qui portent les 49 numéros sont toutes parfaites et on s’intéresse
qu’aux résultats des 6 boules. L’espace Ω est
Ω = {{a1 , a2 , · · · , a6 } 1 ≤ ai ≤ 49, les ai sont deux à deux diffèrents}
Il est naturel de considérer que tous les tirages possibles sont équiprobables, donc P est la
probabilité uniforme sur Ω. Par conséquent
1 1
P( on gagne le premier prix avec un bulletin) = = 6
cardΩ C49
Tirage sans remise dans une urne à deux catégories

On considère le cas les boules sont de deux catégories différentes :
- dans le jeu de cartes, les coeurs et les cartes des autres couleurs ;
- dans une population d’étudiants, les droitiers et les gauchers ;
- dans les billets vendus dans une loterie, les billets gagnants et les perdants.
On considère que l’urne est constituè de boules de deux catégorie différentes C1 de
cardinal N1 et C2 de cardinal N2 telles que N1 + N2 = N . On prélève successivement n
boules sans remettre les boules tirées dans l’urne” et donc n ≤ N1 + N2 . Cherchons alors
la probabilité de l’événement défini par : A ” parmi ces n boules, k sont de la catégorie
C1 et (n − k) sont de la catégorie C2 ”. Comme il s’agit d’un tirage sans remise, on peut
supposer qu’on tire simultanément les n boules. Ainsi, il est naturel de considérer qu’un
résultat est une partie à n éléments de l’ensemble M = {1, 2, · · · , N1 + N2 } des N1 + N2
boules (qu’on peut supposer numérotées de 1 à N1 + N2 ). Donc Ω est l’ensemble de
n (N1 +N2 )!
toutes les parties à n éléments de M , et cardΩ = CN 1 +N2
= n!(N 1 +N2 −n)!
. Ensuite il est
également naturel de considérer que tous les tirages possibles sont équiprobables, donc P
est la probabilité uniforme sur Ω. Ainsi,
- Les k boules de la catégorie C1 peuvent être choisies parmi les N1 boules de la
k façons avec k ≤ N .
catégorie C1 de CN1 1
- Les n − k boules de la catégorie C2 peuvent être choisies parmi les N2 boules de
n−k
la catégorie C2 de CN2
façons avec n − k ≤ N2 .
Il y a donc CN k C n−k façons d’obtenir le tirage voulu. Ce nombre représente en fait le
1 N2
nombre d’éléments de A, d’où
CNk C n−k k C n−k

CN
cardA 1 N2 1 N2
P(A) = = n = n
cardΩ CN 1 +N2
C N
Plus généralement pour un tirage sans remise d’une urne de K catégories, on procède de
la même façon, l’urne est composée de Nk boules de la catégorie Ck pour 1 ≤ k ≤ K ,
tout prélèvenement peut comporter des boules de chaque catégorie. On note An1 ,n2 ,···,nK
l’événement ”on extrait n1 boules de la catégorie C1 , · · · , nK boules de la catégorie CK ,
la probabilité de l’événement An1 ,n2 ,···,nK est :
n1 n2 nK
CN C · · · CN
1 N2 K
P(An1 ,n2 ,···,nK ) = n
CN
PK
telle que pour tout k ∈ {1, 2, · · · , K}, 0 ≤ nk ≤ Nk et k=1 nk = n ≤ N.
1.6.2 Tirage avec remise

Tirage avec remise dans une urne
On préleve n boules de l’urne selon un tirage avec remise de la façon suivante :
on choisit une première boule, on note son identité, on la remet dans l’urne que l’on
brasse puis on réitére cette opération n fois de suite. Cette expérience peut être assimilé
à une application quelconque de l’ensemble {1, 2, · · · , n} dans U . L’espace d’état Ω est

l’ensemble des application de {1, 2, · · · , n} dans U dont le cardinal est N n . On suppose
encore que l’on est en situation d’équiprobabilité et donc chaque événement élémentaire
a une probabilité N1n .
Tirage avec remise d’une urne à deux catégories

On considère que l’urne est constitué de boules de deux catégorie différentes C1 de
cardinal N1 et C2 de cardinal N2 telles que N1 + N2 = N . On prélève au hasard avec
remise, n boules. Pour tout k ∈ {1, 2, · · · , n}, soit Ak l’événement ”le nombre de boules
de la catégorie Ck extraite est k”. Le dénombrement des issues favorable à Ak se fait en
deux étape :
- on choisit d’abord les numéros des rangs où apparaissent les k boules de la catégorie
C1 , il y a Cnk façons de choisir un sous ensemble Bk à k éléments dans l’ensemble
{1, 2, · · · , n}.
- une fois choisi un sous-ensemble Bk de {1, 2, · · · , n}, il faut considérer toutes les
applications de {1, 2, · · · , n} dans U telles que les images des éléments de Bk sont
dans l’ensemble des boules de la catégorie C1 et les images des éléments de Bkc
sont dans l’ensemble des boules de catégorie C2 .
Ainsi le nombre de tirages favorables à Ak est Cnk N1k N2n−k et
Cnk N1k N2n−k N1 N2

P(Ak ) = = Cnk ( )k ( )n−k
Nn N N
Si l’on dèsigne par p1 = NN1 = p et p2 = N2

N = 1 − p les proportions des boules des
catègories C1 et C2 , on alors
P(Ak ) = Cnk pk1 pn−k

2 = Cnk pk (1 − p)n−k .
Plus généralement pour un tirage avec remise d’une urne de K catégories, on procéde de
la même façon, l’urne est composée de Nk boules de la catégorie Ck pour 1 ≤ k ≤ K ,
tout prélevenement peut comporter des boules de chaque catégorie. On note An1 ,n2 ,···,nK
l’événement ”on extrait n1 boules de la catégorie C1 , · · · , nK boules de la catégorie CK ,
la probabilité de l’événement An1 ,n2 ,···,nK est :
nK
n2
P(An1 ,n2 ,···,nK ) = Cnn1 Cn−n1
· · · Cn−n pn1 pn2 2 · · · pnKK
1 −n2 ···nk−1 1
PK
telle que pour tout k ∈ {1, 2, · · · , K}, 0 ≤ nk ≤ Nk et k=1 nk = n ≤ N ou encore
n!
P(An1 ,n2 ,···,nK ) = pn1 1 pn2 2 · · · pnKK
n1 !n2 ! · · · nK !
Exemple
On jette trois fois une pièce de monnaie parfaite. On peut représenter l’espace d’état par
Ω = {P, F }3 (l’ensemble des applications de {1, 2, 3} dans {P, F }) donc cardΩ = 23 . Il
est naturel de considérer que tous les tirages possibles sont équiprobables, donc P est la
probabilité uniforme sur Ω et
card( on sort exactement une fois P ) 3
P(on sort exactement une fois P ) = = .
cardΩ 8
1
P(on sort au moins une fois P ) = 1 − P( on sort trois fois F ) = 1 − .
8
1.7 Indépendance
Définition 1.7.1 Soit (Ω, A, P) un espace probabilisé.
1. Deux événements A et B de A sont dits indépendants si seulement si
P(A ∩ B) = P(A)P(B)
2. Les événements (Ai )i∈I où I est une famille quelconque, sont dits indépendants
dans leur ensemble (ou mutuellement indépendants) si pour toute partie finie J ⊂
I, \ Y
P( Ai ) = P(Ai )
i∈J i∈J
Ainsi dire que A est indépendant de B c’est dire que la réalisation de B n’apporte donc
aucune information supplémentaire sur l’éventuelle réalisation de A.
Remarque 1.7.2 1. Tout événement A est indépendant de ∅ et Ω. En effet,
P(A ∩ ∅) = P(∅) = P(A)P(∅) et P(A ∩ Ω) = P(A) = P(A)P(Ω)
2. Les seuls événements indépendants d’eux mêmes sont les événements de probabilité
0 ou 1. En effet, P(A ∩ A) = P(A)P(A) alors P(A)(1 − P(A)) = 0.
3. Les événements (Ai )1≤i≤n sont mutuellement indépendants si
\ Y
P( Ai ) = P(Ai ) pour tout J ⊂ {1, 2, · · · n} / card(J) ≥ 2.
i∈J i∈J
Le nombre des conditions à vérifier pour l’indépendance mutuelle se ramène à celui

de toutes les combinaisons sans répétions Cnk lorsque k varie de 2 à n ; le nombre
total de ces conditions est :
n
X n
X
N= Cnk = Cnk − n − 1 = 2n − n − 1.
k=2 k=0
Remarque 1.7.3 L’indépendance, sans autre précision, signifiera désormais l’indépendance
Exemple 1.7.4 On lance 3 fois un dé. Si Ai est un événement qui ne dépend que du
ième tirage i ∈ {1, 2, 3}, alors A1 , A2 et A3 sont indépendants.
Remarque 1.7.5 Des événements indépendants (mutuellement) sont aussi deux-à-deux

indépendants, mais la réciproque est fausse. En effet, si nous lançons deux dés parfaite-
ment équilibrés et on considère les trois événements suivantes :
- A : le premier dé donne un nombre paire. A = {2, 4, 6}, P(A) = 12 .
- B : le deuxième dé donne un nombre impaire. B = {1, 3, 5}, P(B) = 12 .
- C : les deux dès donnet des nombres de même paritè. 18 cas parmi 36, P(C) = 21 .
Vérifions que ces trois événements sont deux à deux indépendants, nous avons :
- A ∩ B : le dé un donne pair et le dé deux donne un nombre impaire, P(A ∩ B) = 14 =
P(A)P(B).
- A ∩ C : le dé un donne pair et le dé deux la même parité, P(A ∩ C) = 41 = P(A)P(C).
- B ∩ C : le dé un donne impair et le dé deux donne un nombre impaire, P(B ∩ C) = 14 =
P(B)P(C).
Ils ne sont pas cependant indépendts, en effet on ne peut pas avoir A et B et C en même
temps, A ∩ B ∩ C = ∅, P(A ∩ B ∩ C) 6= P(A)P(B)P(C) = 81
Proposition 1.7.6 Soit (Ω, A, P) un espace probabilisé.

1. Si les événements A et B de A sont indépendants, il en est de même des couples
(A, B c ), (Ac , B) et (Ac , B c ).
2. Si (An )n≥1 une suite d’événements deux à deux disjoints et si A est un événement
indépendant de An pour tout n ≥ 1, alors A est indépendant de ∪+∞ n=1 An .
Démonstration 1.7.7 1. Comme P(A ∩ B c ) + P(A ∩ B) = P(A), alors on a
P(A ∩ B c ) = P(A) − P(A)P(B)

= P(A)(1 − P(B)) = P(A)P(B c )
2. En utilisant la propriété de la σ additivité, on a

+∞
X
P(A ∩ (∪+∞ +∞
n=1 An )) = P(∪n=1 (A ∩ An )) = P(A ∩ An )
n=1
+∞
X +∞
X
= P(A)P(An ) = P(A) P(An ) = P(A)P(∪+∞
n=1 An ).
n=1 n=1
Remarque 1.7.8 Lorsqu’on veut calculer la probabilité qu’au moins un événement, parmi
un groupe de plusieurs événements indépendants se réalise, on utilise la propriété de
complémentaire. En effet, soient A, B et C des événements indépendants on a
P(A ∪ B ∪ C) = P(A) + P(B) − P(A ∩ B) − P(A ∩ C) − P(C ∩ B)

= P(A) + P(B) + P(C) − P(A)P(B) − P(A)P(C) − P(C)P(B)
En utilisant la propriété de complémentaire, on a
P(A ∪ B ∪ C) = 1 − P(Ac ∩ B c ∩ C c )
= 1 − (1 − P(A))(1 − P(B))(1 − P(C))
Remarque 1.7.9 Soient A, B, C et D des événements indépendants. Alors

1. les événements A ∩ B et C sont indépendants.
2. les événements A ∩ B et C ∪ D sont indépendants
Plus généralement, soient E1 , E2 , · · · , En , En+1 , · · · , En+m des événements indépendants
dans leurs ensemble. Si A est un événement obtenu à partir des événements E1 , E2 , · · · , En
à l’aide des opérations ensemblistes usuelles et si B est un événement obtenu à par-
tir des événements En+1 , · · · , En+m à l’aide des opérations ensembliste aussi, alors les
événements A et B sont indépendants.
Exemple 1.7.10 On désigne comme d’habitude par φ(n) la fonction d’Euler de la théorie
des nombres, c’est à dire φ(n) est le nombre des entiers plus petits que n et qui sont
premiers avec n. Alors
Y 1
φ(n) = n (1 − )
p
p : p/n
où le produit est sur tous les facteurs premiers p de n. Pour redémontrer cette for-
mule, on considère le modèle probabiliste suivant : on choisit au hasard un nombre parmi
{1, 2, · · · , n} avec équiprobabilité. Pour tout nombre premier p, soit
Ap = { le nombre choisit est divisible par p}
Soient p1 , p2 , · · · , pm les facteurs premiers de n. Montrons d’abord que Ap1 , Ap2 , · · · , Apm
sont des événements indépendants. D’aprés la proposition précédente, il suffit de montrer
que P(Api1 ∩ · · · ∩ Apik ) = P(Api1 ) · · · P(Apik ). Or il est clair que
n n/pi 1
P(Api ) = P( le nombre est un élément de ∈ {pi , 2pi , 3pi , · · · , pi }) = =
pi n pi
tandis que
n n/q 1
P(Api1 ∩ · · · ∩ Apik ) = P( le nombre est un élément de ∈ {q, 2q, 3q, · · · , q}) = =
q n q
où q = pi1 × · · · × pik ce qui donne P(Api1 ∩ · · · ∩ Apik ) = P(Api1 ) · · · P(Apik ). On

sait donc que Ap1 , Ap2 , · · · , Apm sont indépendants. Ainsi Acp1 , Acp2 , · · · , Acpm sont aussi
indépendants. On a,
k
Y 1
P(Acpi ∩ ··· ∩ Acpi ) = P(Acpi ) · · · P(Acpi ) = (1 − ).
1 k 1 k pi
i=1
φ(n)
D’autre part, P(Acpi ∩ · · · ∩ Acpi ) = n , d’où l’identité.
1 k
1.7.1 Probabilité conditionnelle

On considère un événement A de probabilité P(A). Cette probabilité peut être considérée
comme un degré de confiance, compte tenu des informations que l’on possède, dans la
réalisation de cet événement. Cette probabilité peut donc être modifiée, en plus ou en
moins, si une information supplémentaire est donnée. En particulier si une information dit
qu’un événement B s’est réalisé au cours de l’épreuve, on pourra modifier la probabilité
qu’on accorde à l’événement A. C’est cette nouvelle probabilité qui sera appelée proba-
bilité conditionnelle de A ”conditionnée par B” ou ”sachant B” (ou encore sachant que
l’événement B s’est réalisé la probabilité que l’événement A se soit réalisé). En particulier
la probabilité conditionnelle de B sachant B est égale à 1 puisque l’on sait que B est réalis.
Exemple 1.7.11 On lance à 2 reprises un dé. Quelle est la probabilité d’obtenir au moins
une fois la valeur 6. Ω = {(i, j) / 1 ≤ i, j ≤ 6} et où P est la probabilité uniforme sur Ω :
card(A) 1
P(A) = pour tout A ∈ P(Ω), et P({(i, j)}) = pour tout (i, j) ∈ Ω.
card(Ω) 36
Soit A l’événement ”obtenir au moins un six”, on a alors
A = {(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6), (6, 5), (6, 4), (6, 3), (6, 2), (6, 1)}
11
et P(A) = 36 . Maintenant, on lance le dé deux fois et on annonce que la somme des deux
lancers est 8. Étant donnée cette information, quelle est la probabilité d’obtenir au moins
un 6 ? On note B l’événement ”la somme des deux lancers est 8”, on alors
B = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}
Parmi ces 5 résultats possibles, il y en a 2 pour lesquels il y a un six : (2, 6) et (6, 2) et

la réponse est donc 25 . Autrement , on a A ∩ B = {(2, 6), (6, 2)} et
2 2/36 P(A ∩ B)
= =
5 5/36 P(B)
Définition 1.7.12 Soient A, B ∈ A deux événements, tel que P(B) > 0. On appelle
probabilité conditionnelle de A sachant B le nombre réelle noté P(A/B) défini par :
P(A ∩ B)
P(A/B) =
P(B)
Soient A et B ∈ A deux événements, tels que P(B) > 0 et P(A) > 0. Alors
P(A ∩ B) = P(A/B)P(B) = P(B/A)P(A).
Proposition 1.7.13 1. Soient A et B deux événements tels que P(B) > 0. Les
événements A et B sont indépendants si et seulement si P(A/B) = P(A).
P(A)
2. Soient A et B deux événements tels que A ⊂ B et P(A) > 0. Alors P(A/B) = P(B)
et P(B/A) = 1.
Démonstration 1.7.14 1. Si A et B sont indépendants, on a
P(A ∩ B) P(A)P(B)
P(A/B) = = = P(A).
P(B) P(B)
P(A∩B)
Inversement, si P(A/B) = P(A) alors P(B) = P(A) et donc P(A ∩ B) =
P(A)P(B).
P(A)
2. A ∩ B = A alors P(A/B) = P(B) et P(B/A) = 1
Proposition 1.7.15 Soit B un événement, tel que P(B) > 0.

L’application P(./B) : A −→ [0, 1] définie par
P(A ∩ B)
P(A/B) = pour tout A∈A
P(B)
est une nouvelle probabilité sur A, appelé probabilité conditionnelle si B, on la note aussi
PB .
Démonstration 1.7.16 1. Pour tout A ∈ A, on a 0 ≤ P(A/B) ≤ 1.

P(Ω∩B) P(B)
2. P(Ω/B) = P(B) = P(B) =1
3. Pour toute suite (dénombrable) (An )n≥1 d’éléments de A deux à deux disjoints,
on a
+∞
!
P(( +∞ P( +∞
S S P+∞
n=1 An ) ∩ B) n=1 (An ∩ B)) P(An ∩ B)
[
P An /B = = = n=1
P(B) P(B) P(B)
n=1
(An ∩ B)n≥1 estPune suite d’éléments dans A disjoints deux à deux, ainsi
puisque S
on a P( +∞
n=1 An /B) =
+∞
n=1 P(An /B)
Tout événement B tel que P(B) > 0 définit un nouvel espace probabilisé (Ω, P(Ω), P(./B)).
Ainsi toutes les propriétés usuelles des probabilités sont également valides pour les pro-
babilités conditionnelles. Par exemple, on a :
1. P(A/B) = 1 − P(Ac /B)
2. P(A ∪ C/B) = P(A/B) + P(C/B) − P(A ∩ C/B)
Exemple 1.7.17 Soit (Ω, P(Ω), P) un espace probabilisé où Ω est fini et où P est la
probabilité uniforme sur Ω. Soient A et B deux événement tel que P(B) > 0. On a alors
card(A ∩ B)
P(A/B) =
cardB
Le calcul de P(A/B) souligne bien que le conditionnement par B entraı̂ne une restriction
sur Ω, B devenant un événement sûr à sa place, et que les seuls cas favorables sont les
ceux réalisant A ∩ B.
Remarque 1.7.18 Comme tout événement B tel que P(B) > 0 définit une probabilité
P(./B) = PB , il est possible par un deuxième conditionnement définir une nouvelle proba-
bilité conditionnelle PB (./A) par rapport à un événement A tel que P(A) > 0 à condition
que P(A ∩ B) > 0. En effet, pour tout C ∈ A, on a
PB (C ∩ A) P(C ∩ A ∩ B) P(B) P(C ∩ A ∩ B)
PB (C/A) = = = = P(C/A ∩ B).
PB (A) P(B) P(A ∩ B) P(A ∩ B)
De même PA (C/B) = P(C/A ∩ B), donc dans deux conditionnements successifs, l’ordre
des conditionnements n’intervient pas et conditionner deux fois de suites revient à condi-
tionner par l’intersection des événements correspondants.
Remarque 1.7.19 Dans certains problèmes ce sont la probabilité conditionnelle P(A/B)

et la probabilité P(B) qui sont données ou bien facile à calculer. On peut alors calculer
P(A ∩ B) (règle de multiplication). Dans la pratique, ce sont les données du problème qui
nous indiquent laquelle des deux formulation utiliser. Souvent il y a un ordre chronologique
et l’on conditionne sur celui des événements A ou B qui vient le premier.
Exemple 1.7.20 Un panier contient 5 boules noires et 3 boules blanches. On tire deux
boules au hasard sans remise de l’urne. Quelle est la probabilité d’obtenir deux boules
noires ? On pose
A = l’événement ”obtenir une boule noire au premier tirage”
B = l’événement ”obtenir une boule noire au deuxième tirage”
Alors la probabilité désirée est P(A ∩ B) et on a
54
P(A ∩ B) = P(A)P(A/B) =
87
Proposition 1.7.21 (Théorème des probabilités composées) Si A1 , · · · , An sont
des événements tels que P(A1 ∩ · · · ∩ An ) > 0, alors on a
P(A1 ∩ · · · ∩ An ) = P(A1 )P(A2 /A1 )P(A3 /A1 ∩ A2 ) · · · P(An /A1 ∩ · · · ∩ An−1 )
Démonstration 1.7.22 On raisonne par récurrence. Pour n = 2 le résultat est évident

puisque par définition P(A1 ∩ A2 ) = P(A1 )P(A2 /A1 ). Supposons que la relation est vraie
pour n − 1 et soit B = A1 ∩ · · · ∩ An−1 , on a alors P(B ∩ An ) = P(B)P(An /B). D’où le
résultat en remplaçant P(B) par sa valeur donnée par la formule de récurrence.
Exemple 1.7.23 Une urne contient initialement r boules rouges et b boules blanches.
On tire une boule à la fois
- si la boule est blanche, on le remet et on rajoute c boules blanches.
- si la boule est rouge, on le remet et on rajoute c boules rouges.
Quelle est la probabilité d’avoir une boule rouge à chaque fois au cours des trois premiers
tirages ?
Ai : l’événement obtenir une boule rouge au ième tirage.
r + 2c r+c r
P(A1 ∩ A2 ∩ A3 ) = P(A3 /A1 ∩ A2 )P(A2 /A1 )P(A1 ) =
r + 2c + b r + c + b r + b
Exemple 1.7.24 Un panier contient 5 boules blues, 6 boules blanches et 7 boules rouges.
On tire 4 boules au hasard sans remise du panier. Quelle est la probabilité d’obtenir 4
boules de la même couleur ? On pose
D = l’événement ”obtenir 4 boules de même couleur”
A = l’événement ”obtenir 4 boules blues”
B = l’événement ”obtenir 4 boules blanches”
C = l’événement ”obtenir 4 boules rouges”
alors on a D = A ∪ B ∪ C. Comme les événement A, B et C sont deux à deux disjoints
on a :
P(D) = P(A) + P(B) + P(C)
D’aprés la règle de multiplication on a
5 4 3 2
P(A) =
18 17 16 15
6 5 4 3
P(B) =
18 17 16 15
7 6 5 4
P(C) =
18 17 16 15
Proposition 1.7.25 Soit (Bi )i∈I une partition finie ou infinie de Ω (l’ensemble d’indice
I est finie ou infinie) constituée d’événements vérifiant P(Bi ) > 0. Alors pour tout A ∈ A,
X
P(A) = P(A/Bi )P(Bi ).
i∈I
Démonstration
S 1.7.26 Comme (Bi )i∈I est une partition de Ω, alors on a :
A = i∈I (A ∩ Bi ) pour
P tout A ∈ A, et les A ∩ Bi sont deux-à-deux disjoints.
Pa P(A) = i∈I P(A ∩ Bi ) et par suite
Ainsi, on
P(A) = i∈I P(A/Bi )P(Bi ) puisque P(A ∩ Bi ) = P(A/Bi )P(Bi ).
Exemple 1.7.27 On lance une pièce de monnaie jusqu’à ce qu’on obtienne une pile.
Puis, on lance un dé un nombre de fois égal au nombre de fois qu’on a lancé la pièce
de monnaie. Quelle est la probabilité d’obtenir au moins un six avec le dé ? On pose A :
l’èvènement ”obtenir au moins un six avec le dé” et pour n ∈ N∗ En = l’événement ”la
première pile survient au nème lancer de la pièce”. D’autre part on a :
1
P(En ) = , ∀n ∈ N∗
2n
D’autre part on a
5n
P(A/En ) = 1 − P(Ac /En ) = 1 − , ∀n ∈ N∗
6n
La suite (En )n∈N∗ forme une partition, d’où d’aprés la probabilité totale on a
+∞
X
P(A) = P(A/En )P(En )
n=1
+∞
X 5 1
= (1 − ( )n ) n
6 2
n=1
+∞ +∞
X 1 X 5 5
= ( )n − ( )n = 1 −
2 12 7
n=1 n=1
Proposition 1.7.28 (Théorème de bayes)

Soit (Bi )i∈I une partition finie ou infinie de Ω constituée d’événements vérifiant
P(Bi ) > 0. Alors pour tout A ∈ A tel que P(A) > 0 :
P(A/Bi )P(Bi )
P(Bi /A) = P .
j∈I P(A/Bj )P(Bj )
(appelée aussi probabilité des causes).
i ∩A) i )P(Bi )
Démonstration 1.7.29 Par définition, on a P(Bi /A) = P(B P(A) = P(A/B
P(A) d’où le
résultat en remplaçant dans le dénominateur P(A) par sa valeur d’aprés la proposition
précédente.
Exemple 1.7.30 Dans une population donnée, tout individu à la probabilité 0, 25 d’être
porteur d’un virus V. on dispose d’un test, on sait que si un individu n’est pas prteur d’un
virus V il à 9 chances sur 10 de répondre négativement au test alors que s’il est porteur
de V, il à 85 chance sur 100 de répondre positivement.
Un sujet de la population subit le test et le résultat est négatif, quelle est la probabilité
que le sujet soit porteur du virus V ?
V : l’événement être porteur de virus.
T : l’événement répondre positivement au test de dépésitage.
Les données sont : P(V ) = 0, 25, P(T c /V c ) = 0, 9 et P(T /V ) = 0, 85.
c /V )P(V )
Nous cherchons P(V /T c ) = P(T P(T c) or P(T c /V ) = 1 − P(T /V ) = 1 − 0, 85 = 0, 15 et
P(T c ) = P(T c /V )P(V ) + P(T c /V c )P(V c ) = 0, 15.0, 25 + 0, 9.0, 75.
Donc P(V /T c ) = 0, 053
Exemple 1.7.31 On réalise l’expérience décrite à l’exemple précédent et on n’a pas

obtenu aucun 6 avec le dé. Quelle est la probabilité que le dé ait été lancé plus de 4
fois ? Avec les notation précédente, la probabilité recherchée est simplement la probabilité
conditionnelle P(∪+∞ c
n=5 En /A ). On obtient alors
X
P(∪+∞ c
n=5 En /A ) = P(En /Ac )
n=5
X P(Ac /En )P(En )
= P c
n=5 m=5 P(A /Em )P(Em )
X ( 56 )n 21n
= P 5 m 1
n=5 m=1 ( 6 ) 2m
( 5 )n
P
5 4
= P n=5 12
5 m = ( 12 )
m=1 ( 12 )
Exemple 1.7.32 Soit Ω un ensemble de N boules blanches et M boules noires. Ces boules
sont réparties entre deux urnes U1 et U2 . U1 contient n boules blanches et m boules noires.
U2 contient N − n boules blanches et M − m boules noires. On choisit au hasard une urne
U1 avec une probabilité p et U2 avec une probabilité 1 − p. On tire une boule au hasard,
les divers tirages sont équiprobables, dans l’urne choisie qui demeure inconnue. Sachant
qu’elle est blanche, quelle est la probabilité pour qu’elle provienne de l’urne U1 ? Soit les
événements A : ”la boule tirée est blanche” et B : ”la boule provient de U1 ”. On cherche
donc P(B/A). Comme {B, B c } est une partition alors
P(A/B)P(B)
P(B/A) = .
P(A/B)P(B) + P(A/B c )P(B c )
n N −n
Or P(A/B) = n+m et P(A/B c ) = N −n+M −m , d’où
pn(N − n + M − m)
P(B/A) = .
pnN − n + M − m) + (1 − p)(N − n)(n + m)
Chapitre 2
Variables aléatoires
Soit (Ω, A, P) un espace probabilisé.
2.1 Variables aléatoires

2.1.1 Définitions et propriètés
Définition 2.1.1 Soit (E, B) un espace probabilisable.
On dit que l’application X : Ω −→ E est une variable aléatoire de (Ω, A) dans (E, B) si
pour tout B ∈ B, X −1 (B) = {ω ∈ Ω, X(ω) ∈ B} ∈ A.
En particulier si E est une partie de R (resp de Rd ) la variable aléatoire est dite réelle
(resp un vecteur aléatoire).
Comme on vient de le voir, toute variable aléatoire est une application, par contre toute
application n’est pas nécessairement une variable aléatoire. Du point de vue analyse, une
variable aléatoire n’est autre qu’une application mesurable.
Remarque 2.1.2 Si l’ensemble Ω est fini ou dénombrable et A = P(Ω), alors toute

application X définie sur Ω est une variable aléatoire. En effet, l’ensemble image X(Ω)
est fini ou dénombrable et l’image réciproque de tout singleton de X(Ω) est une partie de
Ω. La variable aléatoire est dite discrète.
Proposition 2.1.3 Soient (Ω, A, P) un espace probabilisé et (E, B) un espace probabili-

sable. Soit X : Ω −→ E une variable aléatoire.
Alors la famille σ(X) = {X −1 (B) ∈ A / B ∈ B} est une tribu sur Ω incluse dans A
appelée tribu engendrée par X.
Démonstration 2.1.4 1. Ω = X −1 (E) et donc Ω ∈ σ(X).

2. Si A ∈ σ(X), alors il existe B ∈ B tel que A = X −1 (B) et par suite
Ac = X −1 (B c ) ∈ σ(X).
30
CHAPITRE 2. VARIABLES ALÉATOIRES 31
3. Soit (An )n∈N une suite d’éléments de σ(X), il existe alors une suite (Bn )n∈N une
suite d’éléments de B tel que An = X −1 (Bn ) pour tout n ∈ N, comme ∪+∞ n=1 An =
X −1 (∪+∞
n=1 n B ) et ∪+∞
B
n=1 n ∈ B, alors on a ∪+∞
A
n=1 n ∈ σ(X).
Plus généralement soient (Ω, A, P) un espace probabilisé, (E, B) un espace probabilisable

et X : Ω −→ E une application.
Alors la famille X −1 (B) = {X −1 (B) / B ∈ B} est une tribu sur Ω
Remarque 2.1.5 La tribu σ(X) est la plus petite tribu d’éléments de A rendant X une
variable aléatoire, elle représente l’information portée par X sur le résultat de l’expérience
aléatoire.
Proposition 2.1.6 Soient (Ω, A, P) un espace probabilisé et (E, σ(C)) un espace proba-
bilisable où C est une famille de parties de E. L’application X : Ω −→ E est une variable
aléatoire de (Ω, A) dans (E, σ(C)), si seulement si X −1 (C) ⊂ A.
Démonstration 2.1.7 Comme X est une application alors on a
σ(X −1 (C)) = X −1 (σ(C)).
En effet,
1. on a C ⊂ σ(C), d’où X −1 (C) ⊂ X −1 (σ(C)). Comme ce dernier ensemble est une
tribu, on a alors σ(X −1 (C)) ⊂ X −1 (σ(C)).
2. Soit
D = {B ⊂ E / X −1 (B) ∈ σ(X −1 (C))}.
On a alors X −1 (D) ⊂ σ(X −1 (C)) et vérifions que D est une tribu sur E :
(a) On a X −1 (E) = Ω ∈ σ(X −1 (C)), d’où E ∈ D.
(b) Soit (B S suite d’éléments de D, alors S
S n )n∈N une
X −1 ( n Bn ) = n X −1 (Bn ) ∈ σ(X −1 (C)), d’où n Bn ∈ D.
(c) Soit B ∈ D, alors X −1 (B c ) = (X −1 (B))c ∈ σ(X −1 (C)). D’où B c ∈ D.
Comme C ⊂ D, donc σ(C) ⊂ D et par suite
X −1 (σ(C)) ⊂ X −1 (D) ⊂ σ(X −1 (C))
et ainsi, on a σ(X −1 (C)) = X −1 (σ(C)).

Ainsi si, X −1 (C) ⊂ A, alors la tribu σ(X −1 (C)) = X −1 (σ(C)) ⊂ A et l’application X est
une variable aléatoire.
Conséquence
Soit (Ω, A, P) un espace probabilisé. Si l’ensemble Ω est quelconque et A est strictement
incluse dans P(Ω), alors pour que l’application X : Ω −→ E où E = R (resp E = Rd )
il faut que pour tout x ∈ R, X −1 (] − ∞, x]) ∈ A,
puisse définir une variable aléatoire, Q
(resp pour tout x1 , · · · , xd ∈ R, X ( di=1 ] − ∞, xi ]) ∈ A).
−1
Proposition 2.1.8 Soit (Ω, A, P) un espace probabilisé. Soient X et Y deux variables

aléatoires réelles sur (Ω, A, P). Alors :
1. αX + Y est une variable aléatoire réelle pour tout α ∈ R.
2. XY est une variable aléatoire réelle.
1
3. Si de plus ∀ω ∈ Ω, X(ω) 6= 0, X est une variable aléatoire réelle.
Soit (Xn )n∈N une suite de variables aléatoires réelles. Alors :
1. supn Xn , inf n Xn , lim sup Xn = limn→+∞ supm≥n Xm et lim inf Xn = limn→+∞ inf m≥n Xm
sont des variables aléatoires réelles.
2. Si la suite (Xn )n∈N converge en tout point de Ω, alors l’application limn Xn est
une variable aléatoire réelle.
2.1.2 Loi de probabilité d’une variable aléatoire

Soient (Ω, A, P) un espace probabilisé et (E, B) un espace probabilisable. La notion de
variable aléatoire X : Ω −→ E permet de probabiliser l’espace d’arrivée E. Comme l’es-
pace E est connu dans la pratique, on va préférer s’intéresser aux chances de réalisations
des valeurs de X plutôt qu’aux chances des résultats de l’expériences. Or P(A) n’a de sens
que pour A ∈ A, donc on ne peut définir une probabilité sur E que pour des événements
B tels que X −1 (B) ∈ A.
Proposition 2.1.9 Soient (Ω, A, P) un espace probabilisé et X : Ω −→ E une variable

aléatoire. Alors, l’application PX : B −→ [0, 1] dèfinie par
PX (B) = P(X −1 (B)) pour tout B ∈ B
est une mesure de probabilité sur (E, B) appelée loi de probabilité de la variable aléatoire
X ou encore sa distribution. On dit aussi que X suit la loi de probabilité PX .
Démonstration 2.1.10 Toutes les propriétés à vérifier découlent des propriétés élémentaires
suivantes X −1 (∅) = ∅, X −1 (E) = Ω, X −1 (B c ) = (X −1 (B))c , X −1 (∪i∈I Ai ) = ∪i∈I X −1 (Ai )
et enfin X −1 (∩i∈I Ai ) = ∩i∈I X −1 (Ai ).
Une variable aléatoire X : Ω −→ E définit ainsi un nouvel espace probabilisé (E, B, PX ) :

espace probabilisé propre à la variable aléatoire X. L’espace probabilisé (Ω, A, P) est alors
appelé par opposition espace probabilisé fondamental.
Notation
Soit X une variable aléatoire réelle définie sur l’espace probabilisé (Ω, A, P) et soit PX la
loi de probabilité de X sur (E, BR ). Pour tout borélien B de BR , on note
PX (B) = P({ω / X(ω) ∈ B}) = P(X ∈ B)
Ainsi, si X est une variable aléatoire réelle alors ∀x ∈ R on a :

- PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x).
- PX ({x}) = P(X ∈ {x}) = P(X = x).
Remarque 2.1.11 Ainsi grâce à la variable X, on peut transporter la structure du

modèle probabiliste (Ω, A, P) sur l’espace d’arrivée (E, B, PX ).
Exemple 2.1.12 On a vu au chapitre précédent comment modéliser le lancer de deux

dés à l’aide de l’espace Ω = {1, 2, · · · , 6}2 muni de la probabilité uniforme A = P(Ω).
Lors d’une réalisation ω = (ω1 , ω2 ) ∈ Ω, ω1 est le résultat du premier dé et ω2 celui du
second. La somme des deux dés S(ω) = ω1 + ω2 définit donc une variable aléatoire. On a
2 1
par exemple P(S = 11) = P({(5, 6), (6, 5)}) = 36 = 18 .
2.1.3 Espérance d’une variable aléatoire réelle

Définition 2.1.13 Soit X une variable aléatoire réelle quelconque positive presque p.s (
P(X ≥ 0) = 1). On appelle Espérance de X et on note E(X) la limite croissante
( éventuellement infinie ∈ R), de
+∞
X k k k+1
E(X) = lim P( ≤X< )
n→+∞ 2n 2n 2n
k=0
Définition 2.1.14 Soit X une variable aléatoire réelle quelconque. On dit qu’elle est
intégrable si E(|X|) < +∞. Dans ce cas, on définit son Espérance(finie) par
E(X) = E(X1{X≥0} ) − E(|X|1{X<0} )
2.1.4 Fonction de répartition

Définition 2.1.15 Soit X une variable aléatoire réelle. La fonction de répartition de X
est la fonction mesurable F, parfois notée FX , définie sur R par :
F (x) = P(X ∈] − ∞, x]) = P(X ≤ x), x ∈ R.
Remarque 2.1.16 Soit X une variable aléatoire réelle de fonction de répartition FX .

Alors :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
2. limx→+∞ FX (x) = 1 et limx→−∞ FX (x) = 0.
3. FX est croissante sur R et continue à droite en tout point de R.
4. FX caractérise la loi de X :
∀x, y ∈ R tq x ≤ y ona :
P(X ∈]x, y]) = P(x < X ≤ y) = FX (y) − FX (x)
5. Soient X et Y deux variables aléatoires réelles, si FX = FY alors X et Y ont la

même loi.
2.2 Variables aléatoires réelles discrètes

Définition 2.2.1 On appelle variable aléatoire réelle discrète toute variable aléatoire
X : Ω → R telle que X(Ω) = ∆ est au plus dénombrable ( fini ou dénombrable).
Exemple 2.2.2 Soit A ∈ A. La fonction indicatrice de A, 1A : Ω → R est une variable

aléatoire réelle discrète.
Proposition 2.2.3 Soit X une variable réelle aléatoire discrète on a alors

X
P(X = x) = 1
x∈X(Ω)
P par la donnée {(x, P(X = x)) | x ∈ X(Ω)}. Ainsi,

et la loi PX de X est déterminer
pour tout B ∈ BR , P(X ∈ B) = x∈X(Ω) P(X = x)1B (x).
Remarque 2.2.4 1. Si x ∈ / X(Ω), alors P(X = x) = 0.

2. En pratique, trouver la loi de X, c’est calculer les P(X = x) pour tout x ∈ X(Ω).
3. La fonction de répartition
P d’une variable aléatoire réelle discrète est donnée par :
∀x ∈ R, FX (x) = {t∈X(Ω) | t≤x} P(X = t)
Changement de variable :
Proposition 2.2.5 Soient X une variable aléatoire discrète et ϕ : R → R une fonction
mesurable. Alors la loi de Y, la variable aléatoire Y = ϕ(X) est donnée par
PY (B) = PX (ϕ−1 (B)), ∀B ∈ BRP .
Ainsi, ∀y ∈ Y (Ω), P(Y = y) = {x∈X(Ω) | y=ϕ(x)} P(X = x)
Remarque 2.2.6 Soit X une variable aléatoire discrète positive. On a :

k k+1 k k+1
2n P(X = x) ≤ xP(X = x) ≤ 2n P(X = x), x ∈ [ 2n , 2n [.
k k+1
En sommant sur x ∈ X(Ω) ∩ [ 2n , 2n [ il vient :
k k k+1 X k+1 k k+1
n
P( n ≤ X < )≤ xP(X = x) ≤ P( n ≤ X < ).
2 2 2n 2 n 2 2n
x∈X(Ω)∩[ 2kn , k+1
2n
[
En sommant sur k, et en prenant la limite quand n tend vers l’infin, on obtient alors que
X
E(X) = xP(X = x)
x∈X(Ω)
En utilisant la formule du changement de variable, on a, pour une variable aléatoire réelle

discrète quelconque :
X X
E(|X|) = y1{|x|=y} P(X = x) = |x|P(X = x).
x∈X(Ω) x∈X(Ω)
En
P conclusion, on obtient que si X est une variable aléatoire discrète intégrable, i.e. si
x∈X(Ω) |x|P(X = x) < +∞, alors son Espérance est définie par :
X
E(X) = xP(X = x)
x∈X(Ω)
Exemple 2.2.7 Si A est un événement, la variable aléatoire discrète 1A est positive et

E(1A ) = P(A). En particulier si Ω = A ⇒ E(1) = 1
Exemple 2.2.8
P Soit X : la variable aléatoire : le résultat d’un lancer d’un dé à 6 faces
⇒ E(X) = 6k=1 k6 = 72
Proposition 2.2.9 Soient X une variable aléatoire réelle discrète et g : R → R une

fonction telles que X
|g(x)|P(X = x) < +∞
x∈X(Ω)
Alors la variable aléatoire réelle discrète g(X) est intégrable et on a :

X
E(g(X)) = g(x)P(X = x)
x∈X(Ω)
Conséquence :
Si x∈X(Ω) |x|n P(X = x) < +∞, alors X n est intégrable et on a :
P
X
E(X n ) = xn P(X = x)
x∈X(Ω)
appelé moment d’ordre n.

Définition 2.2.10 Soit X une variable aléatoire réelle discrète de carré intégrable (
E(X 2 ) est fini). On appelle variance de X, le réel
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2

p
et on appelle σ(X) = V(X) l’écart type de la variable X.
2.2.1 Fonction génératrices

Définition 2.2.11 Soit X une variable aléatoire discrète à valeurs P
dans N. On appelle
fonction génératrice de X la fonction GX : [0, 1] → R, s 7→ E(sX ) = +∞ n
n=0 s P(X = n)
Proposition 2.2.12 Soit X une variable aléatoire discrète à valeurs dans N, alors :
1. GX est une fonction entière sur [0, 1], de rayon de convergence ≥ 1.
2. GX est continue sur [0, 1] et de classe C ∞ sur [0, 1[.
(n)
GX (0)
3. GX détermine la loi de X et ∀n ∈ N, P(X = n) = n!
Proposition 2.2.13 Soit X une variable aléatoire discrète à valeurs dans N. Alors GX
admet une dérivée à gauche en s = 1 ssi E(X) existe et est finie, et l’on a : E(X) = G0X (1).
Remarque 2.2.14 La fonction GX admet une dérivée seconde à gauche en s = 1 ssi

E(X(X − 1)) existe et est finie, et l’on a :
E(X(X − 1)) = G”X (1)

2.3 Variables aléatoires réelles à densité

Définition 2.3.1 Soit X une variable alétoire réelle. On dit que X est absolument conti-
nue ou à densité, s’il existe une fonction mesurable réelle f : R → R telle que :
1. f ≥ 0 et mesurable sur R.
R +∞
2. −∞ f (x)dx = 1.
R R +∞
3. Pour tout borélien B ∈ B(R), on a : P(X ∈ B) = B f (x)dx = −∞ 1B (x)f (x)dx.
La fonction f est appelée densité de la variable aléatoire X.
Remarque 2.3.2 1. Pour tout x ∈ R, P(X = x) = 0.

2. La fonction de répartition associée
Rx est donnée par :
Pour tout x ∈ R, FX (x) = −∞ f (t)dt.
En particulier, si la densité f est continue, la fonction de répartition est continue
et même C 1 et de dérivée f.
Proposition 2.3.3 Soient X une variable aléatoire

R +∞ réelle de densité f et g : R → R une
fonction mesurable. g(X) est intégrable ssi −∞ |g(x)|f (x)dx < +∞ et dans ce cas son
Espérance est donnée par
Z +∞
E(g(X)) = g(x)f (x)dx
−∞
Conséquence
R +∞ n : R +∞
Si −∞ |x |f (x)dx < +∞, alors X admet un moment d’ordre n et E(X n ) = −∞ xn f (x)dx
R +∞ R
Exemple 2.3.4 Si A ∈ B(R), E(1A (X)) = −∞ 1A (x)f (x)dx = A f (x)dx = P(X ∈ A).
En particulier si A = R ⇒ E(1) = 1
Exemple 2.3.5 Déterminer la valeur de a pour que la fonction f définie sur R, soit une
d.d.p. d’une v.a.r. X, dans chacun des cas suivants :
a
(1) f (x) = 3x+1 si x > 0 et f (x) = 0 si x ≤ 0.
(2) f (x) = x2a+x pour x ∈ R.
3
Exemple 2.3.6 Déterminer (a, b) ∈ R2 tel que la fonction F définie par

(
a(x+4)
F (x) = b+|x| , si x ∈] − 4, +∞[;
0, si x ∈] − ∞, −4].
Soit une fonction de répartition d’une v.a.r. X
Remarque 2.3.7 1. Soit X une variable aléatoire réelle (discrète ou absolument

continue) telle que a ≤ X ≤ b p.s ⇒ a ≤ E(X) ≤ b.
2. E(αX + β) = αE(X) + β
Définition 2.3.8 Soit X une variable aléatoire réelle ( discrète ou absolument continue)
de carré intégrable ( E(X 2 ) est fini). On appelle variance de X, le réel
V(X) = E((X − E(X))2 ) = E(X 2 ) − E(X)2

p
et on appelle σ(X) = V(X) l’écart type de la variable X.
Proposition 2.3.9 Soit X une variable aléatoire réelle de carré intégrable. Alors on a :
1. ∀a ∈ R, E((X − a)2 ) ≥ V(X).
2. ∀a, b ∈ R, V(aX + b) = a2 V(X) et σ(aX + b) = |a|σ(X).
3. Si V(X) = 0, alors il existe a ∈ R tel que X = a p.s.
Changement de variable
Proposition 2.3.10 Soient I et J deux intervalles ouverts de R. Soient X une variable

à valeurs dans I de densité fX et g : I → J C 1 −difféomorphisme. Alors Y = g(X) est
une variable aléatoire réelle de densité fY
fY (y) = fX (h(y))|h0 (y)|1J (y)
où h = g −1 la bijection réciproque de g.
Exercice 2.3.11 Soit X une variable aléatoire continue de fonction densité f définie
par :
λ(4x − 2x2 ), si 0 < x < 2;
f (x) =
0, si non.
1. Déterminer λ
2. Calculer P(X > 1)
Exercice 2.3.12 Soit f la fonction définie sur R par :

ax(1 − x), si 0 < x < 1;
f (x) =
0, si non.
1. Trouver a pour que f soit la densité d’une V.A.R X.
2. Déterminer la fonction de répartition F de X.
2.3.1 Fonction caractéristique d’une v.a réelle

Définition 2.3.13 Soit X une v.a réelle. On appelle fonction caractéristique de X la
fonction ΦX : R → C, t 7→ ΦX (t) = E(eitX ).
En particulier :
1. Si la v.a X est réelle discrète, alors
X
ΦX (t) = eitx P(X = x)
x∈X(Ω)
2. Si la v.a X admet une densité fX , alors

Z +∞
ΦX (t) = eitx fX (x)dx
−∞
Remarque 2.3.14 Soit X une v.a réelle et (a, b) ∈ R2 , alors ΦaX+b (t) = eibt ΦX (at)
Complément : transformée de Fourier

Si X est une v.a.c de densité fX , on a :
Z
ΦX (t) = eitx fX (x)dx = fb(−t)
R
où fb est la transformée de Fourier de fX . OnRsait dans certains cas inverser la transfor-
mation de Fourier. Ainsi si fb est intégrable ( R |fb(t)|dt < +∞), alors on peut retrouver
la fonctionR fX à l’aide de la transformée de Fourier inverse de fb :
iux du
fX (x) = R e fb(−u) 2Π , pour tout x ∈ R.
Ainsi si ΦX est intégrable, on peut retrouver la densité de la loi à partir de la fonction
caractéristique.
Proposition 2.3.15 (admis)

La fonction caractéristique caractérise la loi :
Deux v.a réelles X et Y ont la même loi ssi ΦX = ΦY
Proposition 2.3.16 Soit X une v.a réelles de fonction caractéristique ΦX , alors :

1. ΦX est continue sur R.
2. |ΦX (t)| ≤ 1 pour tout t ∈ R.
3. ΦX (0) = 1.
4. ΦX (−t) = ΦX (t).
Remarque 2.3.17 Soit X une v.a.r admet des moments d’ordre ≤ n, alors ΦX est de
classe C n et
(n)
ΦX (t) = (i)n E(X n eitX ), ∀t ∈ R
Exemple 2.3.18 Soit X une v.a.r discrète tq X(Ω) = N∗ et ∀n ∈ N∗ , P(X = n) = 1

2n .
Déterminer la fonction caractéristique de X et en déduire E(X) et V(X).
Exemple 2.3.19 Soit X une v.a.r de fonction caractéristique ΦX définie par ΦX (t) =
t
e3(e −1) . Calculer P(X = 3)
2.4 Lois de probabilités usuelles

1-Lois dicrètes usuelles
1. Loi de Bernoulli. Soit p ∈]0, 1[. On dit qu’une

v.a X suit la loi de Bernoulli de
P(X = 1) = p ;
paramètre p notée B(p), si X(Ω) = {0, 1} et
P(X = 0) = 1 − p,
X admet des moments de tous ordres et
E(X) = p, V(X) = p(1 − p) et GX (s) = 1 − p + sp ∀s ∈ R
2. Loi Binomiale. Soient p ∈]0, 1[ et n ∈ N∗ . On dit qu’une v.a X suit la loi
Binomiale de paramètres (n, p) notée B(n, p) si X(Ω) = {0, · · · , n} et ∀ 0 ≤ k ≤ n,
P(X = k) = Cnk pk (1 − p)n−k
X admet des moments de tous ordres et

E(X) = np, V(X) = np(1 − p) et GX (s) = (1 − p + sp)n , ∀s ∈ R
Exemple 2.4.1 On a constaté qu’un vaccin provoque un accident grave pour 5000
vaccacinations. On administre ce vaccin à 10000 individus.
(a) Donner la loi de probabilité de la variable aléatoire
X :=” nombre d’accidents grave pour 10000 vaccinations”.
(b) Calculer les probabilité des événements suivants : ”aucun accident”, ”un acci-
dent seulement”, ”plus d’un accident”.
3. Loi géométrique :
Soit p ∈]0, 1[. On dit qu’une v.a X suit la loi géométrique de paramètre p notée
G(p) si X(Ω) = N∗ et P(X = n) = p(1 − p)n−1 , ∀n ∈ N∗
E(X) = p1 , V(X) = 1−pp2
ps
, et GX (s) = 1−(1−p)s , ∀s ∈] − 1, 1[
4. Loi de Poisson. Soit λ ∈ R∗+ . On dit qu’une v.a X suit la loi de Poisson de
paramètre λ noté P(λ) si X est à valeurs dans N et
−λ n
P(X = n) = e n!λ , ∀n ∈ N
X admet des moments à tout ordre 2 et l’on a E(X) = V(X) = λ et GX (s) =
exp(λ(s − 1)), ∀s ∈ R
2-Les principales lois absolument continues
1. Loi uniforme U(a, b) Une v.a.r X à valeurs dans [a, b] suit la loi uniforme sur
[a, b] notée U(a, b), si elle admet pour densité
1
fX (x) = 1 (x)
b − a [a,b]

 0, si x < a;
x−a
(a) Pour tout x ∈ R, FX (x) = b−a , si a ≤ x ≤ b;
1, si x ≥ b.

X−a
(b) X est de loi U(a, b) ssi la v.a Y = b−a est de loi U(0, 1).
(c) X admet des moments a toutes ordres :
(b−a)2
E(X) = a+b
2 et V(X) = 12
(d) Soit Y une v.a de loi U(0, 1), alors
it sin( 2t )
ΦY (t) = e 2 t , ∀t ∈ R
2
Exemple 2.4.2 Soit X une v.a.r qui suit une loi uniforme sur [a, b]. Sachant que
E(X) = 4 et V(X) = 12 calculer a et b.
Exemple 2.4.3 Soit X une v.a.r qui suit une loi uniforme sur [−1, 32 ].
Déterminer la fonction d.d.p fY de la v.a.r Y = X 2 .
Exemple 2.4.4 Soit X une v.a.r qui suit une loi uniforme sur [a, b].
Déterminer la loi de Y = −X.
Exemple 2.4.5 Soit X une v.a.r qui suit une loi uniforme sur ] − 1, 1[.
1
Déterminer la fonction d.d.p fY de la v.a.r Y = e X .
2. Loi normales N (m, σ) soient m ∈ R et σ ∈ R∗+ . Une v.a X à valeurs dans R
est dite de loi normale de paramètres m et σ notée N (m, σ) si elle admet pour
densité 2
fX (x) = σ√12Π exp(− (x−m)
2σ 2
), ∀x ∈ R
X−m
Remarque 2.4.6 La v.a X est de loi normales N (m, σ) ssi la v.a U = σ est
de loi normale N (0, 1) appelée normale centré, si donc de densité
2
fU (u) = √12Π exp(− u2 ), ∀u ∈ R
Propriéts 2.4.7 Soit U une v.a de loi normale N (0, 1) et soit X une v.a de loi
normale N (m, σ)
(a) fU est paire et admet un maximum pour u = 0, qui vaut fU (0) = √12Π .
f ”U (u) = 0 ssi u = ±1.
Ru 2
(b) Les valeurs de FU (u) = √12Π −∞ exp(− t2 )dt sont lues on utilisons les tables
numériques : FU (1, 96) = 0, 975 et FU (0) = 0, 5
(c) Pour tout u ∈ R, FU (−u) = 1 − FU (u).
(d) Pour tout (a, b) ∈ R2 tels que a < b, on a
b−m a−m
P(a < X ≤ b) = FU ( ) − FU ( )
σ σ
(e) U et X admettent des moments de tous ordres. E(U ) = 0 et V(U ) = E(U 2 ) = 1

et par suite E(X) = m et V(X) = σ 2
t2 t2 σ 2
(f ) Pour tout t ∈ R, on a ΦU (t) = e− 2 et ΦX (t) = eitm− 2
Exemple 2.4.8 Soit X une v.a.r. qui suit une loi N (µ, σ).
Sachant que
P(X ≤ −2) = 0, 0062 et P(X > 15) = 0, 0401. Calculer µ et σ.
Exemple 2.4.9 Soit X une v.a.r. qui suit une loi N (µ, σ),
telle que P(X ≥ 3) = 0, 08413 et P(X ≥ 9) = 0, 0228. Calculer µ et σ.
Exemple 2.4.10 En utilisant Φ la fonction √
de répartition de la loi N (0, 1) caculer
2+ 2 2
une valeur approchée à 10−4 prés de 2 e−x +4x−2 dx.
R
3. Loi exponentielle Soit λ ∈ R∗+ . Une v.a X à valeurs dans ]0, +∞[ est dite de loi
exponentielle de paramètre λ notée E(λ) si elle admet pour densité
f (x) = λe−λx 1]0,+∞[ (x), ∀x ∈ R
(a) Pour tout x ∈ R :
FX (x) = (1 − e−λx )1R∗+ (x)
(b) X admets des moments de tous ordres et on a :

E(X) = λ1 et V(X) = λ12
Exemple 2.4.11 Soit T une v.a.r qui suit une loi exponentielle de paramètre λ
Déterminer α pour que P(T > α) = P(T ≤ α).
4. Loi Gamma G(a, λ) Soient a ∈ R∗+ . Une v.a X à valeurs dans R∗+ est dite de loi
Gamma de paramètres a et λ notée G(a, λ) si elle admet pour densité
λa −λx a−1
fX (x) = e x 1R∗+ (x)
Γ(a)
R +∞
On rappelle que la fonction Γ est définie sur R∗+ par Γ(a) = 0 e−x xa−1 dx et
que ∀a > 0, Γ(a + 1) = aΓ(a) et donc Γ(n) = (n − 1)! pour tout n ∈ N∗ .
Exemple 2.4.12 Soit X une v.a.r qui suit une loi normale centrée réduite et soient
Y = |X| et Z = X 2 ;
1. Déterminer la fonction d.d.p de la v.a.r Z et E(Z).
2. Déterminer la fonction d.d.p de la v.a.r Y et E(Y ).
Exemple 2.4.13 Soit X une v.a.r. qui suit une loi N (0, 1). On pose Y = eX+1 . Déterminer
la fonction d.d.p. de la v.a.r. Y et l’éspérance E(Y ).
Exemple 2.4.14 Soit X = N (0, 1) et ε une v.a.r discrète tq ε(Ω) = {−1, 1} et

P(ε = 1) = P(ε = −1) = 21 .
Déterminer la loi de Y = εX.
FY (y) = P(−X ≤ y/ε = −1)P(ε = −1) + P(X ≤ y/ε = 1)P(ε = 1)
Exemple 2.4.15 X est dite suit la loi de Gauchy de paramètre a > 0 : si la densité de
X est donnée par f (x) = Πa x2 +a
1 1
2 . Calculer la loi de X .
Exercice 2.4.16 Soit X une v.a.r continue de fonction de répartition F. Soit Y = F (X).
Déterminer la loi de Y
Indication :
∀x ∈ R, F (x) ∈ [0, 1] 
 P(∅), si y ≤ 0;
FY (y) = P(F (X) ≤ y) = −1 −1
P(X ≤ F (y)) = F ◦ F (y) = y, si y ∈]0, 1[;
P(Ω) = 1, si y ≥ 1.

Chapitre 3
Vecteurs aléatoires
On suppose dans la suite que toutes les v.a sont définies sur le même espace probabilisé
(Ω, A, P).
3.1 V.a et lois de probabilités

Proposition 3.1.1 Une application X : Ω → Rd d’applications coordonnées X1 , X2 , · · · , Xd
est une variable aléatoire (vecteur aléatoire) si et seulement si chaque application coor-
donnée Xi : Ω → R est une v.a réelle.
Un vecteur aléatoire X à valeurs dans Rd est un d−uplet (X1 , X2 , · · · , Xd ) de v.a réelles.
3.1.1 Loi de probabilité d’une v.a

Définition 3.1.2 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd .
1. On appelle loi conjointe des v.a réelles X1 , X2 , · · · , Xd , la loi du v.a X = (X1 , X2 , · · · , Xd )
dans Rd .
2. On appelle lois marginales, les lois PX1 , · · · , PXd des v.a réelles X1 , X2 , · · · , Xd .
3.1.2 Fonction de répartition d’une v.a
Définition 3.1.3 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd .

On appelle fonction de répartition de X la fonction FX : Rd → [0, 1] telle que pour tout
d,
x = (x1 , x2 , · · · , xd ) ∈ RT
FX (x1 , x2 , · · · , xd ) = P( di=1 {Xi ∈] − ∞, xi ]}) = P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xd ≤ xd ).
Proposition 3.1.4 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd

de fonction de répartition FX , alors
1. FX est croissante par rapport à chaque variable.
2. Pour tout i = 1, · · · , d
(a)
lim FX (x1 , · · · , xi , · · · , xd ) = 0
xi →−∞
42
CHAPITRE 3. VECTEURS ALÉATOIRES 43
(b)
lim FX (x1 , · · · , xd ) = 1
x1 →+∞,···,xd →+∞
3. FX est continue à droite par rapport à chaque variable.

4. FX est discontinue en (x1 , x2 , · · · , xd ) ssi P(X1 = x1 , X2 = x2 , · · · , Xd = xd ) > 0
Proposition 3.1.5 Soit X = (X1 , X2 , · · · , Xd ) une variable aléatoire à valeurs dans Rd

de fonction de répartition FX . Pour tout k ∈ {1, · · · , d}, la v.a (X1 , X2 , · · · , Xk ) à pour
fonction de répartition
F(X1 ,X2 ,···,Xk ) (x1 , · · · , xk ) = lim FX (x1 , · · · , xd )

xi →+∞, i=k+1,···,d
En particulier la v.a Xk a pour fonction de répartition
FXk (xk ) = lim FX (x1 , · · · , xd )

xi →+∞, i6=k
3.2 V.a discrètes

Définition 3.2.1 La v.a (X1 , X2 , · · · , Xd ) est une v.a discrète (vecteur aléatoire) si et
seulement si chaque application coordonnée Xi : Ω → R est une v.a réelle discrète.
Proposition 3.2.2 Soit X = (X1 , X2 , · · · , Xd ) une v.a discrète dans Rd . La loi de la v.a
X est caractérisée par la donnée de l’ensemble
{(x, P(X = x)) / x ∈ X(Ω)} ⊂ Rd × [0, 1]

P
telle que : x∈X(Ω) P(X = x) = 1
Lois marginales :
On peut déterminer la loi marginale de Xi à partir de la loi de X = (X1 , X2 , · · · , Xd ).
Quitte à permuter i par 1, il suffit de calculer la loi marginale X1 .
Proposition 3.2.3 Soit X = (X1 , X2 , · · · , Xd ) une v.a discrète vectorielle. Pour tout
y ∈ R, on a
X
P(X1 = y) = P(X1 = y, X2 = x2 , · · · , Xd = xd )
x2 ∈X2 (Ω),···,xd ∈Xd (Ω)
Exemple 3.2.4 (Loi discrète du couple (X, Y ))

Soient X et Y deux v.a réelles discrètes. Ainsi,
P
x∈X(Ω),y∈Y (Ω) P(X = x, Y = y) = 1.
Les lois marginales PX et PY sont données par :
X
P(X = x) = P(X = x, Y = y)
y∈Y (Ω)
X
P(Y = y) = P(X = x, Y = y).
x∈X(Ω)
La fonction de répartition FX,Y est donnée par :

X
FX,Y (x, y) = P(X = z, Y = t)
{z∈X(Ω) | z≤x, t∈Y (Ω) | t≤y}
Exemple 3.2.5 On considère le lancer de deux dés, modèlisé par l’espace probabilisé
Ω = ({1, 2, · · · , 6})2 muni de la probabilité uniforme. Si X est la v.a.d qui représente le
résultat du premier dé et Y celui du second, on a pour ω = (ω1 , ω2 ) ∈ Ω, X(ω) = ω1 et
Y (ω) = ω2 .
On a : £(X) = £(Y ), c’est la loi uniforme sur {1, 2, · · · , 6}.
1
Mais on a P(X = 5, X = 6) = 0 et P(X = 5, Y = 6) = 36 .
Ainsi les v.a.d (X, Y ) et (X, X) n’ont pas la même loi alors que toutes les lois marginales
sont ègales.
3.3 V.a absolument continues

Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd .
Définition 3.3.1 Soit PX est absolument continue, s’il existe une fonction réelle
f : Rd → R, telle que
(i) f ≥ 0, mesurable.
(ii) f est intégrable sur Rd et
Z +∞ Z +∞
··· f (x1 , · · · , xd )dx1 · · · dxd = 1.
−∞ −∞
de sorte que pour tout B ∈ BRd

Z Z
PX (B) = f (x1 , · · · , xd )dx1 · · · dxd = 1B (x1 , · · · , xd )f (x1 , · · · , xd )dx1 · · · dxd
B Rd
La fonction f est appelée densité de la loi de probabilité de X.
Proposition 3.3.2 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd de fonction de

répartition FX et densité fX . Alors
R x1 R xd
1. pour tout (x1 , · · · , xd ) ∈ Rd , on a FX (x1 , · · · , xd ) = −∞ · · · −∞ f (y1 , · · · , yd )dy1 · · · dyd
2. FX est continue sur Rd .
3. FX est dérivable presque partout sur Rd et telle que pour tout (x1 , · · · , xd ) où fX
est continue
∂ d FX
(x1 , · · · , xd ) = fX (x1 , · · · , xd )
∂x1 · · · ∂xd
Exemple 3.3.3 La densité conjointe

−(x+y)
e , si x > 0 et y > 0;
f(X,Y ) (x, y) =
0, si non.
Déterminer la fonction densité de probabilité fZ de la v.a.r Z = X

Y .
X x
FZ (z) = P(Z ≤ z) = P( Y ≤ z), on pose Ωz = {(x, y) / y ≤ z} et
x
Ω ∩ Ωz = {(x, y) /x > 0, y > 0 et ≤ z}
y
−(x+y) dxdy.
RR RR
FZ (z) = P((X, Y ) ∈ Ω ∩ Ωz ) = Ω∩Ωz f(X,Y ) (x, y)dxdy = Ω∩Ωz e
Si z ≤ 0 Ω ∩ Ωz = R∅.
+∞ R yz
Si z > 0, FZ (z) = 0 e−y ( 0 e−x dx)dy = 1 − 1+z 1
(
1
(1+z)2
, si z > 0;
fZ (z) = F 0 (z) =
0, si z ≤ 0.
3.3.1 Lois marginales

Proposition 3.3.4 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd de densité fX .
Alors pour tout k ∈ {1, · · · , d}, la v.a (X1 , X2 , · · · , Xk ) à pour fonction de densité
Z
f(X1 ,X2 ,···,Xk ) (x1 , x2 , · · · , xk ) = fX (x1 , x2 , · · · , xd )dxk+1 · · · dxd
Rd−k
En particulier, la v.a Xk à pour densité
Z
fXk (xk ) = fX (x1 , x2 , · · · , xd )dx1 · · · dxk−1 dxk+1 · · · dxd
Rd−1
Démonstration 3.3.5 Il suffit de calculer PX (B) où B = A × Rd−k avec A ∈ BRk

Remarque 3.3.6 À partir de la loi du couple (X, Y ), on peut donc calculer la loi de X
et la loi de Y. La réciproque est fausse comme le montre l’exercice suivant.
Exercice 3.3.7 Soit deux couples (X1 , Y1 ), dont la loi pour densité
f (x, y) = (x + y)1{(x,y)∈[0,1]2 }
et (X2 , Y2 ), dont la loi pour densité
1 1
g(x, y) = (x + )(y + )1{(x,y)∈[0,1]2 } .
2 2
Montrer que les lois marginales sont égales £(X1 ) = £(X2 ) et £(Y1 ) = £(Y2 ) alors que
les lois des couples sont distinctes.
Proposition 3.3.8 Soient ∆ et D deux ouverts de Rd . Soient X = (X1 , · · · , Xd ) une v.a
à valeurs dans ∆ de densité f(X1 ,···,Xd ) et g : ∆ → D C 1 −diffèomorphisme de ∆ dans D.
Alors Y = g(X) est une v.a de densité
fY (y) = fX (h(y))|J(h(y))|1D (y)
où h = g −1 est bijection réciproque de g et où J(h(y)) est le jacobien de l’application
h = (h1 , · · · , hd ) en y = (y1 , · · · , yd ) :
 
∂h1 ∂h1
(y1 , · · · , yd ) ··· ∂yd (y1 , · · · , yd )
 ∂y1
J(h(y)) = det  ··· ··· ···


∂hd ∂hd
∂y1 (y1 , · · · , yd ) ··· ∂yd (y 1 , · · · , yd )
Exemple 3.3.9 On considdère (X, Y ) un couple de v.a.r de densité conjointe f(X,Y )

définie par : 2
x2 y 2
, si x ≥ y ≥ 1;
f(X,Y ) (x, y) =
0, sinon.
On pose U = XY et V = X Y
Déterminer la densité conjointe f(U,V ) du couple (U, V ).
Indication :
Domaine du couple (X, Y ) : Ω = {(x, y) ∈ R2 / x ≥ y ≥ 1}
Lorsque (x, y) varient dans Ω : u = xy ≥ 1, v = xy ≥ 1 et uv = y 2 ≥ 1 donc u ≥ v. D’autre
√
part x = h1 (u, v) = uv et y = h2 (u, v) = uv et donc det Jh(u,v) = −1
p
2v , d’où
1
u2 v
, si u ≥ v ≥ 1;
f(U,V ) (u, v) =
0, sinon.
Exemple 3.3.10 On considère le couple de v.a.r (X, Y ) de densité conjointe f(X,Y )

définie par : ( x+1
ky 2 e−( 2 ) , si 0 < y < x + 1;
f(X,Y ) (x, y) =
0, sinon.
Déterminer k, on pose U = X − Y + 1 et V = 21 Y
Déterminer la densité conjointe f(U,V ) de (U, V ) et les dinsités marginales fU et fV .
Indication :
Ω = {(x, y) ∈ R2 / 0 < y < x + 1}
RR R +∞ 2 R +∞ −( x+1 ) 1
R2 f (x, y)dxdy = 0 y ( y−1 e 2 dx)dy = 1 ⇔ k = 32
u = x − y + 1 et v = 12 y ⇒ x = h1 (u, v) = u + 2v − 1 et y = h2 (u, v) = 2v
(x, y) varie dans Ω ⇔ u > 0 et v > 0
det Jh (u, v) = 2 d’où
(
1 2 −( u+2v )
4v e , si u > 0 et v > 0
2
f(U,V ) (u, v) =
0, sinon.
-Si u ≤ 0 alors fU (u) = 0.

u R +∞ u
-Si u > 0 alors fU (u) = 41 e− 2 0 v 2 e−v dv = 21 e− 2
fV (v) = 12 v 2 e−v 1{v>0}
3.4 Moments d’un vecteur aléatoire

Proposition 3.4.1 Soit X = (X1 , X2 , · · · , Xd ) une v.a. Soit g : Rd → R une fonction
mesurable. Alors g(X1 , X2 , · · · , Xd ) est une v.a réelle.
- Si la v.a X est discrète et
X
|g(x1 , · · · , xd )|P(X1 = x1 , · · · , Xd = xd ) < +∞,
x1 ∈X1 (Ω)···xd ∈Xd (Ω)
on a alors
X
E(g(X)) = g(x1 , · · · , xd )P(X1 = x1 , · · · , Xd = xd )
x1 ∈X1 (Ω)···xd ∈Xd (Ω)
- Si la v.a X est absolument continue et

Z +∞ Z +∞
··· |g(x)|fX (x)dx1 · · · dxd < ∞
−∞ −∞
on a alors Z +∞ Z +∞
E(g(X)) = ··· g(x)fX (x)dx1 · · · dxd
−∞ −∞
3.4.1 Espérance d’un vecteur aléatoire

Proposition 3.4.2 Soient X et Y deux v.a réelles intégrables,
1. Pour tout α ∈ R, la v.a αX +Y est intégrable et on a : E(αX +Y ) = αE(X)+E(Y )
2. Si X ≤ Y p.s alors E(X) ≤ E(Y )
Exercice 3.4.3 Soit ϕ une fonction réelle convexe : Pour tout x, y ∈ R, et t ∈ [0, 1],
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y).
Il existe une unique caractérisation des fonctions convexes, pour tout a ∈ R, il existe
λa ∈ R tel que
ϕ(a) + λa (x − a) ≤ ϕ(x)
1. On suppose X est une variable aléatoire réelle intégrable. Montrer que
ϕ(E(X)) ≤ E(ϕ(X)), dés que E(ϕ(X)) a un sens.
2. En déduire que si X 2 est intégrable, alors (E(X))2 ≤ E(X 2 )
Proposition 3.4.4 Soit X une v.a réelle

1. Inégalité de Markov : Soit X une v.a.r positive, alors ∀a > 0, on a :
E(X)
P(X ≥ a) ≤
a
2. Inégalité de Tchebychev : ∀a > 0, on a :
E(X 2 )
P(|X| ≥ a) ≤
a2
3. Inégalité de Jensen : On suppose que X est intégrable. Soit ϕ une fonction
convexe. Si E(ϕ(X)) existe alors on a :
ϕ(E(X)) ≤ E(ϕ(X)).
En particulier (E(X))2 ≤ E(X 2 )

4. Inégalité de Cauchy-Shawrtz : Soit (X, Y ) un couple de v.a réelles. On suppose

que X 2 et Y 2 sont intégrables. Alors XY est intégrable et on a :
p p
|E(XY )| ≤ E(X 2 ) E(Y 2 )
Remarque 3.4.5 (Inégalité de Bienaymé-Tchebytchev)

Soit X une v.a.r de carré intégrable, alors ∀a > 0
V(X)
P({|X − E(X)| ≥ a}) ≤
a2
Corollaire 3.4.6 Soit X une v.a positive p.s (i.e P(X ≥ 0) = 1). Si E(X) = 0 alors X
est nulle p.s (i.e P(X = 0) = 1.)
Démonstration 3.4.7 On déduit de l’inégalité de Tchebychev que pour tout n ≥ 1,

on a : P(X ≥ n ) = 0. Par convergence monotone P(X > 0) = P( n≥1 (X ≥ n1 ) =
1 T
limn→+∞ P(X ≥ n1 ) = 0. Comme P(X ≥ 0) = 1, cela implique X = 0 p.s.
Démonstration 3.4.8 (1) On a vu que P(|X| ≥ a) = E(1{|X|≥a} ). Soit ω ∈ Ω.

X(ω)2
- Si |X(ω)| ≥ a, alors on a 1{|X|≥a} (ω) = 1 ≤ a2
.
X(ω)2
Si |X(ω)| < a, alors on a 1{|X|≥a} (ω) = 0 ≤ a2 .
2
Dans tous les cas, on a 1{|X|≥a} (ω) = 0 ≤ X(ω)
a2
. Par croissance de l’espérance, on obtient
l’inégalité de Tchebychev.
(2)Pour la démonstration de l’inégalité de Jenson, voir l’exercice précédent.
2 2 (X 2 +Y 2 )
(3) ∀x, y ∈ R, |xy| ≤ x +y 2 . Donc |XY | ≤ 2 . Comme X 2 et Y 2 sont intégrables,
2 2
par linéairité, (X +Y
2
)
est intégrable.
- Si E(Y 2 ) = 0 ⇒ Y = 0 p.s ⇒ XY = 0 p.s et l’inégalité est triviale.
- Si E(Y 2 ) > 0, on a : ∀λ ∈ R
0 ≤ E[(X − λY )2 ] = E((X)2 ) − 2λE(XY ) + λ2 E(Y 2 )

E(XY ) 2
Le membre de droite est minimal pour λ = E(Y 2 )
. On obtient alors : 0 ≤ E(X 2 )− (E(XY ))
E(Y 2 )
Définition 3.4.9 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd tel que les v.a
réelles X1 , · · · , Xd admettent des espérances finies. On appelle Espérance du vecteur X
le vecteur de Rd
E(X) = (E(X1 ), E(X2 ), · · · , E(Xd )).
Ainsi en
 utullisant
 l’écriture 
matricielle,
 on a
X1 E(X1 )
[X] =  .  et E([X]) =  . 
Xd E(Xd )
3.4.2 Covariance de deux v.a réelles

Définition 3.4.10 Soient X et Y deux v.a réelles admettant des moments d’ordre 2. On
appelle covariance de X et Y le réel
cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
Si cov(X, Y ) = 0, on dit que X et Y sont non corrélées.
Remarque 3.4.11 cov(X, Y ) = cov(Y, X) et cov(X, X) = V(X).
Proposition 3.4.12 Soient X et Y deux v.a réelles admettant des moments d’ordre 2,
alors
1. cov(aX + b, cY + d) = ac cov(X, Y ) pour tout réels a, b, c et d.
2. cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
3. V(X + Y ) = V(X) + V(Y ) + 2cov(X, Y ).
Exemple 3.4.13 Soient X et Y deux v.a.r conjointement continues de fonction densité

conjointe f(X,Y ) définie par :
−x−2y , si x ≥ 0 et y ≥ 0;
4
f(X,Y ) (x, y) = 5 (x + 2y)e
0, sinon.
1. Déterminer les densités marginales fX de X et fY de Y.

2. Calculer E(X), E(Y ), E(XY ) et cov(X, Y ).
Coefficient de corrélation entre deux v.a.r

Définition 3.4.14 Soient X et Y deux v.a réelles admettant des moments d’ordre 2. On
appelle coefficient de corrélation entre X et Y le réel :
cov(X, Y )
ρ(X, Y ) = p
V(X)V(Y )
Proposition 3.4.15 Soient X et Y deux v.a réelles admettant des moments d’ordre 2.
Alors
1. −1 ≤ ρ(X, Y ) ≤ 1.
2. ρ(aX + b, cY + d) = ac
|ac| ρ(X, Y ) pour tous réels a, c ∈ R∗+ et b, d ∈ R.
Exemple 3.4.16 Soit X = N (0, 1). On pose Y = a + bX + cX 2 où a, b, et c ∈ R∗ .

b
Montrer que ρ(X, Y ) = √b2 +2c 2
.
Matrices de covariance
Définition 3.4.17 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd tel que les v.a
réelles X1 , · · · , Xd admettent des moments d’ordre 2.
On appelle matrice de covariance la matrice réelle d’ordre d définie par
ΣX = (cov(Xi , Xj ))1≤i,j≤d
 
V(X1 ) · · · cov(X1 , Xd )
 cov(X2 , X1 ) · · · cov(X2 , Xd ) 
ΣX = 
 ··· ··· ··· 
cov(Xd , X1 ) ··· V(Xd )
En utilisant l’écriture matricielle,
ΣX = E(([X] − E([X])([X] − E([X])t ) = E([X][X]t ) − E([X])(E([X]))t où [X]t est le
transposée du vecteur [X].
Conséquence
Soit X = (X1 , X2 , · · · , Xd ) une v.a de matrice de covariance ΣX . Alors
1. Pour tout α ∈ R, ΣαX = α2 ΣX .
2. Pour tout u ∈ Rd , Σu+X = ΣX .
3. (ΣX )t = ΣX
4. Soit une matrice A ∈ Mq×d et Y une v.a à valeurs dans Rq tel que Y = AX, alors
ΣY = AΣX At
Proposition 3.4.18 Soient X1 , X2 , · · · , Xn n v.a réelles admettant des moments d’ordre
2, alors
V(X1 + · · · + Xn ) = ni=1 V(Xi ) + 2 1≤i<j≤n cov(Xi , Xj )
P P
3.5 Fonction carctéristique d’une v.a

Définition 3.5.1 Soit X = (X1 , X2 , · · · , Xd ) une v.a à valeurs dans Rd . On appelle
fonction caractéristique de X, la fonctionQΦX : Rd → C définie par
ΦX (s1 , · · · , sd ) = E(eis1 X1 +···+isd Xd ) = E( dk=1 eisk Xk ) En utilisant l’écriture matricielle,
t [X]
Φ(X1 ,···,Xd ) (s1 , · · · , sd ) = E(ei[s] ) = E(eihs,Xi )
Remarque 3.5.2 1. Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd . On suppose

que pour tout i ∈ {1, 2, · · · , d}, E(|Xi |) < +∞. Alors ΦX admet des dérivées
partielles continues et l’on a :
∂ d ΦX (s1 , · · · , sd ) Pd
= id E(X1 · · · Xd ei j=1 sj Xj )
∂s1 · · · ∂sd
2. La loi du v.a X = (X1 , · · · , Xd ) est déterminée par celles de toutes les combinaisons
linéaires de ces composantes.
3. Deux v.a X et Y à valeurs dans Rd ont la même loi ssi ΦX = ΦY
3.6 V.a indépendantes

Définition 3.6.1 Les v.a X1 , · · · , Xn à valeurs dans Rd1 , · · · , Rdn sont indépendantes si
pour tout A1 ∈ B(Rd1 ), · · · , An ∈ B(Rdn )
n
Y
P(X1 ∈ A1 , · · · , Xn ∈ An ) = P(Xi ∈ Ai )
i=1
Proposition 3.6.2 Soient X1 , · · · , Xn n v.a réelles indépendantes. Soient h1 , · · · , hn ; n

fonctions réelles mesurables. Alors les v.a réelles
h1 (X1 ), · · · , hn (Xn )
sont indépendantes.
Proposition 3.6.3 Soient X1 , · · · , Xn n v.a réelles. Alors X1 , · · · , Xn sont indépendantes

ssi pour tout (x1 , · · · , xn ) ∈ Rn
n
Y
F(X1 ,···,Xn ) (x1 , · · · , xn ) = FXi (xi )
i=1
Indépendance de v.a discrètes
Proposition 3.6.4 Soient X1 , · · · , Xn n v.a réelles discrètes. Les v.a X1 , · · · , Xn sont

indépendantes si pour tout (x1 , · · · , xn ) ∈ Rn :
n
Y
P(X1 = x1 , · · · , Xn = xn ) = P(Xi = xi )
i=1
Exemple 3.6.5 On désigne par X1 et X2 le résultat de lancer de deux dés, on vérifier

facilement que X1 et X2 sont indépendantes.
Exercice 3.6.6 Soient A et B deux événements. Montrer que A et B sont indépendantes

ssi 1A et 1B sont des v.a.d indépendantes.
Exercice 3.6.7 On considère le lancer de deux dés à 6 faces. Soit X = (X1 , X2 ) le couple
de v.a.d. réprésentant le résultat du premier dé et du second dé.
Calculer la loi de la somme des deux faces S = X1 + X2 . Calculer la loi de max(X1 , X2 )
et du vecteur aléatoire Y = (max(X1 , X2 ), min(X1 , X2 )).
Indépendance de v.a absolument continues
Proposition 3.6.8 Soit (X1 , · · · , Xn ) une v.a absolument continu à valeurs dans Rn .
Alors Les v.a X1 , · · · , Xn réelles sont indépendantes si pour tout (x1 , · · · , xn ) ∈ Rn :
n
Y
f(X1 ,···,Xn ) (x1 , · · · , xn ) = fXi (xi )
i=1
Indépendance et espérance
Proposition 3.6.9 Soient X1 , · · · , Xn ; n v.a.réelles. X1 , · · · , Xn sont indépendantes ssi

pour toutes fonctions réelles mesurables bornées h1 , · · · , hn , on a
n
Y
E(h1 (X1 ) · · · hn (Xn )) = E(hi (Xi ))
i=1
Conséquences
Soient X et Y deux v.a réelles indépendantes admettant un moment d’ordre 2. Alors
1. cov(X, Y ) = ρ(X, Y ) = 0.
2. V(X + Y ) = V(X) + V(Y ).
Remarque 3.6.10 La réciproque est fausse : deux variables aléatoires peuvent être non
corrélées sans être indépendantes.
Exemple 3.6.11 Soit X une variable aléatoire de loi uniforme sur {1, · · · , 6}. On pose
Y = 1{X∈{1,6}} . Montrer que cov(X, Y ) = 0, mais X et Y ne sont pas indépendants.
Proposition 3.6.12 Soient X1 , · · · , Xn n v.a réelles. X1 , · · · , Xn sont indépendantes ssi

pour tout (s1 , · · · , sn ) ∈ Rn
n
Y
Φ(X1 ,···,Xn ) (s1 , · · · , sn ) = ΦXk (sk )
k=1
3.7 Somme de v.a réelles

Somme de v.a.r discrètes
Proposition 3.7.1 Soient X et Y deux v.a à valeurs entières. Soit Z = X + Y.
1. La loi de probabilité de Z est donnée par
P(Z = k) = i+j=k P(X = i, Y = j) = ki=0 P(X = i, Y = k − i)
P P
2. Si de plus X et Y sont indépendantes, alors

k
X
P(Z = k) = P(X = i)P(Y = k − i)
i=0
et Pour tout s ∈ [0, 1]

GX+Y (s) = GX (s)GY (s)
3.7.1 Shéma de Bernoulli et autres exemples

Définition 3.7.2 On appelle shéma de Bernoulli toute suite de variables réelles discrètes
{Xn , n ∈ N∗ } indépendantes et indentiquement distribuées (i.i.d) telle que la loi de Xn
est la loi de Bernouilli de paramètre p.
Remarque 3.7.3 1. Le shéma de Bernoulli {Xn , n ∈ N∗ } modèlise un jeu infini de

pile ou face avec une pièce biaisé de parmètre p. La v.a.d Xn modèlise le résultat
du n−ième lancer.
2. Si {Xn , n ∈ N∗ } le shéma de Bernoulli de parmètre p. Alors Sn = ni=1 Xi est
P
de loi Binomiale de paramètre (n, p).
3. Si {Xn , n ∈ N∗ } le shéma de Bernoulli de parmètre p.
Alors T = inf{n ≥ 1, Xn = 1} est de loi géomètrique de paramètre p.
4. La loi de Poisson apparait comme limite de la loi Binomiale de paramètre (n, p)

lorsque n → +∞ et np → λ et donc p → 0.
Somme de v.a.r absolument continues

Proposition 3.7.4 Soient X et Y deux v.a réelles indépendantes de fonctions densités
fX et gY . Alors
1. La v.a X + RY admet pour densité la fonction hX+Y = fX ∗ gY définie par
+∞ R +∞
hX+Y (z) = −∞ fX (z − y)gY (y)dy = −∞ fX (x)gY (z − x)dx
2. Pour tout s ∈ R
ΦX+Y (s) = ΦX (s)ΦY (s)
Exemple 3.7.5 Soient X et Y deux v.a réelles indépendantes de lois respectivementp

N (m1 , σ1 ) et N (m2 , σ2 ). Alors la v.a somme X+Y est de loi normale N (m1 +m2 , σ12 + σ22 ).
Exemple 3.7.6 Soient X et Y deux v.a.r indépendantes qui suivent une loi uniforme
sur [0, 2].
On pose Z = X + Y et T = X − Y
Déterminer les fonctions d.d.p fZ et fT .
 1
 4 z, si 0 < z ≤ 2;
1
fZ (z) = fX ∗ fY (z) = (4 − z), si 2 < z ≤ 4;
 4
0, sinon.
Exercice 3.7.7 Montrer que :

1. Si X = B(n, p), Y = B(m, p) et X et Y sont indépendantes alors
X + Y = B(n + m, p).
2. Si X = P(λ1 ), Y = P(λ2 ) et X et Y sont indépendantes alors X +Y = P(λ1 +λ2 ).
3.8 Vecteurs gaussiens

Définition 3.8.1 Une v.a (X1 , · · · , Xd )Pà valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi normale.
Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk est une v.a réelle de
loi normale.
Exemple 3.8.2 Soit X1 , · · · , Xd des v.a gaussiennes indépendantes. On supoose que la
loi de Xk est la loi gaussienne N (mk , σk ). Alors le vecteur X = (X1 , · · · , Xd ) est un vec-
teur gaussien. En effet, soit a = (a1 , · · · , ad ) ∈ Rd . On calcule la fonction caractéristique
de ha, Xi :
d d a2 2 2
k σk u
Pd Y Y
Φha,Xi (u) = E[e iu k=1 ak Xk
]= E[e iuak Xk
]= eiuak mk − 2 =
k=1 k=1
ha, ΣX aiu2
exp(iuha, mi − ),
2
où m = (m1 , · · · , md ) et ΣX = Diag(σ12 , · · · , σd2 ) est une matrice diagonale. On en déduit
que la loi de ha, Xi est la loi gaussienne N (ha, mi, ha, ΣX ai). Donc X est un vecteur
gaussien.
Théorème 3.8.3 Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance

m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
   
s1 m1
pour tout s =  .  où m =  . 
sd md
Démonstration 3.8.4 On a vu que Xi est une variable aléatoire gaussienne. En particu-

lier elle est de carré intégrable. Ceci implique que X est de carré intégrable. On remarque
que pour s ∈ Rd :
ΦX (s) = E[eihs,Xi ] = Φhs,Xi (1).
P hs, Xi est de
Or par définition, P loi gaussienne. On calcule les paramètres de cette loi :
E[hs, Xi] = E[ dk=1 sk Xk ] = dk=1 sk E[Xk ] = hs, mi, où m = E[X],
et par bilinéarité
Pd: P
V(hs, Xi) = V( k=1 sk Xk ) = 1≤k,l≤d sk sl (E[Xk Xl ] − E[Xk ]E[Xl ]) = hs, ΣX si.
On en déduit, que :
hs,ΣX si
Φhs,Xi (1) = eihs,mi− 2 .
Il reste à vérifier que la matrice ΣX est symétrique (évident d’aprés sa construction) et
positive. On remarque que hs, ΣX si = V(hs, Xi), et cette quantité est toujours positive.
La démonstrartion de la réciproque est similaire à la démonstration de l’exemple 3.8.2.
Proposition 3.8.5 Soit (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd . Les com-
posantes X1 , · · · , Xd sont indépendantes ssi la matrice de covariance ΣX est diagonale.
Qd
Démonstration 3.8.6 On montre que Φ(X1 ,···,Xd ) (s1 , · · · , sd ) = i=1 ΦXi (si )
Remarque 3.8.7 1. Soit (X, Y ) un vecteur gaussien. Alors, on a :

les v.a X et Y sont indépendantes ⇔ Cov(X, Y ) = 0.
2. Soient X et Y deux v.a réelles de loi normales. On peut avoir Cov(X, Y ) = 0 sans
que les v.a X et Y soient indépendantes.
Exemple 3.8.8 Soit X une variable aléatoire réelle de loi N (0, 1). Soit ε une variable
aléatoire discrète indépendante de X et telle que P(ε = 1) = P(ε = −1) = 21 . On pose
Y = εX.
1) Déterminer la fonction de répartition de Y en fonction de FX . En déduire la loi de Y.
2) Calculer ρ(X, Y ).
3) Soit (a, b) ∈ R2 tel que 0 < a < b.

(a) Calculer E[X 2 Y 2 ] et E[X 2 ]E[Y 2 ]. En conclure que X et Y ne sont pas indépendantes.
Le vecteur (X, Y ) est-il gaussien ?
(b)Calculer P(X ∈ [−a, a]) en fonction de FX (a).
(c) Calculer P(X ∈ [−a, a], Y ∈ [−b, b]) et P(X ∈ [−a, a])P(Y ∈ [−b, b]). Vèrifier encore
les v.a.r. X et Y ne sont pas indépendantes ?
(c) Calculer P(X = Y ).
Proposition 3.8.9 Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd d’espérance

m = (m1 , · · · , md ). X admet une densité sur Rd ssi sa matrice de covariance ΣX est in-
versible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = 1
d√ e− 2 h(x−m),ΣX (x−m)i
  (2Π) 2 det
ΣX 
m1 x1
où m =  .  et x =  . 
md xd
3.9 Espérance conditionnelle

Cas de v.a réelle discrète
Définition 3.9.1 Soient X une v.a discrète et Y une v.a quelconque intégrable. Soit
x ∈ X(Ω) tel que
P(X = x) > 0. On appelle espérance conditionnelle de Y sachant [X = x].
E(Y 1{X=x} )
E(Y /X = x) = .
P(X = x)
Définition 3.9.2 Soient X et Y 2 v.a rélles discrètes et x ∈ X(Ω) tel que

P(X = x) > 0. On appelle loi conditionnelle de Y sanchant [X = x], la mesure de
probabilité
P(X = x, Y = y) pxy
PY /X=x ({y}) = P(Y = y/X = x) = = .
P(X = x) px
On définit de même les lois conditionnelles de X sachant [Y = y].
P
On suppose que Y admet une espérance finie ( y∈Y (Ω) |y|py < +∞). Par suite pour
p
x ∈ X(Ω) fixé, la série y∈Y (Ω) pxy
P
x
y, est aussi absolument convergente.
P pxy
Remarque 3.9.3 y∈Y (Ω) px εy est une mesure de probabilité sur Y (Ω).
p
E(Y /X = x) = y∈Y (Ω) y pxy
P
x
Définition 3.9.4 On suppose que Y admet un moment d’ordre 1. L’éspérance condition-

nelle de Y sachant X est la v.a réelle définie par
E(Y /X)(ω) = h(X(ω))
où h est la fonction définie par
h(x) = E(Y /X = x) pour tout x ∈ X(Ω).
Attention
E(Y /X = x) est un nombre réel et E(Y /X) est une v.a réelle et E(Y /X)(ω) dépend de ω
car la valeur de X(ω) dépend de ω.
Remarque 3.9.5 E(Y /X)(Ω) = {E(Y /X = x) / x ∈ X(Ω)}
Exercice 3.9.6 Soient A et B deux événements tq 0 < P(B) < 1. Calculer la loi de 1A
sachant 1B . Caculer E(1A /1B ).
Proposition 3.9.7 Soit X une v.a discrète et Y une v.a quelconque.
1. Soit g une fonction mesurable tq la v.a g(X, Y ) est intégrable alors on a
E[E(g(X, Y )/X)] = E(g(X, Y ))
en particulier E[E(Y /X)] = E(Y )
2. Si X et Y sont indépendantes, alors pour toute fonction mesurable u tq u(Y ) est
intégrable, on a :
E(u(Y )/X) = E(u(Y ))
3. Pour toute fonction mesurable u telle que u(X) est intégrable, on a :
E(u(X)/X) = u(X)
4. Soit u une fonction mesurable telle que u(Y ) est intégrable et soit v une fonction
réelle mesurable bornée alors on a :
E(v(X)u(Y )/X) = v(X)E(u(Y )/X)
{X=x} E(g(X,Y )1 )
Démonstration 3.9.8 1. On pose h(x) = E(g(X, Y )/X = x) = P(X=x)
P P
E[E(g(X,
P Y )/X)] = E(h(X)) = x∈X(Ω) h(x)P(X = x) = x∈X(Ω) E(g(x, Y )1{X=x} ) =
E( x∈X(Ω) g(x, Y )1{X=x} ) = E(g(X, Y )).
E(u(Y )1{X=x} )
2. h(x) = P(X=x) comme X et Y sont indépendantes alors h(x) = E(u(Y ))
E(u(X)1{X=x} ) E(u(x)1{X=x} ) E(1{X=x} )
3. h(x) = P(X=x) = P(X=x) = u(x) P(X=x) = u(x)
E(v(X)u(Y )1{X=x} ) E(v(x)u(Y )1{X=x} )
4. h(x) = P(X=x) = P(X=x) =
E(u(Y )1{X=x} )
v(x) P(X=x) = v(x)E(u(Y )/X = x)
Cas de v.a réelle absolument continues
Soit (X, Y ) un couple de v.a réelles de densité f(X,Y ) et de densité marginales fX et fY .
Définition 3.9.9 On appelle densité de Y conditionnelle à [X = x], la fonction fY /X=x (.)
définie par : (
f(X,Y ) (x,y)
fY /X=x (y) = fX (x) , si fX (x) > 0;
0, sinon.
De même, on appelle densité de X conditionnelle à [Y = y], la fonction fX/Y =y (.) définie
par : fY /X=x (.) définie par :
(
f(X,Y ) (x,y)
fX/Y =y (x) = fY (y) , si fY (y) > 0;
0, sinon.
Remarque 3.9.10 Si X et Y sont indépendantes, alors pour tout x tq fX (x) > 0, on

a:
fY /X=x (y) = fY (y)
Convention : R
On pose P(Y ∈ A/X = x) = A fY /X=x (y)dy
Espérance conditionnelle :
Soit (X, Y ) Rune v.a et soit g : R2 → R une fonction mesurable réelle telle que g(X, Y ) est
intégrable ( |g(x, y)|f(X,Y ) (x, y)dxdy < +∞).
Définition 3.9.11 On appelle espérance de g(X, Y ) conditionnelle sachant [X = x] le
réel Z
E(g(X, Y )/X = x) = g(x, y)fY /X=x (y)dy
R
R
Remarque 3.9.12 E(Y /X = x) = R yfY /X=x (y)dy elle peut s’intrèpreter comme l’espérance
de Y par rapport à la loi de probabilité de densité fY /X=x .
Définition 3.9.13 On appelle espérance de g(X, Y ) sachant X la v.a réelle définie par :
E(g(X, Y )/X)(ω) = h(X(ω))
où h : R → R, x 7→ h(x) = E(g(X, Y )/X = x)
Exercice 3.9.14 On considère (X, Y ) un vecteur aléatoire à valeurs dans R2 , continue

et de densité f(X,Y ) (x, y) = λx e−λx 1{0<y<x} .
Déterminer la loi conditionnelle de Y sachant X.
Soit ϕ : une fonction réelle mesurable bornée. Caculer E[ϕ(X, Y )/X].
Indication :
on a la densité de X est donnée par fX (x) = R f(X,Y ) (x, y)dy = λe−λx 1{0<x} , on en
R
déduit que, pour x > 0, fY /X=x (y) = x1 1{0<y<x} . c’est la densité de la loi uniforme sur
[0, x].
On dit que conditionnellement à X, Y suit une loi uniforme sur [0, X]. Comme ϕ est
bornée, ϕ(Y ) est intégrable et on a :
1 X
Z
E(ϕ(Y )/X) = ϕ(y)dy
X 0
Exercice 3.9.15 Soient X1 , X2 des v.a.c uniformes sur [0, 1] indépendantes. Calculer
la loi de X1 sachant S = X1 + X2 .
Pour cela on pourra calculer d’abord la loi du couple (X1 , S). Remarquer que la loi de X1
sachant S est la loi uniforme sur l’intervalle [S − 1, S] ∩ [0, 1].
Remarque 3.9.16 On admet le résultat qui est similaire à la définition de l’espérance.

Soient X, Y deux v.a telles que Rpour tout fonction bornnée mesurable g, on ait :
E(g(Y )/X) = ψ(X) où ψ(x) = g(y)h(x, y)dy.
Alors conditonnellement à X = x, Y est une v.a.c de densité y 7→ h(x, y).
En fin l’espérance conditionnelle possède les propriétés de linéarité, postivité et croissance.
Chapitre 4
Convergence de suites de variables

aléatoires
Soit (Xn )n∈N une suite de variables aléatoires définie sur l’espace probabilisè (Ω, A, P).
On se propose dans ce chapitre d’étudier avec précision la notion ”Xn est voisin de X
pour n assez grand” et plus généralement l’étude de divers types de convergences d’une
suite de variables aléatoires (g(Xn ))n∈N .
4.1 Divers mode de Convergence

On rappelle que deux variables aléatoires X et Y définies sur le même l’espace pro-
babilisé (Ω, A, P) sont égales presque-sûrement si
P({ω ∈ Ω/X(ω) 6= Y (ω)}) = 0.
On suppose dans la suite que toutes les variables aléatoires réelles ou suite de variables
aléatoires sont définies sur le même espace probabilisé (Ω, A, P).
4.1.1 Convergence presque sûre

Définition 4.1.1 Soit (Xn )n∈N une suite de variables aléatoires. On dit que la suite
P.s
(Xn )n∈N converge presque sûrement vers une variable aléatoire X, et on écrit Xn → X,
s’il existe un événement A avec P(A) = 1, tel que
lim Xn (ω) = X(ω) pour tout ω ∈ A.

n→+∞
ou encore P({ω/ limn→+∞ Xn (ω) = X(ω)}) = 1. Une suite de v.a vectorielles (Xn,1 , · · · , Xn,d )n∈N
converge p.s si les suites coordonnées (Xn,i )n∈N pour i ∈ {1, · · · , d} converge p.s.
En d’autres termes l’ensemble des points de divergence au sens classique de l’analyse est
de probabilité nulle.
Proposition 4.1.2 Soit (Xn )n∈N une suite de v.a qui converge p.s vers X. Soit h une
fonction continue. Alors la suite (h(Xn ))n∈N converge p.s vers h(X).
58
CHAPITRE 4. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 59
Démonstration 4.1.3 Soit A = {ω ∈ Ω |Xn (ω) → X(ω)} alors P(A) = 1. Pour ω ∈ A

on a limn→+∞ h(Xn (ω)) = h(X(ω))
P.s 1 P.s 1
Exemple 4.1.4 Si Xn → X et si P(X = 0) = 0, alors la suite Xn → X
Théorème 4.1.5 (Convergence dominée) Soit Y une v.a réelle positive telle que
E(Y ) < +∞. Soit (Xn )n∈N une suite de v.a (réelles ou vectorielles) telles que pour tout
n ∈ N, |Xn | ≤ Y (on dit que les v.a Xn sont dominées par la v.a Y ). Si la suite (Xn )n∈N
converge p.s vers X, alors X est intégrable et l’on a
lim E(Xn ) = E( lim Xn )

n→+∞ n→+∞
Application Soit X une v.a et Y une v.a.d. Soit ϕ une fonction mesurable bornée. Alors
on a X
E(ϕ(X, Y )) = E(ϕ(X, y)1{Y =y} ).
y∈Y (Ω)
Et montrer donc si X et Y sont indépendantes

X
E(ϕ(X, Y )) = E(ϕ(X, y))P(Y = y).
y∈Y (Ω)
On
S considère une suite croissante P (Ωn )n∈N∗ de sous ensemble finis telle que
n∈N∗ Ωn = Y (Ω) On pose Zn = P y∈Ωn ϕ(X, y)1{Y =y} .
La v.a Zn est dominée par kϕk∞ y∈Ωn 1{Y =y} P ≤ kϕk∞ .
De plus la suite (Zn )n∈N∗ converge p.s vers y∈Y (Ω) ϕ(X, y)1{Y =y} = ϕ(X, Y ). par le
théorème de convergence dominée, on obtient
X
E(ϕ(X, y)1{Y =y} ) = lim E(Zn ) = E( lim Zn ) = E(ϕ(X, Y ))
n→+∞ n→+∞
y∈Y (Ω)
Théorème 4.1.6 (Convergence monotone). Soit (Xn )n∈N∗ une suite croissnte de v.a
réelles positives. On a alors
lim E(Xn ) = E( lim Xn )

n→+∞ n→+∞
(les limites peuvent être infini).
4.1.2 Convergence en probabilité

Définition 4.1.7 Soit (Xn )n∈N une suite de variables aléatoires réelles.
1. On dit que la suite (Xn )n∈N converge en probabilité vers la constante a, et on écrit
P
Xn → a, si
pour tout ε > 0, lim P(|Xn − a| > ε) = 0.
n→+∞
ou encore pour tout ε > 0 limn→+∞ P(|Xn − a| ≤ ε) = 1.

2. On dit que la suite (Xn )n∈N converge en probabilité vers une variable aléatoire X,
P P
et on écrit Xn → X, si Xn − X → 0,
(pour tout ε > 0, limn→+∞ P(|Xn − X| > ε) = 0).
Exemple 4.1.8 Soit (Xn )n∈N la suite de variables aléatoires réelles telles que pour tout
n ∈ N∗ , la variable aléatoire réelle Xn suit la loi de Bernoulli B( n1 ), P(Xn = 1) = n1 et
P(Xn = 0) = 1 − n1 . Pour tout ε > 0, on a P(|Xn | > ε) ≤ P(|Xn | > 0) = n1 . D’où par
passage à la limite lorsque n tend vers +∞, on a limn→+∞ P(|Xn | > ε) = 0 et par suite
P
Xn → 0.
Remarque 4.1.9 1)Il est facile de voir que les résultats usuels sur les limites (unicités,
linéarité,...) sont valables dans les deux cas.
2) Lorsque E(Xn ) = a, il suffit de montrer que limn→+∞ V(Xn ) = 0, pour établir
la convergence en probabilité de Xn vers a. En effet, d’aprés l’inégalité de Bienaymé-
Tchebycheff, pour tout ε > 0, on a
V(Xn )
P(|Xn − E(Xn )| > ε) < .
ε2
P
par passage à la limite lorsque n tend vers +∞, on en déduit que Xn − E(Xn ) → 0.
Exemple 4.1.10 Soit (Xn )n∈N une suite de variables aléatoires indépendantes définie
sur l’espace probabilisé (Ω, A, P) de loi de Bernoulli B(p), associées à une suite d’épreuves :
si Xn prend la valeur 1, on dit qu’il y a succés ; sinon on a un échec. Soit Sn =
X1 + · · · + Xn , le nombres de succés durant les n premières épreuves et soit Sn /n la
proportions des succés parmi ces n épreuves. La variable aléatoire Sn suit la loi Bino-
miale B(n, p), et donc

Sn Sn p(1 − p)
E = p et V =
n n n
D’aprés l’inégalité Bienaymé-Tchebycheff, pour tout ε > 0, on a

Sn p(1 − p)
P | − p)| > ε ≤
n nε2
Comme pour tout p ∈ [0, 1], on a p(1 − p) ≤ 14 , et donc

Sn 1
P | − p)| > ε ≤ ,
n 4nε2
Sn P
et par passage à la limite lorsque n tend vers +∞, on a n → p.
Théorème 4.1.11 (lois faibles des grands nombres) Soit (Xn )n∈N une suite de va-
riables aléatoires réelles indépendantes toutes de mme loi ayant une espérance m et une
variance σ 2 . On a
1 P
(X1 + · · · + Xn ) → m.
n
Démonstration 4.1.12 Comme

σ2

1 1
E (X1 + · · · + Xn ) = m et V (X1 + · · · + Xn ) = ,
n n n
alors d’aprés l’inégalité de Bienaymé-Tchebycheff, pour tout ε > 0, on a
σ2

1
P | (X1 + · · · + Xn ) − m| > ε < 2 .
n nε
D’où le résultat par passage à la limite lorsque n tend vers +∞.
Proposition 4.1.13 Soit (Xn )n∈N une suite de variables aléatoires. Si la suite (Xn )n∈N
converge presque sûrement vers une variable aléatoire X, alors la convergence a lieu
P.s P
également en probabilité (Xn → X alors Xn → X).
Proposition 4.1.14 Soit (Xn )n∈N une suite de variables aléatoires. Si la suite (Xn )n∈N
converge en probabilité vers une variable aléatoire X, alors il existe une suite extraite
(XΦ(n) )n∈N qui converge presque sûrement vers une variable aléatoire X.
Remarque 4.1.15 Soit (Xn )n∈N une suite de variables aléatoires réelles admettant des
moments d’ordre 1 et soit X une variable aléatoire admettant un moment d’ordre 1.
P
Si limn→+∞ E(|Xn − X|) = 0 alors Xn → X.
En effet, d’aprés l’inégalité de Markov, on a
1
P (|Xn − X| ≥ ε) ≤ E(|Xn − X|)
ε
Proposition 4.1.16 Soient (Xn )n∈N une suite de variables aléatoires réelles définie et
f une fonction continue de Rd dans R.
P.s P.s
1. Si Xn → X, alors f (Xn ) → f (X).
P P
4.1.3 La loi forte des grands nombres

On considère une suite (Xn )n∈N de variables aléatoires réelles indépendantes et de
même loi : dire qu’elles sont indépendante sous-entend qu’elles sont définie sur le même
espace probabilisé (Ω, A, P) . On considère la moyenne empirique des n premières variables
aléatoires, définie par
1
X n = (X1 + · · · + Xn )
n
on se propose d’étudier la convergence presque sûre de X n vers l’espérance des Xn lorsque
cette dernière existe (comme les Xn ont même loi, cette espérance ne dépend pas de n)
ou encore dans une suite d’expériences aléatoires indépendantes, la moyenne empirique
converge presque sûrement vers la moyenne théorique. Il s’agit là d’un des résultats essen-
tiels de toute la théorie des probabilités, connu sous le nom de loi des grands nombres car
elle justifie à posteriori son axiomatique en la reliant à l’expérience et à la notion intuitive
de fréquence relative d’apparition d’un événement dans la suite d’expérience aléatoires
indépendantes.
Théorème 4.1.17 (Loi forte des grands nombres) Soit (Xn )n∈N une suite de va-
riables aléatoires réelles indépendantes et de même loi admettant un moment d’ordre 1,
et on note m = E(Xn ). On a alors
1 P.s
Xn = (X1 + · · · + Xn ) → m
n
(on a donc aussi la convergence en probabilité).
Remarque 4.1.18 Soit (Xn )n∈N une suite de variables aléatoires réelles indépendantes
et de même loi admettant un moment d’ordre 1, et on note m = E(Xn ). On a alors

lim E (X n − m) = 0.
n→+∞
on a donc aussi la convergence en probabilité. On a même un peu plus que la convergence

en moyenne, à savoir que :
lim E (X n − m)2 = 0.

n→+∞
si les Xn admettent des moments d’ordre 2.

Revenons à ”l’approche par les fréquences”. Soit un événement A. On répéte l’expérience,
et on note Xn la variable aléatoire qui vaut 1 si A est réalisé ou cours de la nème
expérience et 0 sinon. La fréquence de réalisation de A au cours des n premières expériences
est alors
1
fn (A) = (X1 + · · · + Xn ) = X n .
n
Par ailleurs, les Xi ont la même loi et E(Xi ) = P(Xi = 1) = P(A), et elles sont
indépendantes. Donc d’aprés le théorème précédent, on a limn→+∞ fn (A) = P(A) p.s :
on obtient ainsi une justification a posteriori de l’approche par les fréquences, qui, sans
en démontrer de manière rigoureuse la validité (c’est évidemment impossible), montre au
moins que cette approche est compatible avec la théorie qui a été basée dessus. En outre,
la loi des grands nombres nous indique aussi dans quel sens il convient de prendre la
convergence, à savoir au sens p.s. Il faut remarquer que dans les théorèmes précédents,
et donc aussi dans l’approche par les fréquences, on ne peut pas avoir la convergence
de X n (ω) vers m pour tout ω : prenons, comme pour approche par les fréquences, une
suite Xn de variables aléatoires ne prenant que les valeurs 0 et 1. L’espace ”minimal” sur
∗
lequel on peut définir cette suite est Ω = {0, 1}N : un point ω est une suite numérique
x1 , · · · , xn , · · · de 0 et 1, et chaque suite est en principe possible. Soit P une probabilité
sous laquelle les Xn sont indépendantes et de même loi, avec P(Xn = 1) = p ∈]0, 1[. La loi
des grands nombres nous dit que pour toute suite x1 , · · · , xn , · · · en dehors d’un ensemble
de probabilité nulle, la moyenne n1 (x1 + · · · + xn ) tend vers le nombre p. Mais d’une part
il existe évidemment beaucoup de suites ne vérifiant pas cette propri étés (par exemple
xn = 0 pour tout n, ect· · ·) et d’autre part chaque suite particulière (y-compris celle qui
vérifient cette propriété) est de probabilité nulle. Ainsi, lorsqu’on étudie la convergence de
variables aléatoires réelles il est indispensable d’introduire la convergence p.s, puisqu’on
n’a généralement pas la convergence simple (i.e pour tout ω).
4.1.4 Convergence en loi

Bien que la plus faible, elle est la plus utilisée en pratique car elle permet d’approximer
la fonction de répartition de Xn par celle de X.
Définition 4.1.19 Soient (Xn )n∈N une suite de variables aléatoires réelles et (Fn )n∈N
la suite de fonction de répartition correspondantes. On dit que la suite (Xn )n∈N converge
loi
en loi vers la variable aléatoire X de fonction de répartition F , et on écrit Xn → X, si
en tout point x de continuité de F , on a
lim Fn (x) = F (x).
n→+∞
Si une telle limite est prouvée, on utilisera ce résultat pour considérer que, si n est ”assez
grand” (tout dépend de la précision voulue), on peut remplacer la fonction de répartition
Fn de la variable aléatoire Xn par la fonction de répartition F jugée plus simple ou
de calculs plus faciles. La loi limite qui va jouer le plus grand rôle, tant du point de vue
théorique que pratique, est la loi normale centrée réduite qui a une fonction de répartition
FN (0,1) continue sur R mais dont l’écriture n’est que sous forme intégrale
Z x
1 t2
FN (0,1) (x) = √ e− 2 dt.
2π −∞
Pour avoir la convergence en loi vers la loi normale centrée réduite d’une suite de variables
aléatoires (Xn )n≥1 , il suffit que pour tout intervalle [a, b],
lim P(a < Xn ≤ b) = FN (0,1) (b) − FN (0,1) (a).
n→+∞
Remarque 4.1.20 La convergence en loi ne peut impliquer aucun autre type de conver-
gence, car elle ne concerne que les lois.
Pour une suite (Xn )n∈N de variables aléatoires discrètes, la convergence en loi vers une
variable discrète s’exprime par limn→+∞ P(Xn = x) = P(X = x). C’est ainsi qu’on a
établit la convergence de la loi Binomiale vers la loi de Poisson. Une suite de variables
aléatoires discrètes peut ce pendant converger en loi vers une variable aléatoire absolu-
ment continue.
Soit (Xn )n∈N une suite de variables aléatoires absolument continue dont (fn )n∈N est la
suite de densité correspondantes et X une variable aléatoire de densité f , alors
loi
Xn → X, si et seulement si lim fn (x) = f (x).
n→+∞
Proposition 4.1.21 Soient (Xn )n∈N une suite de variables aléatoires réelles définie et
f une fonction continue de Rd dans R.
loi loi
P loi
2. Si Xn → X, alors Xn → X.
3. Soit h une fonction de N à valeurs dans R telle que limn→+∞ h(n) = +∞ et
vérifiant
loi
h(n)(Xn − a) → N (0, 1).
Soit g une fonction dérivable de R à valeurs dans R, alors
loi
h(n)(g(Xn ) − g(a)) → N (0, g 02 (a)).
Convergence en loi d’une suite à valeurs entières

Proposition 4.1.22 Soient (Xn )n∈N une suite de variables aléatoires à valeurs entières
et X une variable aléatoire à valeurs dans N. Les assertions suivantes sont équivalentes
(i) Xn converge en loi vers X.
(ii) Pour chaque k ∈ N, on a limn→+∞ P(Xn = k) = P(X = k).
(iii) GXn converge simplement vers GX sur [0, 1] (où GY est la fonction génératrice de
la variable aléatoire Y ).
Exemple 4.1.23 1. Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗
la variable Xn suit la loi Binomiale B(m, pn ) telle que limn→+∞ pn = p. Soit X
une variable aléatoire de loi de B(m, p). Pour tout k ∈ N, on a
k k
lim P(Xn = k) = lim Cm pn (1 − pn )m−k = Cm
k k
p (1 − p)m−k = P(X = k).
n→+∞ n→+∞
et par suite Xn converge en loi vers X.

2. Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗ la variable Xn
suit la loi Poisson P(θn ) telle que limn→+∞ θn = θ. Soit X une variable aléatoire
de loi Poisson P(θ). On a alors
lim GXn (s) = lim eθn (s−1) = eθ(s−1) = GX (s)

n→+∞ n→+∞
Convergence en loi et fonction caractéristique

Proposition 4.1.24 Soient (Xn )n∈N une suite de variables aléatoires et X une variable
aléatoire. Les assertions suivantes sont èquivalentes
(i) Xn converge en loi vers X.
(ii) ΦXn converge simplement vers ΦX (où ΦY est la fonction caractéristique de la
variable aléatoire Y ).
Remarque 4.1.25 Soient (Xn )n∈N une suite de variables aléatoires définie sur l’espace
probabilisé (Ω, A, P) et (ΦXn )n∈N la suite de fonction caractéristiques correspondantes. Si
(ΦXn )n∈N converge simplement vers une fonction (complexe) Φ sur R, et si cette fonction
est continue en 0, alors c’est la fonction caractéristique d’une variable aléatoire X et
loi
Xn → X.
Exemple 4.1.26 Soit (Xn )n∈N une suite de variables aléatoires. Pour tout n ∈ N∗ la
variable Xn suit la loi normale N (mn , σn ) telle que limn→+∞ mn = m et
limn→+∞ σn = σ > 0. Soit X une variable aléatoire de loi normale N (m, σ). On a alors
t2 σn
2
t2 σ 2
lim ΦXn (t) = lim eitmn − 2 = eitm− 2 = ΦX (t)
n→+∞ n→+∞

Exemple 4.1.27 La suite (Xn )n∈N∗ , où Xn est de loi uniforme sur {0, n1 , · · · , n−1
n },
converge en loi vers U[0,1] . Il suffit d’appliquer somme de Reimann.
Exercice 4.1.28 Soit (Xn )n∈N une suite de variables aléatoires de loi exponentielle de
paramètre λn . Étudier la convergence en loi dans les trois cas suivants :
1. limn→+∞ λn = λ ∈]0, +∞[, (Xn )n∈N converge en loi vers E(λ) convergence do-
minée.
2. limn→+∞ λn = +∞, (Xn )n∈N converge en loi vers X = 0 (changement de variable
et convergence dominée).
3. limn→+∞ λn = 0, on supoose qu’il ya convergence en loi alors ΦXn (t) → ΦX (t),
∀t ∈ R, or limn→+∞ ΦXn (t) = limn→+∞ λnλ−it n
= 1{t=0} n’est pas continue en
0. ce n’est pas donc une fonction caractéristique d’une variable aléatoire pas de
convergence en loi.
On peut utiliser les fonctions de répartitions.
Remarque 4.1.29 Si (Xn )n∈N converge en loi vers X et (Yn )n∈N converge en loi vers
Y ceci n’implique pas que (Xn + Yn )n∈N converge en loi vers X + Y et ((Xn , Yn ))n∈N
converge en loi vers (X, Y ).
Exemple 4.1.30 Soit X = N (0, 1), ∀n ∈ N, on pose Xn = X et Yn = (−1)n X, comme

£(X) = £(−X) donc les lois de Xn et de Yn sont indépendantes de n, il s’agit de la loi
N (0, 1). En revanche X2n + Y2n = 2X et X2n+1 + Y2n+1 = 0. La suite (Xn + Yn )n∈N ne
converge pas donc en loi. En utilisant les fonctions caractéristiques, on vérifie facilement
que l’on n’a pas non plus la convergence en loi de la suite ((Xn , Yn ))n∈N .
La convergence en loi n’est pas une convergence d’espace vectoriel.
4.2 Le théorème limite centrale

Soit (Xn )n∈N est une suite de variables aléatoires réelles indépendantes et de même
loi admettant un moment d’ordre 2. On note m et σ 2 la moyenne et la variance des Xn
et soit
Sn = X1 + · · · + Xn
on a vu que Sn /n converge vers m p.s, et il est naturel de chercher la vitesse à laquelle
cette convergence a lieu. Pour évaluer cette vitesse, c’est-à-dire trouver un équivalent de
Sn /n − m, on est amené à étudier la limite éventuelle de la suite nα (Sn /n − m) pour
différentes valeurs de α : si α est ”petit” cette suite v.a encore tendre vers 0, et elle va
”exploser” si α est ”grand”. On peut espérer que pour une (et alors nécessairement une
seule) valeur de α, cette suite converge vers une limite qui n’est ni infinie ni nulle. Il se
trouve que la réponse à cette question a un aspect ”négatif” : la suite nα (Sn /n − m) ne
converge pas au sens p.s, ou même en probabilité, pour aucune valeur de α. Elle a aussi
un aspect ”positif” : cette suite converge, au sens de la convergence en loi, pour la même
valeur α = 1/2 quelle que soit la loi des Xn , et toujours vers la loi normale ! (si σ > 0,
sinon on a Xn = m et Sn /n−m = 0 p.s pour tout n, et le problème n’a aucun intérêt). Ce
résultat, qui peut sembler miraculeux, montre pourquoi la loi normale joue un rôle aussi
important en probabilités. Il fait l’objet du théorème suivant, appelé théorème central
limite, ou de la limite centrale.
Théorème 4.2.1 Soit (Xn )n∈N une suite de variables aléatoires réelles indépendantes et
de même loi admettant un moment d’ordre 2, et on note m = E(Xn ) et σ 2 = V(Xn ) > 0,
alors les variables aléatoires
(X1 + · · · + Xn ) − nm
√
σ n
converge en loi vers une variable aléatoire U de loi N (0, 1), ou encore pour tout x ∈ R,
Z x
(X1 + · · · + Xn ) − nm 1 t2
lim P √ ≤ x = FU (x) = √ e− 2 dt.
n→+∞ σ n 2π −∞
Ce résultat général justifie la place privilégiée qu’occupe la loi normale en calcul des pro-
babilité et en statistique.
Propriéts 4.2.2 Pour tout n ∈ N∗ on désigne par
Sn − E(Sn ) (X1 + · · · + Xn ) − nm
Un = = √
σSn σ n
En utilisant les fonctions caractéristiques, on a

n n
!!
it X Y it
ΦUn (t) = E exp √ (Xk − m) = E exp √ (Xk − m)
σ n σ n
k=1 k=1
puisque les Xk sont indépendantes. D’autre part comme elles ont même loi, alors
n n
it t
ΦUn (t) = E exp √ (Xk − m) = ΦX−m ( √ ) .
σ n σ n
Or X − m est une variable aléatoire d’espérance nulle et de variance σ 2 donc ΦX−m est
0 00
de classe C 2 et ΦX−m (0) = iE(X − m) = 0 et ΦX−m (0) = −E((X − m)2 ) = −σ 2 . Ainsi
d’aprés la formule de Taylor à l’ordre 2 de ΦX−m , on a
u2 σ 2
ΦX−m (u) = 1 − + u2 ε(u)
2
avec limu→0 ε(u) = 0. D’où
t2 t2

t t
ΦX−m √ =1− + ε √ .
σ n 2n nσ 2 σ n
Par conséquent, on a
t2

0 t
log(ΦUn (t)) = n log 1 − 1+ε √
2n n
0

avec limn→+∞ ε √t = 0. Comme log(1 − x) ∼0 −x, alors
n
2
t2

t 0 t 2 00 t
log(ΦUn (t)) ∼n→+∞ n − 1+ε √ =− −t ε √
2n n 2 n
t2
00

avec limn→+∞ ε √t
n
= 0, d’où le résultat puisque limn→+∞ ΦUn (t) = e− 2 .
Remarque 4.2.3 Pour tout x ∈ R, on a

Z x
X1 + · · · + Xn σ 1 t2
lim P − m ≤ x√ = Φ(x) = √ e− 2 dt.
n→+∞ n n 2π −∞
Exemple 4.2.4 Suite à l’annulation d’un match de football, un guichet procède à cer-
taines heures au remboursement des places. Le prix moyen d’une place est de 5D avec un
écart type de 3D . Quelle est la probabilité pour qu’à une heure donnée, le guichet disposant
de 650D puisse rembourser les 120 personnes qui s’y présentent.
Pour tout i ∈ {1, · · · , 120}, soit Xi = ”le montant à rembourser d’une place de la ième
personne. Alors
P120 les Xi sont indépendantes et de même loi avec E(Xi ) = 5D et σXi = 3D .
Soit X120 = i=1 Xi le montant à rembourser, alors

X120 − 120 × 5 650 − 120 × 5 650 − 120 × 5
P(X120 ≤ 650) = P √ ≤ √ = FN (0,1) √ .
3 120 3 120 3 120
Théorème 4.2.5 Soit (Xn )n∈N une suite de vecteurs aléatoires à valeurs dans Rd indépendants
et de même loi . On suppose que les composantes des Xn = (X1,n , · · · , Xd,n ) admettent
un moment d’ordre 2, et on note m = E(Xn ) le vecteur espérance et Σ = (σij ) la matrice
des covariance de Xn , alors les vecteurs aléatoires
n
!
1 X
√ Xk − nm
n
k=1
converge en loi vers un vecteur aléatoire gaussien centré de matrice de covariance Σ :

N (0, Σ).
Dans le cas où la matrice de covariance Σ s’écrit sous la forme Σ = AAt , alors
n
!
1 −1 X
√ A Xk − nm
n
k=1
converge en loi vers un vecteur aléatoire gaussien centré de matrice de covariance Id :

N (0, Id ).
4.3 Approximations de lois de probabilité

4.3.1 Application du théorème central limite
La grande utilité du théorème central limite réside dans le fait qu’il permet de calculer
simplement des valeurs approchées des probabilités du type
n
!
X
P Xk ∈ [a, b]
k=1
où (Xn )n∈N est une suite de variables aléatoires réelles indépendantes et de même loi
admettant un moment d’ordre 2. Ainsi
1
( nk=1 Xk − nm) suit approximativement une loi normale N (0, 1).
P
1. σ√ n
Pn 2
2. k=1 Xk suit approximativement une loi normale N (nm, nσ ).
2
3. n1 nk=1 Xk suit approximativement une loi normale N (m, σn ).
P
Convergence de la loi binomiale vers la loi de Laplace-Gauss

Théorème 4.3.1 (de Moivre-Laplace). Soit (Xn )n∈N une suite de variables aléatoires
telle que, pour tout entier n, Xn est de loi B(n, p) où p ∈]0, 1[ et soit U une variable
aléatoire de loi normale N (0, 1). Alors on a
X − np loi
p n →U
np(1 − p)
ou encore pour tout couple (a, b) de réels, on a

Xn − np
lim P(a < p ≤ b) = Φ(b) − Φ(a).
n→+∞ np(1 − p)
En partique,p lorsque n est assez garnd, la variable aléatoire Xn suit approximativement

la loi N (np, np(1 − p)) et l’on a
P(a < √Xn −np ≤ b) = Φ(b) − Φ(a) dès que n ≥ 30 avec np ≥ 5 et n(1 − p) ≥ 5.
np(1−p)
Il convient cependant d’effectuer ce qu’on appelle la correction de continuité : la conver-

gence de la loi Binomiale vers la normale se traduit par le fait que les extrémités des
bâtonspdu diagramme de la loi binomiale B(n, p) sont voisine de la courbe de densité
N (np, np(1 − p)). On obtient une valeur approchée de P(X = x) par la surface sous la
courbe de densité comprise entres les droites d’abscisse x − 12 et x + 12
!
x − 12 − np x + 12 − np
P(X = x) w P p <U < p
np(1 − p) np(1 − p)
on aura alors !
x + 1 − np
P(X ≤ x) w P U ≤ p 2
np(1 − p)
Ainsi si X est de loi B(40; 0, 3) alors np = 12 et np(1 − p) = 8, 4. la valeur exacte

de P(X = 11) est 0, 1319 d’aprés les tables. La formule d’approximation avec la loi
√
N (12, 8, 4) donne
10, 5 − 12 11, 5 − 12
P √ <U ≤ √
8, 4 8, 4
soit P(−0, 52 < U ≤ −0, 17) = P(0, 17 < U ≤ 0, 52) = 0, 6895 − 0, 5675 = 0, 132. Soit une
erreur de moins de 1%. Quant à P(X ≤ 11) qui vaut exactement 0, 4406 l’approximation
normale fournit 1 − P(U ≤ 0, 17) soit 0, 4325. En l’absence de correction de continuité on
aurait trouvé

11 − 12
P U≤ √ = P(U ≤ −0, 35) = 1 − P(U ≤ 0, 35) = 0, 3632
8, 4
Exemple 4.3.2 Une épreuve consiste à lancer une pièce de monnaie équilibrée 800 fois
et à noter le nombre de fois où face est apparue. On note N la variable aléatoire égale
au nombre de faces observées. Quelle est la probabilité que ce nombre soit compris entre
390 et 420.
La variable aléatoire N suit la loi B(800; 1/2) alors np = 400 et np(1 − p) = 200

390 − 400 N − 400 420 − 400
P(390 < N ≤ 420) = P √ < √ ≤ √ w P(−0, 707 ≤ U ≤ 1, 414)
200 200 200
d’où
P(390 ≤ N ≤ 420) w Φ(1, 414) − Φ(−0, 707) w 0, 6815.
Convergence de la loi Poisson vers la loi de Laplace-Gauss

Théorème 4.3.3 . Soit (Xn )n∈N une suite de variables aléatoires telle, pour tout entier
n, Xn est de loi P(nλ) où λ > 0 et soit U une variable aléatoire de loi normale N (0, 1).
Alors on a
Xn − nλ loi
√ →U
nλ
ou encore pour tout couple (a, b) de réels, on a
Xn − nλ
lim P(a < √ ≤ b) = Φ(b) − Φ(a).
n→+∞ nλ
En partique,√lorsque n est assez garnd, la variable aléatoire Xn suit approximativement
la loi N (nλ, nλ) et l’on a
n −nλ
X√
P(a < nλ
≤ b) = Φ(b) − Φ(a) dés que nλ ≥ 18.
On a ici encore, intérêt à effectuer la correction de continuité.

4.4 Théorème fondamental de statistique

La loi des grands nombres nous permet en outre d’estimer la fonction de répartition
de la variable aléatoire X à l’aide de la fonction de répartition empirique définie par
n
1X
Fn (x) = 1{Xk (ω)≤x}
n
k=1
En effet, puisque pour chaque valeur de x, 1{Xk ≤x} sont des variables aléatoires de Ber-
noulli indépendantes avec
P(1{Xk ≤x} = 1) = P(Xk ≤ x) = FX (x), P(1Xk ≤x = 0) = P(Xk > x) = 1 − FX (x)
E(1{Xk ≤x} ) = FX (x)

P.s
Fn (x) → FX (x)
C’est à dire que pour chaque valeur de x, il existe un événement A(x) de A de probabilité
1, telle que si ω ∈ A(x), limn→+∞ Fn (x) = FX (x) (au sens d’une suite numérique). Un
théorème, appelé lemme de Glivenko-Cantelli, affirme un résultat plus fort : la famille de
suites de variables aléatoires Fn (x) converge uniformément sur R avec la probabilité 1
vers la famille de constantes FX (x). On peut alors écrire :
P.s
sup |Fn (x) − FX (x)| → 0.
x∈R

Poly Proba

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly Proba

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Probabilité

Anouar Ben Kaddour et Skander Hachiha

4 Convergence de suites de variables aléatoires 58

3. Ensemble de parties d’un ensemble :

1.2.1 Operation sur les ensembles

Définition 1.2.2 Soient A et B deux parties de E, si A ∩ B = ∅. On dit que A et B

Propriéts 1.2.3 Soient E un ensemble donnée et A, B, C des parties de E.

Distributivité de ∪ par rapport à ∩ :

Exercice 1.2.5 1. Montrer que si A ⊂ B ⇒ B c ⊂ Ac

1.3 Expériences aléatoires

d’une expérience aléatoire. L’ensemble des résultats possibles d’une expérience

A = {ω ∈ Ω/A est réalisé si ω est le résultat de l’expérience}

Ainsi l’événement A se réalise dans l’issue ω de l’expérience si et seulement si

On note A l’ensemble des parties de Ω associées à tous les événements. Comme

Des proprietés des fréquences, on en déduit que si A et B sont des événements, on

1.4 Espace probabilisé

1.4.1 Espace probabilisable

Proposition 1.4.3 Soit A une tribu sur Ω.

Démonstration 1.4.4 1. Ω ∈ A, alors par définition d’une tribu, on a ∅ = Ωc ∈ A.

Par définition d’une tribu, on a A ∪ B = +∞ c c

3. (Acn )n∈N est une suite d’éléments de A, alors on a +∞

1. lim sup An ∈ A et lim inf An ∈ A.

Ω = {(i, j) 1 ≤ i, j ≤ 6} = {1, · · · , 6}2

Démonstration 1.4.11 1. Pour tout i ∈ I, Ω ∈ Ai et donc Ω ∈ ∩i∈I Ai

Définition 1.4.12 Soit C un ensemble de parties de Ω (C ⊂ P(Ω)). On appelle tribu

Exemple 1.4.13 1. Soit C une tribu sur Ω, alors σ(C) = C

Définition 1.4.14 1. On appelle tribu borélienne de R la tribu engendrée par la

Proposition 1.4.15 1. Tout intervalle (ouvert, fermé, semi-ouvert) de R est un

Démonstration 1.4.16 1. Soit a, b ∈ R tels que a < b.

Remarque 1.4.18 1. La tribu borélienne BR est aussi la tribu engendrée par la

Remarque 1.4.19 Soit Ω un ensemble non vide. Le choix en pratique de la tribu A de

1.4.2 Vocabulaire probabiliste des événements

1.4.3 Espace probabilisé

Exemple 1.4.22 Soit (Ω, A) un espace probabilisable. Pour tout ω ∈ Ω, l’application

est une mesure de probabilité appelée mesure de probabilité de Dirac en ω. En effet, on a

Exercice 1.4.26 Soit λ ∈ R∗+ . Pour tout A ⊂ N, on pose

Montrer que (N, P(N), P) est un espace probabilisé.

P(A) = αQ1 (A) + (1 − α)Q2 (A) pour tout A ∈ A,

est une probabilité sur (Ω, A).

2. Généraliser ce résultat, montrer que l’application Pn définie par

Proposition 1.4.29 Soit (Ω, A, P) un espace probabilisé. Alors on a

en particulier si A, B ∈ A sont disjoints, alors P(A ∪ B) = P(A) + P(B) et donc

Démonstration 1.4.30 1. Soit (An )n∈N la suite d’éléments de A définie par

Par définition de probabilité, P( +∞

P(A ∪ B) = P(A) + P(B ∩ Ac ) et P(B) = P(A ∩ B) + P(B ∩ Ac )

et par suite P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

4. Comme B ⊂ A alors on a A = B ∪ (A ∩ B c ) d’où P(A) = P(B) + P(A ∩ B c ). Par

Exercice 1.4.31 Soit (Ω, A, P) un espace probabilisé.

Proposition 1.4.32 Soit (Ω, A, P) un espace probabilisé.

2. Soit (An )n≥1 une suite décroissante d’éléments de A. Alors,

Les suites (An )n≥1 et (Bn )n≥1 vérifient :

1. La démonstration est une conséquence du résultat précédent en remarquant que,

disjoints avec P+∞

c’est un ensemble fini de cardinal 2n . La probabilité de chaque tirage est uniforme

Démonstration 1.4.37 Soit (Bn )n∈N la suite d’éléments de A définie par

est une mesure de probabilité, appelée probabilité

S+∞ (An )n≥1 d’éléments de A (c’est-à-dire pour tout n ∈ N,

1.4.4 Événements presque sûr

1. On appelle presque sûr ou presque certain tout événement C ∈ A tel que C 6= Ω

Remarque 1.4.41 Soit (Ω, A, P) un espace probabilisé. Plus généralement, un sous-

1.5 Probabilité sur un ensemble fini

1.5.1 Probabilité uniforme sur un ensemble fini

et dans ce cas, on a pour tout A ∈ A :