1A Proba 2023 24

Probabilités
Chapitre 1 - Rappels d’analyse combinatoire

1. Principe de la multiplication
Énoncé 1.1.1 : S’il existe m façons d’obtenir un résultat A et si A ayant été obtenu, il existe n
façons d’obtenir un résultat B, alors il existe m.n façons d’obtenir A et B.
Exemple 1.2.1 : De combien de façons peut-on asseoir 5 personnes sur 5 chaises numérotées ?
Solution :
La première personne entre et choisit une chaise, elle a 5 choix possibles.
La deuxième personne entre et choisit une chaise, il n’y en a plus que 4 qui sont libres, elle n’a donc
plus que 4 choix possibles.
Par le principe de la multiplication, il y a 5*4 façons d’asseoir les deux premières personnes.
La troisième personne entre et choisit une chaise, il en reste 3, elle a 3 choix possibles.
Par le principe de la multiplication, il y a (5*4)*3 façons d’asseoir les trois premières personnes.
etc.
La réponse est donc 5*4*3*2*1=120.
2. Permutations
Définition 1.2.1 : Le nombre de façons de placer n objets différents dans n cases différentes,
sachant que chaque case doit recevoir un et un seul objet, est appelé nombre de permutations de n
objets et noté P (n).
Théorème 1.2.2 : ∀n ∈ N, P (n) = n!
3. Arrangements
Définition 1.3.1 : Soit B un ensemble de r éléments, et soit C un ensemble de n éléments,
avec r ≤ n. Le nombre de façons d’associer à chaque élément de B un et un seul élément de C
sans répétition (c-à-d on utilise une fois ou zéro fois chaque élément de C), est appelé nombre
d’arrangements de r dans n, et noté Anr .
Exemple 1.3.2 : On a 10 candidats, et on veut former un comité avec un président, un secrétaire

et un trésorier. Combien peut-on former de comités différents ?
Solution :
Pour le poste de président, on a 10 candidats, donc 10 choix possibles.
Pour le poste de secrétaire, il reste 9 candidats, donc 9 choix possibles.
Pour le poste de trésorier, il reste 8 candidats, donc 8 choix possibles.
Par le principe de la multiplication, on peut donc former 10*9*8=720 comités différents.
Théorème 1.3.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,
n!
Anr =
(n − r)!
1
4. Combinaisons
Définition 1.4.1 : Soit A un ensemble de n objets distincts. Le nombre de façons de choisir r
éléments (r ≤ n) parmi les n éléments de A sans répétition (c-à-d on choisit une fois ou zéro fois
chaque élément de A) est appelé nombre de combinaisons de r dans n et noté Crn .
Exemple 1.4.2 : On a une classe de 10 élèves, dont 3 doivent aller visiter une usine. Combien de
manières d’en choisir 3 parmi 10 ?
Solution :
Si nous raisonnons comme dans l’exemple précédent, en appliquant le principe de la multiplication,
nous obtenons 10*9*8. Cependant, on remarque que si on a choisi Arthur en premier, Bernard en
deuxième et Charles en troisième, c’est la même délégation que si on avait pris Bernard en premier,
Charles en deuxième et Arthur en troisième. En fait, dans la délégation, il n’y a pas d’ordre : pas
de président, pas de secrétaire, pas de trésorier. Donc
(Arthur, Bernard, Charles)=(B,C,A)=(A,C,B)=...={A,B,C}. Comptons combien de fois nous avons
compté le même ensemble {A,B,C}. C’est le nombre de permutations de A, B, C, c’est donc 3 !=6.
Nous devons donc diviser 10*9*8 par 3 !
Le nombre de délégations pour visiter l’usine est donc
10*9*8/(3 !)=120.
Théorème 1.4.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,
An

n n!
n
Cr = = r =
r r! r!(n − r)!
Proposition 1.4.4 :
n
a) Crn = Cn−r
n−1
b) Crn = Crn−1 + Cr−1
5. Permutations avec répétitions

Ce sont des permutations d’objets qui ne sont pas tous distincts.
Exemple 1.5.1 : Combien d’anagrammes différents peut- on former avec les mots :
a) MERCI ; b) REMERCIEMENT ?
Solution :
a) Il y a 5 lettres différentes, le nombre de permutations de ces 5 lettres est donc 5 !=120.
b) Il y a 12 lettres, dont 2 M , 2 R, 4 E.
Si les lettres étaient différentes, notons-les
R1 E1 M1 E2 R2 CIE3 M2 E4 N T , le nombre de permutations serait 12 !
Mais prendre (R1 , R2 ) ou (R2 , R1 ) c’est la même chose, c’est en fait avoir {R, R}.
Pour les R, on va donc diviser par 2.
Idem pour les 2 M .
Et on divise par 4 ! pour les 4 E.
Le nombre de permutations est donc
12 !/(2 ! 2 ! 4 !)=4989600.
Théorème 1.5.2 : Soient n objets dont r1 sont indiscernables entre eux, r2 indiscernables entre
eux,..., rk indiscernables entre eux (avec r1 + r2 + ... + rk ≤ n). Alors il existe r1 !r2n!!...rk ! permutations
de ces n objets.
2
Exemple 1.5.3 : Un piéton doit se rendre du point A au point B, situé 7 rues au nord et 5 avenues à
l’est du point A. Combien d’itinéraires différents existe-t-il, sachant que le piéton ne marche jamais
vers le sud ou vers l’ouest ?
Solution :
Supposons que le piéton va d’abord vers le nord (n) 7 fois, puis vers l’est (e) 5 fois. C’est un premier
itinéraire, qu’on peut noter nnnnnnneeeee.
Si le piéton va d’abord vers l’est 5 fois, puis vers le nord, son itinéraire est eeeeennnnnnn.
De même, l’itinéraire nnneeenneenn correspond à : le piéton va 3 fois vers le nord, puis 3 fois vers
l’est, puis 2 fois vers le nord, puis 2 fois vers l’est, et enfin 2 fois vers le nord.
Compter les itinéraires, c’est donc compter le nombre de permutations de nnnnnnneeeee.
Le nombre d’itinéraires est donc 12 !/(7 ! 5 !)=792.
6. Binôme de Newton
Théorème 1.6.1 : ∀a ∈ R, ∀b ∈ R, ∀n ∈ N,
n
X
n
(a + b) = Ckn ak bn−k .
k=0
Définition 1.6.2 : Soit E un ensemble. L’ensemble de tous les sous-ensembles de E, noté P(E),
est appelé classe des parties de E.
Théorème 1.6.4 : Soit E un ensemble de n éléments. Alors P(E) comprend 2n éléments.
Démonstration :
soit Ek l’ensemble des parties de E qui ont k éléments (k ≤ n). Notons N(Ek ) le nombre d’éléments
n
de Ek . N(E
Sk ) est égal au nombre de façons de choisir k éléments parmi n, donc N(Ek ) = Ck . Or
P(E) = k≤n Ek , donc
N(P(E)) = nk=0 N(Ek ) = nk=0 Ckn .1k .1n−k
P P
= (1 + 1)n = 2n

Exemple 1.6.5 : Une municipalité compte 300 habitants adultes. On veut former une délégation
pour rendre visite au maire. Combien y a-t-il de délégations différentes ?
Solution :
Supposons que l’on admet la délégation vide (personne ne se déplace) ou la délégation pleine (tout
le monde y va).
Chaque délégation est une partie de E, où E est l’ensemble des habitants, avec N(E) =300.
Il y a donc 2300 délégations.
7. Théorie des ensembles

Définition 1.7.1 : Soient A et B deux ensembles.
1) inclusion : A est inclus dans B si et seulement si tout élément de A est un élément de B :
A ⊂ B ⇔ ∀x, (x ∈ A ⇒ x ∈ B)
2) Si A ⊂ B, on dit que A est une partie de B.
3
P(B) est l’ensemble des parties de B :
A ∈ P(B) ⇔ A ⊂ B
On a toujours : ∅ ∈ P(B) (où ∅ est l’ensemble vide) et B ∈ P(B).

3) union :
A ∪ B = {x|x ∈ A ou x ∈ B}.
4) intersection :
A ∩ B = {x|x ∈ A et x ∈ B}.
5) différence :
A \ B = {x ∈ A|x ∈
/ B}.
6) complémentaire :
si A ⊂ B, le complémentaire de A dans B est : {B A = B \ A.
7) produit cartésien :
A × B = {(x, y)|x ∈ A et y ∈ B}.
Propriétés 1.7.2 (distributivité) : Soient A, B, C trois ensembles.

1) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
2) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Propriétés 1.7.3 : Soient A et B deux parties d’un ensemble E.

1) A ∪ ({E A) = E
2) {E E = ∅
3) {E ∅ = E
et les lois de Morgan :
4) E \ (A ∪ B) = (E \ A) ∩ (E \ B)
5) E \ (A ∩ B) = (E \ A) ∪ (E \ B)
8. Cardinal d’un ensemble fini

Définition 1.8.1 : Le cardinal d’un ensemble fini E est le nombre de ses éléments, on le note N(E)
(ou bien card(E) ou |E|).
Théorème 1.8.2 : Soient A et B deux ensembles finis.

1) N(A ∪ B) = N(A) + N(B) − N(A ∩ B)
2) N(A × B) = N(A).N(B)
4
Chapitre 2 - Probabilités sur un univers fini
I. Univers fini
1. Expérience aléatoire
Définition 2.1. Une épreuve aléatoire est une expérience dont on connaı̂t tous les résultats possibles.
L’ensemble contenant tous les résultats possibles est appelé univers (ou espace échantillonnal) et
noté Ω.
Exemple 2. 2. Épreuve aléatoire : on lance un dé à 6 faces numérotées de 1 à 6.

Univers : Ω = {1; 2; 3; 4; 5; 6} = J1; 6K.
Remarque 2. 3. Dans ce cours on se limitera au cas où Ω est un ensemble fini non vide.
2. Événements
Définition 2. 4. Soit Ω un univers fini.
• Les éléments de Ω sont appelés les possibles (ou éventualités).
• On appelle événement toute partie de Ω.
Un singleton est appelé événement élémentaire.
L’ensemble des événements est P(Ω).
• Si A est un événement, le complémentaire de A dans Ω, Ω \ A, est appelé son événement contraire
et noté {A.
• On dit que l’événement A implique (ou entraı̂ne) l’événement B lorsque A ⊂ B.
Exemple 2. 5. Épreuve aléatoire : on lance un dé.

Univers : Ω = J1; 6K.
Événements élémentaires : {1}, {2}, {3}, {4}, {5}, {6}.
L’événement ”obtenir un chiffre pair” est A = {2; 4; 6}. Son événement contraire ”obtenir un chiffre
impair” est {A = {1; 3; 5}.
L’événement ”obtenir le chiffre 1” implique l’événement ”obtenir un chiffre impair”.
Définition 2. 6. Soient A et B deux événements d’un univers Ω.

• L’événement ”A ou B” est représenté par la réunion A ∪ B.
• L’événement ”A et B” est représenté par l’intersection A ∩ B.
• Deux événements A et B sont incompatibles (ou disjoints) lorsque A ∩ B = ∅.
Exemple 2. 7. Tout événement est incompatible avec son événement contraire.
Définition 2. 8. (Système complet d’événements)

Soit (A1 , . . . , An ) = (Ai )i∈J1;nK une famille d’événements d’un univers Ω.
Cette famille est un système complet d’événements lorsque :
5
• les événements sont incompatibles deux à deux :
∀(i, j) ∈ J1; nK2 , i 6= j ⇒ Ai ∩ Aj = ∅, et
• la réunion de ces événements est l’événement certain :
n
[
Ai = A1 ∪ · · · ∪ An = Ω.
i=1
Remarque 2. 9. Une partition de Ω forme un système complet d’événements.
Exemple 2. 10.
1. Si A est un événement, alors {A, {A} est un système complet d’événements.
2. La famille des événements élémentaires ({x})x∈Ω est un système complet d’événements.
II. Espaces probabilisés

1. Probabilité
Définition 2. 11. Soit Ω un univers.
On appelle probabilité sur Ω toute application P de P(Ω) vers [0; 1] vérifiant :
• P(Ω) = 1, et
• P est additive, c’est-à-dire :
∀A, B ∈ P(Ω), A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B).
Le couple (Ω; P) est appelé espace probabilisé.
Exemple 2. 12. On lance un dé bien équilibré.

P({i}) = 1/6, ∀i ∈ J1; 6K.
La probabilité de l’événement ”le résultat est pair” est 1/2 :
P({2; 4; 6}) = P({2} ∪ {4} ∪ {6})
= P({2}) + P({4}) + P({6}) = 3/6 = 1/2.
Définition 2. 13.
• Un événement de probabilité nulle est appelé événement impossible. L’ensemble vide ∅ est impos-
sible, ainsi que nous allons le voir ci-dessous.
• Un événement de probabilité égale à 1 est appelé événement certain. L’univers Ω est certain.
6
2. Propriétés
Théorème 2. 14. Soient A et B deux événements d’un espace probabilisé (Ω; P). On a :
1. P(∅) = 0 ;
2. P({A) = 1 − P(A) ;
3. Si A ⊂ B alors P(A) ≤ P(B) (P est croissante)
et P(B \ A) = P(B) − P(A) ;
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
5. Si (A1 , . . . , An ) = (Ai )i∈J1;nK est une famille d’événements incompatibles deux à deux, alors
n
[ n
X
P( Ai ) = P(Ai ).
i=1 i=1
c’est-à-dire
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An )
Démonstration :
1. Ω ∩ ∅ = ∅ et P est additive, donc
P(Ω ∪ ∅) = P(Ω) + P(∅).
Mais Ω ∪ ∅ = Ω, donc
P(Ω) = P(Ω) + P(∅).
Donc P(∅) = 0.
2. A ∩ ({A) = ∅ et P est additive, donc
P(A ∪ ({A)) = P(A) + P({A).
Mais A ∪ ({A) = Ω,
donc P(A ∪ ({A)) = P(Ω) = 1.
On a donc 1 = P(A) + P({A),
c-à-d P({A) = 1 − P(A).
3. Supposons A ⊂ B.
A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = B.
On a donc montré P(B) = P(A) + P(B \ A).
Donc P(B \ A) = P(B) − P(A).
Mais une probabilité est positive,
donc P(B \ A) ≥ 0,
donc P(B) − P(A) ≥ 0,
donc P(B) ≥ P(A).
4. (A ∩ B) ∩ (B \ A) = ∅ et P est additive, donc
P((A ∩ B) ∪ (B \ A)) = P(A ∩ B) + P(B \ A).
Mais (A ∩ B) ∪ (B \ A) = B, donc
P(B) = P(A ∩ B) + P(B \ A).
On en déduit
P(B \ A) = P(B) − P(A ∩ B). (1)
7
D’autre part, A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = A ∪ B, donc
P(A ∪ B) = P(A) + P(B \ A).
En utilisant (1) dans l’égalité ci-dessus, il vient
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. — pour n = 2, c’est
A1 ∩ A2 = ∅ ⇒ P(A1 ∪ A2 ) = P(A1 ) + P(A2 ).
C’est vrai, par additivité de P.
— pour n = 3 :
on suppose
A1 ∩ A2 = ∅ et A1 ∩ A3 = ∅ et A2 ∩ A3 = ∅, alors
(A1 ∪ A2 ) ∩ A3 = (A1 ∩ A3 ) ∪ (A2 ∩ A3 )

= ∅∪∅
= ∅
Puisque P est additive, on en déduit

P((A1 ∪ A2 ) ∪ A3 ) = P(A1 ∪ A2 ) + P(A3 ).
On utilise alors la propriété pour n = 2, et on obtient
P((A1 ∪ A2 ) ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 ).
— pour n ∈ N, n ≥ 3, on raisonne comme ci-dessus par récurrence.
Exercice 2. 15. (Inégalité de Boole)

Montrer que pour toute famille d’événements (A1 , . . . , An ), on a
n
X
P(A1 ∪ · · · ∪ An ) ≤ P(Ai ).
i=1
Théorème 2. 16. Soit (Ai )i∈J1;nK un système complet d’événements d’un espace probabilisé (Ω; P).
On a :
1. n
X
P(Ai ) = 1;
i=1
2. Pour tout événement B,

n
X
P(B) = P(B ∩ Ai ).
i=1
8
Démonstration :
1. Les événements A1 , . . . , An sont incompatibles deux à deux, donc, par le théorème 2.14, on a :
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An ).
Mais A1 ∪ · · · ∪ An = Ω, donc
P(A1 ∪ · · · ∪ An ) = P(Ω) = 1, ce qui démontre que
P(A1 ) + · · · + P(An ) = 1.
2. On montre d’abord que les événements B ∩ A1 , . . . , B ∩ An sont incompatibles deux à deux :
soit (i, j) ∈ J1; nK2 avec i 6= j. Alors
(B ∩ Ai ) ∩ (B ∩ Aj ) = B ∩ (Ai ∩ Aj )
= B∩∅
= ∅.
On utilise ensuite le théorème 2.14 :

n
X
P((B ∩ A1 ) ∪ · · · ∪ (B ∩ An )) = P(B ∩ Ai ).
i=1
Mais
(B ∩ A1 ) ∪ · · · ∪ (B ∩ An ) = B ∩ (A1 ∪ · · · ∪ An )
= B∩Ω
= B (car B ⊂ Ω)
Donc n
X
P(B) = P(B ∩ Ai ).
i=1
3. Probabilité des événements élémentaires

Une probabilité P sur un univers fini Ω est entièrement déterminée par la connaissance des proba-
bilités des événements élémentaires.
Théorème 2. 17. Soit Ω = {x1 , . . . , xn } un univers fini.

• Soit
P P une probabilité sur Ω. Notons pi = P({xi }), ∀i ∈ J1; nK. Alors ∀i ∈ J1; nK, pi ≥ 0 et
n
i=1 pi = 1.
• Réciproquement, si p1 , . . . , pn sont des réels positifs et de somme égale à 1, alors il existe une
probabilité P sur Ω telle que ∀i ∈ J1; nK, P({xi }) = pi .
• Dans les deux cas, on a pour tout événement A,
X
P(A) = pi .
xi ∈A
9
Démonstration :
laissée en exercice, en utilisant le théorème 2.16 et en remarquant que la famille des événements
élémentaires est un système complet d’événements.
Exemple 2. 18. On lance un dé truqué (ou pipé) à 6 faces tel que la probabilité d’obtenir la face
k est proportionnelle à k. Quelle est la probabilité d’obtenir un résultat pair ?
Remarque : ”la probabilité d’obtenir la face k est proportionnelle à k” signifie que

P({k})
est une constante (indépendante de k).
k
P a cette constante. On obtient donc P({1}) = a, P({2}) = 2a,. . ., P({k}) = a.k, ∀k ∈ J1; 6K.
Notons
Or 6k=1 P({k}) = 1, donc a(1 + 2 + 3 + 4 + 5 + 6) = 1.
1
Donc a = 21 . Alors P({2; 4; 6}) = a(2 + 4 + 6) = 12
21
= 47 .
Exercice 2. 19. Refaire l’exemple avec un dé à n faces (n ∈ N, n ≥ 2). On rappelle la formule de
la progression arithmétique : 1 + 2 + · · · + n = n(n+1)
2
.
Théorème 2. 20. (équiprobabilité)

Sur tout univers fini Ω, il existe une unique probabilité P qui prend la même valeur sur chaque
événement élémentaire (on parle d’événements équiprobables). Elle est définie par
1 1
∀x ∈ Ω, P({x}) = = .
card(Ω) N(Ω)
On l’appelle probabilité uniforme sur Ω.
Pour tout événement A, on a alors
card(A) N(A)
P(A) = = .
card(Ω) N(Ω)
La probabilité d’un événement est le nombre de cas favorables divisé par le nombre de cas possibles.
Démonstration :
Notons Ω = {x1 ; . . . ; xn } où n = card(Ω) = N(Ω).
1
On pose ∀i ∈ J1; nK, pi = P n
.
On a bien : ∀i, pi ≥ 0 et ni=1 pi = 1.
On utilise alors le théorème 2.17.

Exemple 2.21. On lance 6 fois un dé bien équilibré. Quelle est la probabilité d’obtenir les 6 numéros
de 1 à 6 ?
Ω = J1; 6K × · · · × J1; 6K = J1; 6K6 . Donc N(Ω) = 66 .

N(A) = nombre de permutations des chiffres 1, 2, 3, 4, 5, 6 = 6!
Donc P(A) = N(A)N(Ω)
= 66!6 ∼
= 0, 015.
Exercice 2. 22. On tire 4 cartes (simultanément) au hasard dans un jeu de 32 cartes. Quelle est la
probabilité d’avoir 4 cœurs ?
10
III. Probabilités conditionnelles
1. Définition
Définition 2. 23. Soit (Ω; P) un espace probabilisé. Soit A un événement de probabilité non nulle.
Pour tout événement B, on définit la probabilité de B sachant A par
P(A ∩ B)
PA (B) = .
P(A)
Théorème 2. 24. PA est une probabilité sur Ω, appelée probabilité conditionnelle sachant A.
Remarque 2. 25. on note parfois PA (B) = P(B|A), à ne pas confondre avec P(B \ A).
Exemple 2. 26. On lance une pièce de monnaie bien équilibrée deux fois de suite. Quelle est la
probabilité d’avoir deux faces, étant donné :
1. que le premier lancer a donné face ?
2. qu’au moins un des deux lancers a donné face ?
L’univers est Ω = {F ace; P ile} × {F ace; P ile}.

Donc N(Ω) = 4.
1. Soit A l’événement ”le premier lancer est face”.
A = {(F ; P )} ∪ {(F ; F )}. Donc N(A) = 2.
D’où P(A) = N(A)
N(Ω)
= 24 = 21 .
Soit B l’événement ”avoir 2 faces”.
B = {(F ; F )}. Donc N(B) = 1 et P(B) = N(B) N(Ω)
= 14 .
B ⊂ A, donc A ∩ B = B.
Donc P(A ∩ B) = P(B) = 41 . Finalement
P(A ∩ B) 1/4 1
PA (B) = = = .
P(A) 1/2 2
2. Soit C l’événement ”au moins un des 2 lancers est face”.

C = {(F ; F ); (F ; P ); (P ; F )} = Ω \ {(P ; P )}.
N(C) = 3. P(C) = N(C) N(Ω)
= 34 .
Mais B ⊂ C, donc B ∩ C = B.
Donc P(B ∩ C) = P(B) = 41 . Finalement
P(B ∩ C) 1/4 1
PC (B) = = = .
P(C) 3/4 3
11
2. Probabilités composées
Théorème 2. 27. Soient A et B deux événements. Alors
• P(A ∩ B) = P(A).PA (B), si P(A) 6= 0
• P(A ∩ B) = P(B).PB (A), si P(B) 6= 0
Exemple 2.28. Une urne contient 4 boules blanches et 2 noires. On tire une boule, puis on la remet
dans l’urne en ajoutant une autre boule de la même couleur. Ensuite on procède à un deuxième
tirage. Quelle est la probabilité d’obtenir 2 boules noires ?
Notons Bi (resp. Ni ) l’événement ”la ième boule tirée est blanche (resp. noire)”, pour i = 1; 2.
5/7 B2
B1
4/6 2/7 N2
•
2/6 4/7 B2
N1
3/7 N2
On a P(B1 ) = 46 ; P(N1 ) = 26 ; PN1 (N2 ) = 37 , donc
P(N1 ∩ N2 ) = P(N1 ).PN1 (N2 )

2 3 1
= × =
6 7 7
Théorème 2. 29. (formule des probabilités composées)

Soit (Ai )i∈J1;nK une famille d’événements (n ≥ 2) telle que P(A1 ∩ · · · ∩ An−1 ) 6= 0. Alors
P(A1 ∩ · · · ∩ An ) = P(A1 ).PA1 (A2 ).PA1 ∩A2 (A3 ) . . . PA1 ∩···∩An−1 (An ).
3. Formule des probabilités totales

Théorème 2. 30. (formule des probabilités totales)
Soit (Ai )i∈J1;nK un système complet d’événements tel qu’aucun n’est impossible (∀i ∈ J1; nK, P(Ai ) 6=
0).
Alors, pour tout événement B, on a :
n
X
P(B) = P(Ak ).PAk (B)
k=1
Démonstration :
Ceci se déduit des théorèmes 2.16 et 2.27.
12
4. Formule de Bayes
Théorème 2. 31. (formule de Bayes)
Soit (Ai )i∈J1;nK un système complet d’événements tel qu’aucun n’est impossible.
Soit B un événement non impossible. Alors, ∀i ∈ J1; nK,
P(Ai ).PAi (B)
PB (Ai ) = Pn
k=1 P(Ak ).PAk (B)
Démonstration :
Cette formule découle directement de la définition d’une probabilité conditionnelle et de la formule
des probabilités totales.

Exemple 2. 32. On a 6 urnes numérotées de 1 à 6. L’urne k contient k boules blanches et (6 − k)

boules noires. On lance un dé non truqué. Si la face k sort alors on tire une boule de l’urne k. La
boule tirée est blanche, quelle est la probabilité d’avoir fait un 6 ?
Notons Dk l’événement ”le résultat du dé est k” (k = 1; . . . ; 6).

(D1 , . . . , D6 ) est un système complet d’événements :
si i 6= j, Di ∩ Dj = ∅ et D1 ∪ · · · ∪ D6 = Ω.
De plus, P(Dk ) = 61 6= 0, ∀k.
Notons B (resp. N ) l’événement ”la boule tirée est blanche (resp. noire)”.
On a PDk (B) = k6 et PDk (N ) = 6−k 6
.
On peut donc utiliser la formule de Bayes :
P(D6 ).PD6 (B)
PB (D6 ) = P6
k=1 P(Dk ).PDk (B)
1
6
× 66
= 1 1 2 3 4 5 6
( + 6 + 6 + 6 + 6 + 6)
6 6
6 6 2
= = =
1+2+3+4+5+6 21 7
IV. Indépendance
1. Indépendance de deux événements
Définition 2.33. Deux événements A et B d’un espace probabilisé (Ω; P) sont indépendants lorsque
P(A ∩ B) = P(A).P(B)
Exercice 2. 34. On tire une carte d’un jeu de 52 cartes. Montrer que les événements ”tirer un
pique” et ”tirer un as” sont indépendants.
Proposition 2. 35. Si A est un événement non impossible, alors A et B sont indépendants ssi
PA (B) = P(B).
13
Démonstration :
laissée en exercice.
Théorème 2. 36. Si A et B sont deux événements indépendants, alors

• A et {B sont indépendants,
• {A et B sont indépendants, et
• {A et {B sont indépendants.
Démonstration :
• A ∩ B et A ∩ ({B) sont disjoints :
(A ∩ B) ∩ (A ∩ {B) = A ∩ (B ∩ {B) = A ∩ ∅ = ∅.
Mais A = (A ∩ B) ∪ (A ∩ {B).
Puisque P est additive, ceci implique
P(A) = P(A ∩ B) + P(A ∩ {B).
A et B étant indépendants, on a donc
P(A) = P(A).P(B) + P(A ∩ {B).
Donc
P(A ∩ {B) = P(A) − P(A).P(B)

= P(A).[1 − P(B)]
= P(A).P({B)
A et {B sont donc indépendants.

• Le deuxième point se déduit du premier en permutant A et B.
• Le troisième point se déduit du premier et du deuxième.

2. Indépendance d’une famille d’événements

Définition 2.37. Soient n ∈ N, n ≥ 3, et A1 , . . . , An des événements d’un espace probabilisé (Ω; P).
• On dit que ces événements sont deux à deux indépendants si
∀(i, j) ∈ J1; nK2 , i 6= j ⇒ P(Ai ∩ Aj ) = P(Ai ).P(Aj )
• On dit que ces événements sont mutuellement indépendants si

\ Y
∀J ⊂ J1; nK, P( Aj ) = P(Aj )
j∈J j∈J
Remarque 2. 38. Si des événements sont mutuellement indépendants, alors ils sont deux à deux
indépendants. La réciproque est fausse, comme le montre l’exemple suivant.
14
Exemple 2. 39. On lance deux dés. On définit les événements :
A1 : ”le premier dé amène un nombre pair”,
A2 : ”le deuxième dé amène un nombre pair”,
A3 : ”la somme des résultats obtenus est paire”.
Les événements (A1 , A2 , A3 ) sont-ils indépendants deux à deux ? Mutuellement indépendants ?
• On établit facilement que :

N(Ω) = 36; N(A1 ) = 3 × 6 = 18; P(A1 ) = 21 .
• Idem pour A2 :P(A2 ) = 12 .
• Pour A3 : N(A3 ) = 18; P(A3 ) = 21 .
• A1 ∩ A2 : ”les deux dés donnent des résultats pairs”
9
N(A1 ∩ A2 ) = 3 × 3 = 9; P(A1 ∩ A2 ) = 36 = 14 .
P(A1 ∩ A2 ) = P(A1 ).P(A2 ), donc A1 et A2 sont indépendants.
• A1 ∩ A3 = A1 ∩ A2 , donc P(A1 ∩ A3 ) = 41 ,
• A2 ∩ A3 = A1 ∩ A2 , donc P(A2 ∩ A3 ) = 41 ,
On a donc établi que (A1 , A2 , A3 ) sont indépendants deux à deux.
• A1 ∩ A2 ∩ A3 = A1 ∩ A2 , donc P(A1 ∩ A2 ∩ A3 ) = 41 ,
donc P(A1 ∩ A2 ∩ A3 ) 6= P(A1 ).P(A2 ).P(A3 ) = 81 .
On a démontré que (A1 , A2 , A3 ) ne sont pas mutuellement indépendants.
Proposition 2. 40. Si des événements sont mutuellement indépendants, alors leurs contraires sont
également mutuellement indépendants.
15
Chapitre 3 - Variables aléatoires sur un univers fini
I. Notion de variable aléatoire
1. Définition
Définition 3. 1. Soit Ω un univers fini.
• Toute application X : Ω → E est appelée variable aléatoire (v.a.).
• Lorsque E = R, on dit que X est une variable aléatoire réelle (v.a.r.).
• Lorsque X est constante, on parle de v.a. constante ou certaine.
• L’ensemble des images X(Ω) est un ensemble fini appelé le champ de la v.a. X.
Exemple 3. 2.
1. On lance deux dés. Soit X la v.a. de la somme des résultats.
Ω = J1; 6K × J1; 6K; ∀(i; j) ∈ Ω, X(i; j) = i + j; X(Ω) = J2; 12K
2. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a.
du montant (en EUR) gagné par le joueur.
Ω = {P ile; F ace}; Y (P ile) = −2; Y (F ace) = 5; Y (Ω) = {−2; 5}
Définition 3. 3. (variable indicatrice d’un événement)

Soit A un événement de (Ω; P).
La v.a. X : Ω → R définie par

1 si x ∈ A
∀x ∈ Ω, X(x) =
0 sinon
est appelée variable indicatrice de A.
Remarque 3. 4.
• L’ensemble des v.a.r. sur Ω, noté F(Ω; R), a une structure de R-espace vectoriel et d’anneau pour
les lois usuelles.
• Si X : Ω → E est une v.a. et u : E → F est une application, alors u ◦ X est une v.a. notée u(X).
Notations : (événements liés à une v.a.)

• Soit X : Ω → E une v.a. et A une partie de E.
Alors X −1 (A) = {x ∈ Ω tels que X(x) ∈ A} est un événement de Ω, noté (X ∈ A).
• Soit X : Ω → R une v.a.r. et α un réel.
On note (X ≤ α) l’événement
(X ≤ α) = {ω ∈ Ω, X(ω) ≤ α}.
De même (X ≥ α) = {ω ∈ Ω, X(ω) ≥ α}, etc.
16
2. Loi d’une variable aléatoire
Définition 3. 5. Soit X une v.a. sur (Ω; P).
• L’application fX : X(Ω) → [0; 1] définie par :
∀k ∈ X(Ω), fX (k) = P(X = k)
est appelée loi (ou loi de probabilité) de la v.a. X.
• La distribution de la v.a. X est l’ensemble formé par son champ X(Ω) et sa loi fX . Dans le cas où
le champ X(Ω) = {k1 ; . . . ; kn } est fini, la distribution est souvent notée sous forme d’un tableau :
X k1 ... kn
fX fX (k1 ) . . . fX (kn )
Théorème 3. 6. Soit X une v.a. sur (Ω; P) de loi fX .

i) On a alors, pour toute partie A de X(Ω),
X X
P(X ∈ A) = P(X = y) = fX (y)
y∈A y∈A
ii) De plus, X
fX (k) = 1.
k∈X(Ω)
En particulier, si X(Ω) = {k1 ; . . . ; kn }, alors

n
X
fX (ki ) = 1
i=1
Démonstration :
i)
(X ∈ A) = {ω ∈ Ω, X(ω) ∈ A}
Donc [
(X ∈ A) = {ω ∈ Ω, X(ω) = y}
y∈A
En d’autres termes, [
(X ∈ A) = (X = y),
y∈A
où
(X = y) = {ω ∈ Ω, X(ω) = y}.
Si y1 6= y2 , les ensembles (X = y1 ) et (X = y2 ) sont disjoints. En effet, si ω ∈ (X = y1 ) ∩ (X = y2 )
alors X(ω) = y1 et X(ω) = y2 donc y1 = y2 . Les événements (X = y)y∈A sont donc incompatibles
deux à deux.
Vu le théorème 2.14, !
[ X
P (X = y) = P(X = y)
y∈A y∈A
donc X
P(X ∈ A) = P(X = y).
y∈A
17
ii) Remarquons que
(X ∈ X(Ω)) = {ω ∈ Ω, X(ω) ∈ X(Ω)} = Ω,
donc P(X ∈ X(Ω)) = P(Ω) = 1.
On applique alors le point précédent avec A = X(Ω) :
X
1 = P(X ∈ X(Ω)) = P(X = y).
y∈X(Ω)
Exemple 3. 7.
1) On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a. du
montant (en EUR) gagné par le joueur. Donner la distribution de Y .
Remarquons que
fY (−2) = P(Y = −2) = P({P ile}) = 12 .
La distribution de Y est donc :
Y −2 5
1 1
fY 2 2
2) On lance deux dés. La v.a. X est la somme des résultats. Écrire la distribution de X.
1
N(Ω) = 36; fX (2) = P(X = 2) = P({(1; 1)}) = 36
2
fX (3) = P(X = 3) = P({(1; 2); (2; 1)}) = 36 , etc.
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
fX 36 36 36 36 36 36 36 36 36 36 36
3. Image d’une variable aléatoire par une fonction

Théorème 3.8. Soit X une v.a. sur (Ω; P) et U une fonction définie sur X(Ω), notons Y = U ◦ X =
U (X), alors : X
∀β ∈ Y (Ω), P(Y = β) = P(X = α)
α∈X(ω) t.q. U (α)=β
Démonstration :
Soit β ∈ Y (Ω).
P(Y = β) = P({ω ∈ Ω, Y (ω) = β})

= P({ω ∈ Ω, U (X(ω)) = β})
= P({ω ∈ Ω, X(ω) ∈ U −1 ({β})})
P X ∈ U −1 ({β})

=
X
= P(X = α), par le théorème 3.6
α∈U −1 ({β})
X
= P(X = α)
α∈X(ω) t.q. U (α)=β
18

Remarque 3. 9. si X est une v.a.r. et a ∈ R∗ , on peut définir aX :

z
P(aX = z) = P(X = )
a
Exemple 3. 10. Soit la v.a. X dont la distribution est

X −1 0 1
fX 1/3 1/4 5/12
Calculer la distribution de |X|, X 2 , −X.
La distribution de |X| est

|X| 0 1
f|X| 1/4 3/4
La distribution de X 2 est la même :
X2 0 1
fX 2 1/4 3/4
La distribution de −X est :
X −1 0 1
fX 5/12 1/4 1/3
II. Lois usuelles

1. Variables certaines
Définition 3. 11. Soit X une v.a. sur (Ω; P). Lorsque X est une application constante, on dit que
X est certaine. Dans ce cas N(X(Ω)) = 1. Notons X(Ω) = {k}. Alors P(X = k) = 1.
2. Loi uniforme
Définition 3. 12. Notons X(Ω) = {k1 ; . . . ; kn }. X suit une loi uniforme lorsque ∀i ∈ J1; nK,
P(X = ki ) = n1 . On note X ,→ U (X(Ω)).
Exemple 3. 13. On lance un dé bien équilibré. Soit X la v.a. du résultat. Alors X ,→ U (J1; 6K).
3. Loi de Bernoulli
Définition 3. 14. Soit p ∈ [0; 1], notons q = 1 − p. On dit que X suit une loi de Bernoulli de
paramètre p si X(Ω) = {0; 1}, P(X = 0) = q et P(X = 1) = p. On note X ,→ Ber(p).
1
Exemple 3. 15. Un archer a une probabilité 5
de toucher la cible. Il tire une flèche. Soit X la v.a.
du nombre de succès. Alors X ,→ Ber( 15 ).
Définition 3.16. Une épreuve aléatoire est appelée épreuve de Bernoulli lorsqu’elle a deux résultats
possibles : le succès (avec une probabilité p) et l’échec (avec une probabilité q = 1 − p). Lorsqu’on
a une seule épreuve de Bernoulli, la v.a. X du nombre de succès suit Ber(p).
Proposition 3.17. Si X et Y suivent une loi de Bernoulli, alors X.Y suit aussi une loi de Bernoulli.
19
Démonstration :
Puisque X et Y suivent une loi de Bernoulli, alors leur champ est X(Ω) = Y (Ω) = {0; 1}.
Ceci implique XY (Ω) = {0; 1}.
Notons alors p = P(XY = 1). Grâce au théorème 3.6.ii, P(XY = 0) = 1 − p = q.
4. Loi binomiale
Définition 3. 18. Soient n ∈ N∗ , p ∈ [0; 1] et q = 1 − p. X suit une loi binomiale de paramètres n
et p lorsque X(Ω) = J0; nK et ∀k ∈ J0; nK, P(X = k) = nk pk q n−k . On note X ,→ Bin(n; p).
Remarque 3. 19. Lorsque n = 1, on retrouve la loi de Bernoulli Ber(p).
Exemple 3. 20. Un archer a une probabilité 15 de toucher la cible. Il tire trois flèches. Soit X la
v.a. du nombre de succès. Déterminer la distribution de X.
Le champ de X est X(Ω) = J0; 3K.

Pour i ∈ J1; 3K, notons Si (resp. Ri ) l’événement ”la ième flèche touche (resp. rate) la cible”. On
peut modéliser la situation par un diagramme en arbre :
1/5 S3
S2
1/5 4/5 R3
S1
4/5 1/5 S3
5
1/ R2
4/5 R3
•
1/5 S3
4/ S2
5
1/5 4/5 R3
R1
4/5 1/5 S3
R2
4/5 R3
4 3

P(X = 0) = P(R1 ∩ R2 ∩ R3 ) = 5 .
P(X = 1)
= P(S1 ∩ R2 ∩ R3 ) + P(R1 ∩ S2 ∩ R3 ) + P(R1 ∩ R2 ∩ S3 )
2
= 3 × 51 × 45 .
20
P(X = 2)
= P(S1 ∩ S2 ∩ R3 ) + P(S1 ∩ R2 ∩ S3 ) + P(R1 ∩ S2 ∩ S3 )
2
= 3 × 51 × 54 .
3
P(X = 3) = P(S1 ∩ S2 ∩ S3 ) = 51 .
Donc X ,→ Bin(3; 15 ).
III. Espérance et variance d’une variable aléatoire

1. Espérance
Définition 3. 21. Soit X une P v.a.r. sur (Ω; P).
L’espérance de X est E(X) = k∈X(Ω) k.P(X = k).
Si X(Ω) = {k1 ; . . . ; kn }, alors
Xn
E(X) = ki P(X = ki )
i=1
Si E(X) = 0, on dit que la v.a. X est centrée.
Remarque 3. 22. L’espérance de X est une moyenne pondérée des valeurs prises par X.
Exemple 3. 23. On lance un dé bien équilibré. Soit X la v.a. du résultat. Calculer E(X).
X ,→ U (J1; 6K), c-à-d X(Ω) = J1; 6K et ∀i ∈ J1; 6K, P(X = i) = 16 . Donc

6
X 1 21 7
E(X) = i. = = .
i=1
6 6 2
Théorème 3. 24. Si X est une v.a.r. sur (Ω; P), alors

X
E(X) = X(ω)P({ω})
ω∈Ω
Démonstration :
Posons X(Ω) = {k1 ; . . . ; kn }.
Notons Ai = {ω ∈ Ω, X(ω) = ki } = X −1 ({ki }).
Alors X
P(X = ki ) = P(Ai ) = P({ω}).
ω∈Ai
D’où
n
X
E(X) = ki P(X = ki ) (par définition)
i=1
n
!
X X
= ki P({ω})
i=1 ω∈Ai
Xn X
= ki P({ω})
i=1 ω∈Ai
Xn X
= X(ω)P({ω}) (car si ω ∈ Ai , alors ki = X(ω))
i=1 ω∈Ai
21
Or (A1 , . . . , An ) forment un système complet d’événements, donc
X
E(X) = X(ω)P({ω})
ω∈Ω
Exemple 3. 25. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR.
Soit Y la v.a. du montant (en EUR) gagné par le joueur. Calculer l’espérance de Y , en utilisant la
définition, puis en utilisant le théorème 3.24.
• On a vu précédemment que la distribution de Y est :

Y −2 5
1 1
fY 2 2
En utilisant la définition, on obtient donc

E(Y ) = (−2) × 21 + 5 × 21 = 32 .
• Remarquons d’abord que Ω = {P ile; F ace}, donc en utilisant le théorème 3.24,
E(Y ) = Y (P ile)P({P ile}) + Y (F ace)P({F ace})
Or Y (P ile) = −2 et Y (F ace) = 5, donc
E(Y ) = (−2) × 21 + 5 × 21 = 32 .
On constate que le théorème 3.24 permet de calculer l’espérance sans avoir déterminé au préalable
la distribution de la v.a.
Théorème 3. 26. (linéarité de l’espérance)

1. Si X = a est une constante réelle, alors E(X) = a.
2. Si X et Y sont deux v.a.r. définies sur (Ω; P), alors
∀λ ∈ R, E(λX + Y ) = λE(X) + E(Y ).
Démonstration :
1. On utilise le théorème 3.24 :
X
E(X) = X(ω)P({ω})
ω∈Ω
X
= a.P({ω})
ω∈Ω
X
= a P({ω}) = a
ω∈Ω
2. En utilisant le théorème 3.24, on a :

X
E(λX + Y ) = [λX(ω) + Y (ω)]P({ω})
ω∈Ω
" # " #
X X
= λ X(ω)P({ω}) + Y (ω)P({ω})
ω∈Ω ω∈Ω
= λE(X) + E(Y ) (vu le théorème 3.24)
22

Proposition 3. 27. (v.a. centrée)

Si X est une v.a.r., alors X − E(X) est une v.a. centrée (son espérance est nulle). C’est la v.a.
centrée associée à X.
Théorème 3. 28. (positivité de l’espérance)

Si X est une v.a.r. positive ou nulle sur (Ω; P), alors
1) E(X) ≥ 0 (positivité), et
2) E(X) = 0 ⇔ P(X = 0) = 1, on dit alors que X est presque sûrement nulle.
Démonstration :
1) X est positive ou nulle ssi ∀x ∈ X(Ω), on a x ≥ 0.
Dans ce cas, X
E(X) = x.P(X = x)
x∈X(Ω)
est une somme de termes positifs ou nuls, donc

E(X) ≥ 0.
2) Supposons X ≥ 0 telle que E(X) = 0.
Puisque E(X) est une somme nulle de termes positifs ou nuls, alors chaque terme est nul, donc
∀x ∈ X(Ω), x.P(X = x) = 0.
Ceci implique que si x 6= 0, alors P(X = x) = 0.
On a bien sûr : X
P(X = x) = 1.
x∈X(Ω)
Sortons x = 0 de la somme ci-dessus, on en déduit :

X
P(X = 0) + P(X = x) = 1.
x∈X(Ω) et x6=0
Mais on a vu que si x 6= 0, alors P(X = x) = 0, donc

X
P(X = x) = 0.
x∈X(Ω) et x6=0
Nous avons donc démontré que

P(X = 0) = 1.
Théorème 3. 29. (croissance de l’espérance)

Si X et Y sont deux v.a.r. définies sur (Ω; P) telles que X ≤ Y alors E(X) ≤ E(Y ).
23
Démonstration :
X ≤ Y ⇔ Y − X ≥ 0.
Vu le théorème 3.28, on en déduit que E(Y −X) ≥ 0, et vu la linéarité de l’espérance, E(Y )−E(X) ≥
0, c-à-d E(X) ≤ E(Y ).
Théorème 3. 30. (inégalité de Markov)

Pour toute v.a.r. positive X, on a
E(X)
∀a > 0, P(X ≥ a) ≤ .
a
Démonstration :
Soit a > 0 fixé.
Définissons A = {ω ∈ Ω, X(ω) ≥ a} = (X ≥ a).
Grâce au théorème 3.24, X
E(X) = X(ω)P({ω})
ω∈Ω
Dans cette somme, puisque X ≥ 0, tous les termes sont positifs ou nuls, et puisque A ⊂ Ω,
X X
X(ω)P({ω}) ≤ X(ω)P({ω})
ω∈A ω∈Ω
Donc
X
E(X) ≥ X(ω)P({ω})
ω∈A
X
≥ a P({ω}) car si ω ∈ A, alors X(ω) ≥ a
ω∈A
X
≥ a P({ω})
ω∈A
≥ a P(A)
≥ a P(X ≥ a)
E(X)
On a donc montré P(X ≥ a) ≤ a
.
Théorème 3. 31. (de transfert)

Si X est une v.a. sur (Ω; P) et si u est une application de X(Ω) vers R, alors
X
E(u(X)) = u(x).P(X = x)
x∈X(Ω)
24
Démonstration :
Posons X(Ω) = {x1 ; . . . ; xn } et
Ak = X −1 ({xk }) = {ω ∈ Ω, X(ω) = xk } = (X = xk ).
Alors (A1 , . . . , An ) est un système complet d’événements de Ω. Vu le théorème 3.24,
X
E(u(X)) = u(X(ω)).P({ω})
ω∈Ω
n
" #
X X
= u(X(ω)).P({ω})
k=1 ω∈Ak
n
" #
X X
= u(xk ).P({ω}) car ω ∈ Ak ⇒ X(ω) = xk
k=1 ω∈Ak
n
" #
X X
= u(xk ) P({ω})
k=1 ω∈Ak
n
X
= u(xk ).P(Ak )
k=1
n
X
= u(xk ).P(X = xk )
k=1
X
= u(x).P(X = x)
x∈X(Ω)
2. Variance et écart-type
Définition 3. 32. (moments d’une v.a.)
Soit X une v.a.r. et r ∈ N.
On appelle moment d’ordre r de X l’espérance de la v.a. X r , c-à-d
X
E(X r ) = xr .P(X = x).
x∈X(Ω)
On le note parfois mr (X).
Remarque 3. 33. Le moment d’ordre 0 vaut 1, et le moment d’ordre 1 de X est E(X).
Définition 3. 34. (variance, écart-type)

On appelle variance de la v.a.r. X :
V(X) = E [X − E(X)]2

et l’écart-type de X est p
σ(X) = V(X).
Si X(Ω) = {x1 ; . . . ; xn }, alors
n
X
V(X) = (xi − E(X))2 P(X = xi ).
i=1
25
Remarque 3. 35. Ces notions permettent de mesurer la dispersion de X autour de sa valeur
moyenne.
Théorème 3. 36. Soit X une v.a.r. Alors

V(X) = 0 ⇔ P(X = E(X)) = 1.
Dans ce cas, X est presque sûrement constante.
Démonstration :
Ce résultat se déduit directement de la définition de la variance et du théorème 3.28.2.

Théorème 3. 37. (formule de Koenig-Huygens)

Si X est une v.a.r. sur (Ω; P), alors
V(X) = E(X 2 ) − E(X)2 .
Si X(Ω) = {x1 ; . . . ; xn }, alors
" n
#
X
V(X) = x2i .P(X = xi ) − E(X)2 .
i=1
Démonstration :
Posons µ = E(X). Par définition de la variance,
V(X) = E([X − µ]2 )
= E(X 2 − 2µX + µ2 )
= E(X 2 ) − 2µE(X) + E(µ2 ) par linéarité de l’espérance,
= E(X 2 ) − 2µE(X) + µ2 car l’espérance d’une constante est la constante,
= E(X 2 ) − 2µ2 + µ2 car E(X) = µ,
= E(X 2 ) − µ2 .

Remarque 3. 38. Comme nous le verrons par la suite dans la démonstration du théorème 3.41, il
est parfois judicieux de calculer E(X(X − 1)) ou E(X(X + 1)) pour en déduire E(X 2 ).
Théorème 3. 39. (propriétés de la variance)

Soit X une v.a.r. sur (Ω; P), alors
1.
V(X) ≥ 0
2. ∀a, b ∈ R,
V(aX + b) = a2 .V(X)
σ(aX + b) = |a|.σ(X)
3. Inégalité de Bienaymé-Tchebychev :
V(X)
∀ε > 0, P(|X − E(X)| ≥ ε) ≤
ε2
26
Démonstration :
1. Par définition, V(X) = E ([X − E(X)]2 ).
Or [X − E(X)]2 ≥ 0, et en utilisant le théorème 3.28, son espérance est positive ou nulle.
2. On a par linéarité de l’espérance
(aX + b) − E(aX + b) = (aX + b) − (aE(X) + b)
= a(X − E(X))
Donc
V(aX + b) = E([(aX + b) − E(aX + b)]2 ) (par définition)
= E([a(X − E(X))]2 ) (vu ci-dessus)
= E(a2 [X − E(X)]2 )
= a2 .E([X − E(X)]2 ) (par linéarité de l’espérance)
= a2 .V(X) (par définition)
3. Posons Y = [X − E(X)]2 . Alors

P(|X − E(X)| ≥ ε) = P(|X − E(X)|2 ≥ ε2 )
= P(Y ≥ ε2 )
Mais Y ≥ 0, donc Y vérifie l’inégalité de Markov :
E(Y )
∀ε > 0, P(Y ≥ ε2 ) ≤
ε2
Puisque E(Y ) = V(X) et vu l’égalité ci-dessus, on en déduit
V(X)
∀ε > 0, P(|X − E(X)| ≥ ε) ≤
ε2

Définition 3. 40. (v.a. centrée réduite)

Une v.a.r. dont l’écart-type vaut 1 est appelée v.a. réduite.
Soit X une v.a.r. de variance non nulle, la v.a. centrée réduite associée à X est
X − E(X)
X∗ =
σ(X)
On a alors E(X ∗ ) = 0 et σ(X ∗ ) = 1.
3. Cas des lois usuelles

Théorème 3. 41.
a) Si X est une v.a. certaine de valeur a ∈ R, alors E(X) = a et V(X) = 0.
b) Si X suit la loi uniforme sur {x1 ; . . . ; xn }, alors
2
E(X) = n1 (x1 + · · · + xn ). En particulier, si X ,→ U (J1; nK), alors E(X) = n+1
2
et V(X) = n 12−1 .
c) Si X suit une loi de Bernoulli de paramètre p ∈ [0; 1], alors E(X) = p et V(X) = p(1 − p).
d) Si X ,→ Bin(n; p), alors
E(X) = np et V(X) = np(1 − p)
27
Démonstration :
La démonstration des points a), b) et c) est laissée en exercice, avec ce rappel :
n n
X n(n + 1) X n(n + 1)(2n + 1)
k= et k2 =
k=1
2 k=1
6
Démonstration du point d) :
Supposons que X ,→ Bin(n; p).
• Montrons que E(X) = np :
n n
X X n k
E(X) = k.P(X = k) = k p (1 − p)n−k
k=0 k=1
k
n
X n!
= k pk (1 − p)n−k
k (k − 1)!(n − k)!

k=1

n
X (n − 1)!
= n pk (1 − p)n−k
k=1
(k − 1)!((n − 1) − (k − 1))!
n
X n−1
= n pk (1 − p)n−k
k=1
k−1
n−1
X n−1
= n pl+1 (1 − p)n−(l+1)
l=0
l
n−1
X n−1
= np pl (1 − p)n−1−l
l=0
l
= np (p + (1 − p))n−1 (formule du binôme de Newton)
= np
• Montrons que V(X) = np(1 − p) :
E(X(X − 1))
Xn
= k(k − 1).P(X = k)
k=0
n
X n k
= k(k − 1) p (1 − p)n−k
k=2
k
n
X n!
= (k−1)
k
pk (1 − p)n−k
(k−1)(k − 2)!(n − k)!

k=2
k

n
X (n − 2)!
= n(n − 1) pk (1 − p)n−k
k=2
(k − 2)!((n − 2) − (k − 2))!
n−2
(n − 2)!
X
= n(n − 1) pl+2 (1 − p)n−(l+2)
l=0
l!(n − 2 − l)!
n−2
2
X n−2
= n(n − 1)p pl (1 − p)n−2−l
l=0
l
= n(n − 1)p2 (p + (1 − p))n−2
= n(n − 1)p2
28
Par linéarité de l’espérance,
E(X 2 ) = E(X(X − 1)) + E(X) = n(n − 1)p2 + np
Par la formule de Koenig-Huygens,
V(X) = E(X 2 ) − E(X)2 = n(

n − 1)p2 + np −
(np)
2
= np − np2
4. Loi hypergéométrique
C’est le résultat de l’expérience aléatoire suivante :
- on considère N objets (N ∈ N∗ ), dont M (M ∈ N∗ , M < N ) ont une caractéristique A, que l’on
considère comme un succès, et N − M n’ont pas cette caractéristique ;
- on prend simultanément n objets parmi les N (n ∈ N∗ , n < N ) ;
X est la v.a. du nombre de succès, c’est-à-dire le nombre d’objets retirés qui présentent la ca-
ractéristique A.
Alors X suit la loi hypergéométrique de paramètres N, M, n. On note X ,→ H(N ; M ; n).
Exemple 3. 42. 1. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément
4 boules. On note X1 la variable aléatoire du nombre de boules noires retirées. Donner la
distribution de X1 .
On a X1 ,→ H(20; 7; 4). De plus, X1 (Ω) = J0; 4K, et

7 13

k 4−k
∀k ∈ J0; 4K, P(X1 = k) = 20
.
4
2. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément 8 boules. On note
X2 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X2 .
On a X2 ,→ H(20; 7; 8). De plus, X2 (Ω) = J0; 7K, et

7 13

k 8−k
∀k ∈ J0; 7K, P(X2 = k) = 20
.
8
On a X3 ,→ H(20; 7; 15). J’ai retiré 15 boules, dont j’ai retiré au moins 2 boules noires, donc
X3 (Ω) = J2; 7K, et
7
13
k 15−k
∀k ∈ J2; 7K, P(X3 = k) = 20
.
15
On a X4 ,→ H(20; 12; 9). J’ai retiré 9 boules, dont j’ai retiré au moins une boule noire, donc
X4 (Ω) = J1; 9K, et
12
8
k 9−k
∀k ∈ J1; 9K, P(X4 = k) = 20
.
9
29
On admettra les résultats suivants :
Théorème 3. 43. Soient N, M, n ∈ N∗ , M < N, n < N . Alors X ,→ H(N ; M ; n) si et seulement si



 J0; nK si n ≤ M et n ≤ N − M
J0; M K si M < n ≤ N − M

X(Ω) =

 Jn − (N − M ); M K si n > M et n > N − M
Jn − (N − M ); nK si N − M < n ≤ M

ou encore
X(Ω) = Jmax(0; n − (N − M )) ; min(n; M )K
et
M N −M

k n−k
∀k ∈ X(Ω), P(X = k) = N

n
Théorème 3. 44. Soient N, M, n ∈ N∗ , M < N, n < N . Si X ,→ H(N ; M ; n) alors, en posant

p= MN
∈]0; 1[ et q = 1 − p, on a
N −n
E(X) = np et V(X) = npq .
N −1
IV. Couples de variables aléatoires

1. Définitions
Définition 3. 45. (couple de v.a.)
Soit X une v.a. sur (Ω; P) à valeurs dans E,
et soit Y une v.a. sur (Ω; P) à valeurs dans F .
Le couple de v.a. X et Y , ou couple aléatoire (X; Y ), est l’application
(X; Y ) : Ω → E × F : ω → (X(ω); Y (ω))
C’est une v.a. sur (Ω; P).
Définition 3. 46. (loi conjointe)

Soient X : Ω → E et Y : Ω → F deux v.a. sur (Ω; P).
La loi conjointe du couple (X; Y ) est
f(X;Y ) : (X(Ω) × Y (Ω)) → [0; 1]

(x; y) → f(X;Y ) (x; y) = P([X = x] ∩ [Y = y])
Définition 3. 47. (lois marginales)

Si (X; Y ) est un couple de v.a. sur (Ω; P),
les lois de probabilité fX de X et fY de Y sont appelées lois marginales du couple.
30
Remarque 3. 48. Si X(Ω) = {x1 ; . . . ; xn } et Y (Ω) = {y1 ; . . . ; yk },
posons ∀i ∈ J1; nK, ∀j ∈ J1; kK,
pi,j = P([X = xi ] ∩ [Y = yj ]) = f(X;Y ) (xi ; yj ). Alors
1.
n X
X k
pi,j = 1
i=1 j=1
2.
k
X
∀i ∈ J1; nK, pi,j = fX (xi ) = P(X = xi )
j=1
3. n
X
∀j ∈ J1; kK, pi,j = fY (yj ) = P(Y = yj )
i=1
Exemple 3. 49. On lance deux dés bien équilibrés. On note X la v.a. du minimum des résultats et
Y la v.a. du maximum. Déterminer la loi conjointe et les lois marginales.
On a Ω = J1; 6K2 , donc N(Ω) = 36.

X(Ω) = Y (Ω) = J1; 6K.
1
p1,1 = P([X = 1] ∩ [Y = 1]) = P({(1; 1)}) = 36 .
p2,1 = P([X = 2] ∩ [Y = 1]) = 0 impossible, car X ≤ Y .
2
p1,2 = P([X = 1] ∩ [Y = 2]) = P({(2; 1); (1; 2)}) = 36 .
etc. On obtient le tableau suivant :
HH Y
HH
1 2 3 4 5 6 fX
X HH
1 2 2 2 2 2 11
1 36 36 36 36 36 36 36
1 2 2 2 2 9
2 0 36 36 36 36 36 36
1 2 2 2 7
3 0 0 36 36 36 36 36
1 2 2 5
4 0 0 0 36 36 36 36
1 2 3
5 0 0 0 0 36 36 36
1 1
6 0 0 0 0 0 36 36
1 3 5 7 9 11
fY 36 36 36 36 36 36
1
Définition 3. 50. (lois conditionnelles)

Soient X : Ω → E et Y : Ω → F deux v.a. sur (Ω; P).
Pour y ∈ Y (Ω), on appelle loi conditionnelle de X sachant (Y = y) l’application de X(Ω) dans [0; 1]
qui à x ∈ X(Ω) associe
fX|(Y =y) (x) = P(Y =y) (X = x)

= P(X = x|Y = y)
P([X = x] ∩ [Y = y]
=
P(Y = y)
31
De même, pour x ∈ X(Ω), on appelle loi conditionnelle de Y sachant (X = x) l’application de Y (Ω)
dans [0; 1] qui à y ∈ Y (Ω) associe
fY |(X=x) (y) = P(X=x) (Y = y)

= P(Y = y|X = x)
P([X = x] ∩ [Y = y]
=
P(X = x)
Exemple 3. 51. En reprenant l’exemple précédent, la loi de X sachant (Y = 4) est donnée par
X 1 2 3 4 5 6
fX|(Y =4) 27 27 27 17 0 0
Proposition 3. 52. Si (X; Y ) est un couple de v.a. sur (Ω; P),

et si ∀x ∈ X(Ω), P(X = x) 6= 0,
et si ∀y ∈ Y (Ω), P(Y = y) 6= 0, alors
X
P(X = x) = P(Y = y).P(X = x|Y = y)
y∈Y (Ω)
X
et P(Y = y) = P(X = x).P(Y = y|X = x).
x∈X(Ω)
Démonstration :
laissée en exercice, elle se déduit de la formule des probabilités totales.
Définition 3. 53. (vecteurs aléatoires)

Soient X1 , . . . , Xn des v.a. sur (Ω; P) à valeurs dans E1 , . . . , En respectivement.
Le vecteur aléatoire Z = (X1 ; . . . ; Xn ) est l’application
Z : Ω → E1 × · · · × En : ω → Z(ω) = (X1 (ω); . . . ; Xn (ω)).
La loi conjointe du vecteur Z est la loi de probabilité de la v.a. Z, c-à-d ∀x1 ∈ X1 (Ω), . . . , ∀xn ∈
Xn (Ω),
fZ (x1 ; . . . ; xn ) = f(X1 ;...;Xn ) (x1 ; . . . ; xn )

= P([X1 = x1 ] ∩ · · · ∩ [Xn = xn ])
Les lois des v.a. X1 , . . . , Xn sont appelées lois marginales du vecteur Z.
Proposition 3. 54. (fonction de deux v.a.)

Soient X et Y deux v.a. sur (Ω; P)
et u : X(Ω) × Y (Ω) → E. Alors ∀z ∈ E,
X
P(u(X; Y ) = z) = P([X = x] ∩ [Y = y])
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. u(x, y) = z
32
Remarque 3. 55. Si X et Y sont deux v.a.r. sur le même espace probabilisé (Ω; P), on peut donc
définir les lois de X + Y et X.Y : ∀z ∈ R,
i) X
P(X + Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. x + y = z
ii) X
P(X.Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. xy = z
Exemple 3. 56. Une urne contient n boules numérotées de 1 à n. On retire successivement et

avec remise deux boules de l’urne. Notons Ul (l = 1; 2), la v.a. du résultat de la l-ième boule et
X = U1 − U2 . Déterminer les lois de U1 , U2 et X.
• Les lois de U1 et U2 sont uniformes :

∀l ∈ J1; 2K, Ul (Ω) = J1; nK et ∀i ∈ J1; nK, P(Ul = i) = n1 .
• Le champ de X est X(Ω) = J−(n − 1); (n − 1)K.
Soit k ∈ X(Ω). X
P(X = k) = P(U1 = i ∩ U2 = j)
1≤i≤n
1≤j≤n
i−j =k
Calculons P(U1 = i ∩ U2 = j), ∀i, j ∈ J1; nK.
On a équiprobabilité. Or, N(Ω) = n2 , et
N(U1 = i ∩ U2 = j) = 1, donc
P(U1 = i ∩ U2 = j) = n12 . Donc
X 1
P(X = k) = .
n2
1≤i≤n
1≤j≤n
i−j =k
Combien y a-t-il de termes dans la somme ?
(1 ≤ i ≤ n) et (1 ≤ j ≤ n) et (i − j = k)
ssi (1 ≤ i ≤ n) et (1 ≤ j ≤ n) et (i = j + k)
ssi (1 ≤ j + k ≤ n) et (1 ≤ j ≤ n)
ssi (1 − k ≤ j ≤ n − k) et (1 ≤ j ≤ n)
ssi max(1 − k; 1) ≤ j ≤ min(n − k; n)
Il y a donc min(n − k; n) − max(1 − k; 1) + 1 termes.
Si k ≥ 0, alors max(1 − k; 1) = 1 et min(n − k; n) = n − k,
il y a donc (n − k) − 1 + 1 = n − k termes.
33
Si k < 0, alors max(1 − k; 1) = 1 − k et min(n − k; n) = n,
il y a donc n − (1 − k) + 1 = n + k termes.
On a donc montré que n−k
n2
si k ≥ 0
P(X = k) = n+k
n2
sinon
Vous vérifierez en exercice que
n−1
X
P(X = k) = 1.
k=−(n−1)
On peut généraliser le théorème de transfert à un couple de v.a. :

Théorème 3. 57. (de transfert pour les couples aléatoires)
Soient X et Y deux v.a. sur (Ω; P)
et u : X(Ω) × Y (Ω) → R. Alors
X X
E(u(X; Y )) = u(x, y)P([X = x] ∩ [Y = y])
x∈X(Ω) y∈Y (Ω)
Remarque 3. 58. On a également un théorème analogue dans le cas de n v.a.
2. Indépendance des variables aléatoires

Définition 3. 59. (v.a. indépendantes)
Soient X et Y deux v.a. sur (Ω; P).
On dit que X et Y sont indépendantes lorsque
∀A ⊂ X(Ω), ∀B ⊂ Y (Ω),
P([X ∈ A] ∩ [Y ∈ B]) = P(X ∈ A).P(Y ∈ B)
c-à-d ∀A ⊂ X(Ω), ∀B ⊂ Y (Ω), les événements (X ∈ A) et (Y ∈ B) sont indépendants.
Théorème 3. 60. Deux v.a. X et Y sur (Ω; P) sont indépendantes si et seulement si
∀x ∈ X(Ω), ∀y ∈ Y (Ω), P([X = x] ∩ [Y = y]) = P(X = x).P(Y = y)
c-à-d ssi ∀x ∈ X(Ω), ∀y ∈ Y (Ω), f(X;Y ) (x; y) = fX (x).fY (y)
Remarque 3. 61. Vu le théorème 3.60, lorsque X et Y sont deux v.a. indépendantes sur (Ω; P), la
connaissance des deux lois marginales fX et fY permet de reconstituer la loi conjointe f(X;Y ) .
Exemple 3. 62. Dans l’exemple 3.49, X et Y ne sont pas indépendantes car

9 1
0 = P([X = 2] ∩ [Y = 1]) 6= P(X = 2).P(Y = 1) = ×
36 36
34
Théorème 3. 63. (indépendance de fonctions de v.a.)
Soient X et Y deux v.a. indépendantes sur (Ω; P),
si f est une application définie sur X(Ω) et si g est une application définie sur Y (Ω), alors les v.a.
f (X) et g(Y ) sont indépendantes.
Définition 3. 64. (indépendance de n v.a.)

Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P) à valeurs dans E1 × · · · × En . On dit que ces n v.a.
sont :
• deux à deux indépendantes lorsque ∀(i, j) ∈ J1; nK2 , i 6= j ⇒ Xi et Xj sont indépendantes ;
• mutuellement indépendantes lorsque
∀(x1 ; . . . ; xn ) ∈ X1 (Ω) × · · · × Xn (Ω), les événements (X1 = x1 ), . . . , (Xn = xn ) sont mutuellement
indépendants.
Théorème 3. 65. Soient X1 , . . . , Xn des v.a. sur (Ω; P) mutuellement indépendantes. Alors
• ∀k ∈ J2; n − 1K, les v.a. Y = (X1 ; . . . ; Xk ) et Z = (Xk+1 ; . . . ; Xn ) sont indépendantes ; et
• ∀k ∈ J2; n − 1K, si f est une fonction à k variables et g une fonction à (n − k) variables, alors
f (X1 ; . . . ; Xk ) et g(Xk+1 ; . . . ; Xn ) sont indépendantes.
Remarque 3. 66. Le résultat ci-dessus se généralise au cas où on partage l’ensemble des n v.a. en
plus de deux parties, on remplace alors ”indépendantes” par ”mutuellement indépendantes” dans
les conclusions.
Par exemple, si X, Y, Z et T sont quatre v.a. mutuellement indépendantes, alors :
• XY et ZT sont deux v.a. indépendantes, et
• X, Y + Z et T 2 sont trois v.a. mutuellement indépendantes.
3. Applications de l’indépendance
Théorème 3. 67. Si X1 , . . . , Xn sont n v.a. sur (Ω; P) qui suivent toutes la même loi de Bernoulli
Ber(p) et sont mutuellement indépendantes, alors X = X1 +· · ·+Xn suit la loi binomiale Bin(n; p).
Démonstration :
Si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors Xi (Ω) = {0, 1}.
Ceci implique que leur somme X(Ω) = J0; nK.
Soit k ∈ J0; nK fixé.
On a (X = k) ssi exactement k parmi les v.a. X1 , . . . , Xn sont égales à 1.
Il y a Ckn = nk façons de choisir ces k v.a. qui sont égales à 1 (les autres sont égales à 0).
Notons Xi1 , . . . , Xik les k v.a. qui sont égales à 1, et Xik+1 , . . . , Xin les v.a. qui sont égales à 0.
Puisque les (Xi ) sont mutuellement indépendantes, on a :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= P(Xi1 = 1) . . . P(Xik = 1).P(Xik+1 = 0) . . . P(Xin = 0)
Or ∀i ∈ J1; nK, Xi ,→ Ber(p), donc P(Xi = 1) = p et P(Xi = 0) = 1 − p.
Nous en déduisons donc :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= pk .(1 − p)n−k
a nk façons de choisir Xi1 , . . . , Xik , finalement,

Mais puisqu’il y
P(X = k) = nk pk (1 − p)n−k

On a donc démontré que X ,→ Bin(n; p).
35

Remarque 3. 68. Ce théorème est cohérent avec les calculs de l’espérance dans le théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors E(Xi ) = p.
Par linéarité de l’espérance, si X = X1 + · · · + Xn ,
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = n.p,
c’est ce que nous avions démontré pour la loi binomiale.
4. Espérance d’un couple aléatoire

Définition 3. 69. (espérance d’un couple aléatoire)
Soient X et Y deux v.a.r. sur (Ω; P), formant un couple aléatoire (X; Y ). Son espérance E(X; Y )
est définie par X X
E(X; Y ) = x.y.P([X = x] ∩ [Y = y])
Théorème 3. 70. (espérance du couple=espérance du produit)

Soient X et Y deux v.a.r. sur (Ω; P). Alors
E(X; Y ) = E(X.Y )
Démonstration :
On utilise le théorème de transfert pour les couples de v.a. avec la fonction u(X; Y ) = X.Y .
Exemple 3. 71. Calculons E(X; Y ) pour l’exemple 3.49.
E(X; Y )
1 2 2 2 2 2
= 1×1× +1×2× +1×3× +1×4× +1×5× +1×6×
36 36 36 36 36 36
1 2 2 2 2
+ 2×1×0+2×2× +2×3× +2×4× +2×5× +2×6×
36 36 36 36 36
1 2 2 2
+ 3×1×0+3×2×0+3×3× +3×4× +3×5× +3×6×
36 36 36 36
1 2 2
+ 4×1×0+4×2×0+4×3×0+4×4× +4×5× +4×6×
36 36 36
1 2
+ 5×1×0+5×2×0+5×3×0+5×4×0+5×5× +5×6×
36 36
1
+ 6×1×0+6×2×0+6×3×0+6×4×0+6×5×0+6×6×
36
= 441/36 = 49/4.
Théorème 3. 72. Soit (X; Y ) un couple de v.a.r. sur (Ω; P).

1. Si X et Y sont indépendantes, alors
E(X; Y ) = E(X).E(Y )
2. La réciproque est fausse.
36
Démonstration :
1. La démonstration est laissée en exercice. On utilisera le théorème 3.60.
2. Un contre-exemple est donné dans l’exemple 3.73 ci-dessous.
Exemple 3. 73. Soit X ,→ U ({−1; 0; 1}) et Y la variable indicatrice de l’événement (X = 0).

Écrire la loi conjointe de (X; Y ). Montrer que E(X; Y ) = E(X).E(Y ) mais que X et Y ne sont pas
indépendantes.
Pour rappel, Y variable indicatrice de l’événement (X = 0) signifie que Y (Ω) = {0; 1} et que Y = 1
ssi X = 0. Les événements (X = −1) ∩ (Y = 1), (X = 0) ∩ (Y = 0) et (X = 1) ∩ (Y = 1) sont donc
impossibles.
D’autre part, X ,→ U ({−1; 0; 1}), donc la loi marginale fX est donnée par le tableau :
X −1 0 1
fX 1/3 1/3 1/3
On calcule E(X) = (−1) × 13 + 0 × 31 + 1 × 13 = 0.
Nous pouvons donc déjà remplir certaines cases du tableau donnant la loi conjointe :
H
HH X
-1 0 1 fY
Y H
HH
0 0
1 0 0
fX 1/3 1/3 1/3 1
On remplira le tableau en exercice.
On peut donc calculer E(X; Y ), on obtient
E(X; Y ) = 0.
Nous avons donc établi que E(X; Y ) = E(X).E(Y ).
Cependant, X et Y ne sont pas indépendantes,
car P([X = −1] ∩ [Y = 1]) = 0,
mais P(X = −1).P(Y = 1) 6= 0.
Lorsque nous avons n v.a.r., nous pouvons généraliser la notion d’espérance d’un couple aléatoire à
un vecteur aléatoire :
Définition 3. 74. (espérance d’un vecteur aléatoire)

Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P).
Son espérance E(X1 ; . . . ; Xn ) est définie par
E(X1 ; . . . ; Xn )
X X
= ... x1 . . . xn .P([X1 = x1 ] ∩ · · · ∩ [Xn = xn ])
x1 ∈X1 (Ω) xn ∈Xn (Ω)
= E(X1 . . . Xn )
Théorème 3. 75. Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P).

Si X1 , . . . , Xn sont mutuellement indépendantes, alors
E(X1 ; . . . ; Xn ) = E(X1 ) . . . E(Xn )
La réciproque est fausse.
37
5. Covariance et corrélation
Définition 3. 76. (covariance)
Soient X et Y deux v.a.r. sur (Ω; P).
On appelle covariance de X et Y le réel
Cov(X; Y ) = E(X − E(X); Y − E(Y ))
Lorsque Cov(X; Y ) = 0, on dit que X et Y sont non corrélées ou décorrélées.
Théorème 3. 77. (propriétés de la covariance)

Soient X, Y et Z trois v.a.r. sur (Ω; P). Alors
1. Cov(X; Y ) = E(X; Y ) − E(X).E(Y )
2. Cov(X; X) = V(X)
3. Cov(X; Y ) = Cov(Y ; X) (symétrie)
4. ∀a ∈ R, Cov(aX + Y ; Z) = a Cov(X; Z) + Cov(Y ; Z) (bilinéarité)
5. V(X + Y ) = V(X) + V(Y ) + 2 Cov(X; Y )
6. Si X et Y sont indépendantes, alors Cov(X; Y ) = 0, mais la réciproque est fausse.
Démonstration :
1. Notons µX = E(X) et µY = E(Y ). Grâce aux propriétés de l’espérance,
Cov(X; Y ) = E(X − µX ; Y − µY )
= E((X − µX ).(Y − µY ))
= E(XY − µX Y − µY X + µX µY )
= E(XY ) − µX E(Y ) − µY E(X) + µX µY
= E(XY ) − µX µY − µY µX + µX µY
= E(X; Y ) − µX µY
2. Cette propriété se déduit du point précédent et de la formule de Koenig-Huygens, en remarquant
que E(X; X) = E(X 2 ).
3. Cette propriété se déduit du fait que E(X; Y ) = E(XY ) = E(Y X) = E(Y ; X).
4. Vu la première propriété et les propriétés de l’espérance,
Cov(aX + Y ; Z)
= E((aX + Y )Z) − E(aX + Y )E(Z)
= E(aXZ + Y Z) − (aE(X) + E(Y ))E(Z)
= aE(XZ) + E(Y Z) − aE(X)E(Z) − E(Y )E(Z)
= a[E(X; Z) − E(X)E(Z)] + [E(Y ; Z) − E(Y )E(Z)]
= a Cov(X; Z) + Cov(Y ; Z)
5. Cette propriété se déduit aisément des trois propriétés précédentes (laissé en exercice).
6. Cette propriété se déduit de la première propriété et du théorème 3.72.

Théorème 3. 78. (variance et indépendance) Si X et Y sont deux v.a.r. indépendantes sur (Ω; P),
alors
V(X + Y ) = V(X) + V(Y )
La réciproque est fausse.
38
Démonstration :
Ce théorème se déduit directement des propriétés de la covariance.

Théorème 3. 79. Si X1 , . . . , Xn sont n v.a.r. sur (Ω; P), alors

n
X X
V(X1 + · · · + Xn ) = V(Xi ) + 2 Cov(Xi ; Xj )
i=1 1≤i<j≤n
De plus si (X1 , . . . , Xn ) sont deux à deux indépendantes, alors

n
X
V(X1 + · · · + Xn ) = V(Xi )
i=1
Démonstration :
La première formule se démontre par récurrence sur n en utilisant les propriétés de la covariance.
La deuxième formule se déduit de la première grâce à la dernière propriété de la covariance. La
démonstration détaillée est laissée en exercice.
Remarque 3. 80. Les théorèmes 3.67 et 3.79 sont cohérents avec les calculs de la variance dans le
théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors V(Xi ) = p(1 − p).
Si les Xi sont mutuellement indépendants, alors ils sont deux à deux indépendants, et vu le théorème
précédent, si X = X1 + · · · + Xn ,
V(X) = V(X1 + · · · + Xn )
= V(X1 ) + · · · + V(Xn ) = np(1 − p).
C’est ce que nous avions calculé dans le théorème 3.41, puisque vu le théorème 3.79, X ,→ Bin(n; p).
Définition 3. 81. (corrélation)

Le coefficient de corrélation linéaire entre deux v.a.r. X et Y définies sur (Ω; P), de variance non
nulle, est :
Cov(X; Y )
ρ(X; Y ) =
σ(X)σ(Y )
6. Indépendance et décorrélation
Proposition 3. 82. Soient X et Y deux v.a.r. définies sur (Ω; P). Si X et Y sont indépendantes,
alors X et Y sont décorrélées : Cov(X; Y ) = ρ(X; Y ) = 0.
Remarque 3.83. L’indépendance est une hypothèse plus forte que la décorrélation, car l’indépendance
entraı̂ne la décorrélation. La réciproque est fausse en général, excepté dans le cas de v.a. de Bernoulli,
comme on le montre dans la proposition suivante :
Proposition 3. 84. Deux variables de Bernoulli sont indépendantes si et seulement si elles sont
décorrélées.
39
Démonstration :
On a vu que l’indépendance entraı̂ne la décorrélation. Montrons que la réciproque est vraie dans le
cas des variables de Bernoulli. Supposons que
X ,→ Ber(p1 ) et Y ,→ Ber(p2 ), avec p1 , p2 ∈ [0; 1], vérifient Cov(X; Y ) = 0. On a X(Ω) = Y (Ω) =
{0; 1}, donc
X X
E(X; Y ) = xy P([X = x] ∩ [Y = y])
= P([X = 1] ∩ [Y = 1])
D’autre part, Cov(X; Y ) = 0 ⇒ E(X; Y ) = E(X).E(Y ).

Mais on a vu que l’espérance d’une variable de Bernoulli est égale à son paramètre, donc E(X) = p1
et E(Y ) = p2 . Donc
E(X; Y ) = E(X).E(Y ) = p1 .p2 = P(X = 1).P(Y = 1).
Nous avons donc démontré que
P([X = 1] ∩ [Y = 1]) = P(X = 1).P(Y = 1).
Donc les événements (X = 1) et (Y = 1) sont indépendants.
Grâce au théorème 2.36, on en déduit que
• (X = 1) et {(Y = 1) = (Y = 0) sont indépendants,
• {(X = 1) = (X = 0) et (Y = 1) sont indépendants,
• {(X = 1) = (X = 0) et {(Y = 1) = (Y = 0) sont indépendants.
Vu le théorème 3.60, on en conclut que X et Y sont indépendantes.

7. Propriétés du coefficient de corrélation linéaire

Proposition 3. 85. (Propriétés du coefficient de corrélation)
Soient X et Y deux v.a.r. définies sur (Ω; P) de variance non nulle.
1. Le coefficient de corrélation prend ses valeurs dans l’intervalle [−1; 1] :
|ρ(X; Y )| ≤ 1.
2. X et Y sont presque sûrement liées par une relation affine, c-à-d ∃a, b ∈ R, P(Y = aX + b) = 1,
si et seulement si |ρ(X; Y )| = 1.
Démonstration :
1. Vu les propriétés de la covariance, il est aisé de démontrer que ∀x ∈ R,
V(Y − xX) = Cov(Y − xX; Y − xX)

= Cov(Y ; Y ) − 2xCov(X; Y ) + x2 Cov(X; X)
= V(Y ) − 2xCov(X; Y ) + x2 V(X)
Posons A = V(X), B = Cov(X; Y ) et C = V(Y ).

On a V(Y − xX) = Ax2 − 2Bx + C
Puisque la variance est toujours positive ou nulle, A et C sont positifs ou nuls. De plus, le
polynôme
Ax2 − 2Bx + C ≥ 0, ∀x ∈ R
40
Donc ce polynôme ne peut pas avoir deux racines réelles distinctes. Son discriminant ∆ est donc
négatif ou nul :
∆ = 4B 2 − 4AC ≤ 0
Donc B 2 ≤ AC,
√ √
donc |B| ≤ A C,
c-à-d |Cov(X; Y )| ≤ σ(X)σ(Y ),
d’où |ρ(X; Y )| ≤ 1.
2. En reprenant les mêmes notations,
|ρ(X; Y )| = 1
√ √
⇔ |B| = A C
⇔ ∆=0
⇔ le polynôme Ax2 − 2Bx + C admet une racine.
Donc
|ρ(X; Y )| = 1 ⇔ ∃a ∈ R, V(Y − aX) = 0. (2)
• Supposons |ρ(X; Y )| = 1.
Vu (2), ∃a ∈ R, V(Y − aX) = 0.
Posons b = E(Y − aX).
Par le théorème 3.36, puisque V(Y − aX) = 0, on a P(Y − aX = b) = 1.
Nous avons donc montré qu’il existe a ∈ R et b ∈ R tels que P(Y = aX + b) = 1.
• Supposons ∃a, b ∈ R, P(Y = aX + b) = 1.
Alors P(Y − aX − b = 0) = 1.
Par le théorème 3.28.2, on en déduit E(Y − aX − b) = 0, et par linéarité de l’espérance,
E(Y − aX) − b = 0, donc b = E(Y − aX). Posons Z = Y − aX. On a montré b = E(Z). On a
Y = aX + b ⇐⇒ Y − aX = b ⇐⇒ Z = E(Z)
Donc P(Z = E(Z)) = P(Y = aX + b) = 1.

Par le théorème 3.36, on en déduit que V(Z) = 0, c’est-à-dire V(Y − aX) = 0.
Vu (2), |ρ(X; Y )| = 1.
8. Régression linéaire
Soient X et Y deux v.a.r. définies sur (Ω; P), de variance non nulle.
Le but est de déterminer a et b réels tels que
E([Y − aX − b]2 ) est minimale.
Grâce à la formule de Koenig-Huygens, pour toute v.a.r. Z, V(Z) = E(Z 2 ) − E(Z)2 , donc E(Z 2 ) =
V(Z) + E(Z)2 .
Appliquons ceci avec Z = Y − aX − b :
E([Y − aX − b]2 ) = V(Y − aX − b) + E(Y − aX − b)2 .
Les deux termes de la somme du membre de droite sont positifs ou nuls. On va donc chercher deux
réels a et b qui minimisent chacun de ces deux termes.
41
• En utilisant les propriétés de la variance et de la covariance,
V(Y − aX − b) = V(Y − aX)

= Cov(Y − aX; Y − aX)
= V(Y ) − 2aCov(X; Y ) + a2 V(X)
1
= [a2 V(X)2 − 2aCov(X; Y )V(X) + Cov(X; Y )2 ]
V(X)
Cov(X; Y )2
− + V(Y )
V(X)
1 V(X)V(Y ) − Cov(X; Y )2
= [aV(X) − Cov(X; Y )]2 +
V(X) V(X)
Les deux termes de cette somme sont positifs ou nuls. Pour minimiser cette expression, on choisira
)
donc a de sorte que aV(X) − Cov(X; Y ) = 0, donc a = Cov(X;Y
V(X)
.
• L’autre terme de la somme est E(Y − aX − b)2 . Il est minimum s’il est nul. Nous allons donc choisir
b de sorte que E(Y − aX − b) = 0. Vu la linéarité de l’espérance, cette égalité est équivalente à
E(Y ) − aE(X) − b = 0. Donc b = E(Y ) − aE(X).
Les valeurs de a et b qui donnent la meilleure expression linéaire de Y en fonction de X sont donc
Cov(X; Y )
a =
V(X)
Cov(X; Y )
b = E(Y ) − E(X)
V(X)
On dit que ces valeurs de a et b réalisent une régression linéaire.
9. Moyenne empirique. Variance empirique.

Définition 3. 86. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
Leur moyenne empirique est définie par
n
1X
Xn = Xi
n i=1
Proposition 3. 87. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 . L’espérance et
la variance de leur moyenne empirique Xn sont
σ2
E(Xn ) = µ et V(Xn ) =
n
Démonstration :
Vu la linéarité de l’espérance,
n n
!
1X 1 X
E(Xn ) = E(Xi ) = µ =µ
n i=1 n i=1
42
On a vu que ∀a ∈ R, V(aX) = a2 V(X). Donc
n
!
1 X
V(Xn ) = 2 V Xi
n i=1
Par le théorème 3.79, puisque (X1 , . . . , Xn ) sont deux à deux indépendantes,

n
! n n
X X X
V Xi = V(Xi ) = σ 2 = n.σ 2
i=1 i=1 i=1
Nous avons donc montré que

1 2 σ2
V(Xn ) = n.σ =
n2 n

Définition 3. 88. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
La variance empirique de (X1 , . . . , Xn ) est définie par
n
1X
Vn = (Xi − Xn )2
n i=1
Leur variance empirique Vn vérifie :
n
!
1X 2 2
Vn = Xi − Xn (3)
n i=1
Démonstration :
n
1X
Vn = (Xi − Xn )2
n i=1
n
1X 2 2
= (Xi − 2Xn Xi + Xn )
n i=1
n
! n
! n
!
1X 2 1X 2 1X
= Xi − 2Xn Xi + Xn 1
n i=1 n i=1 n i=1
n
!
1X 2 2
= Xi − 2Xn .Xn + Xn
n i=1
n
!
1X 2 2
= Xi − X n
n i=1
43
L’espérance de leur variance empirique Vn est donnée par
n−1 2
E(Vn ) = σ
n
Démonstration :
Nous venons de démontrer que !
n
1X 2 2
Vn = X − Xn .
n i=1 i
Puisque l’espérance est linéaire, on en déduit
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1
2
Nous allons donc calculer d’abord E(Xi2 ), puis E(Xn ).
Pour le calcul de E(Xi2 ), nous utilisons la formule de Koenig-Huygens :
σ 2 = V(Xi ) = E(Xi2 ) − E(Xi )2 = E(Xi2 ) − µ2
Donc E(Xi2 ) = σ 2 + µ2 .
2
Nous raisonnons de la même manière pour calculer E(Xn ), en utilisant la proposition ci-dessus.
σ2 2 2
= V(Xn ) = E(Xn ) − E(Xn )2 = E(Xn ) − µ2
n
2 2
donc E(Xn ) = σn + µ2 .
Nous avons donc obtenu :
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1
n
!
σ2

1X 2
= (σ + µ2 ) − + µ2
n i=1 n
σ2
= σ 2 + µ2 − − µ2
n
n−1 2
= σ
n

44

1A Proba 2023 24

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

1A Proba 2023 24

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités

Chapitre 1 - Rappels d’analyse combinatoire

Théorème 1.2.2 : ∀n ∈ N, P (n) = n!

Exemple 1.3.2 : On a 10 candidats, et on veut former un comité avec un président, un secrétaire

5. Permutations avec répétitions

Théorème 1.6.4 : Soit E un ensemble de n éléments. Alors P(E) comprend 2n éléments.

7. Théorie des ensembles

2) Si A ⊂ B, on dit que A est une partie de B.

On a toujours : ∅ ∈ P(B) (où ∅ est l’ensemble vide) et B ∈ P(B).

Propriétés 1.7.2 (distributivité) : Soient A, B, C trois ensembles.

Propriétés 1.7.3 : Soient A et B deux parties d’un ensemble E.

8. Cardinal d’un ensemble fini

Théorème 1.8.2 : Soient A et B deux ensembles finis.

Exemple 2. 2. Épreuve aléatoire : on lance un dé à 6 faces numérotées de 1 à 6.

Exemple 2. 5. Épreuve aléatoire : on lance un dé.

Définition 2. 6. Soient A et B deux événements d’un univers Ω.

Exemple 2. 7. Tout événement est incompatible avec son événement contraire.

Définition 2. 8. (Système complet d’événements)

Remarque 2. 9. Une partition de Ω forme un système complet d’événements.

II. Espaces probabilisés

Exemple 2. 12. On lance un dé bien équilibré.

(A1 ∪ A2 ) ∩ A3 = (A1 ∩ A3 ) ∪ (A2 ∩ A3 )

Puisque P est additive, on en déduit

Exercice 2. 15. (Inégalité de Boole)

2. Pour tout événement B,

On utilise ensuite le théorème 2.14 :

3. Probabilité des événements élémentaires

Théorème 2. 17. Soit Ω = {x1 , . . . , xn } un univers fini.

Remarque : ”la probabilité d’obtenir la face k est proportionnelle à k” signifie que

Théorème 2. 20. (équiprobabilité)

Ω = J1; 6K × · · · × J1; 6K = J1; 6K6 . Donc N(Ω) = 66 .

L’univers est Ω = {F ace; P ile} × {F ace; P ile}.

2. Soit C l’événement ”au moins un des 2 lancers est face”.

P(N1 ∩ N2 ) = P(N1 ).PN1 (N2 )

Théorème 2. 29. (formule des probabilités composées)

3. Formule des probabilités totales

Exemple 2. 32. On a 6 urnes numérotées de 1 à 6. L’urne k contient k boules blanches et (6 − k)

Notons Dk l’événement ”le résultat du dé est k” (k = 1; . . . ; 6).

Théorème 2. 36. Si A et B sont deux événements indépendants, alors

P(A ∩ {B) = P(A) − P(A).P(B)

A et {B sont donc indépendants.

2. Indépendance d’une famille d’événements

• On dit que ces événements sont mutuellement indépendants si

• On établit facilement que :

Définition 3. 3. (variable indicatrice d’un événement)

est appelée variable indicatrice de A.

Notations : (événements liés à une v.a.)

Théorème 3. 6. Soit X une v.a. sur (Ω; P) de loi fX .

En particulier, si X(Ω) = {k1 ; . . . ; kn }, alors

3. Image d’une variable aléatoire par une fonction

P(Y = β) = P({ω ∈ Ω, Y (ω) = β})

Remarque 3. 9. si X est une v.a.r. et a ∈ R∗ , on peut définir aX :

Exemple 3. 10. Soit la v.a. X dont la distribution est

La distribution de |X| est

II. Lois usuelles

Remarque 3. 19. Lorsque n = 1, on retrouve la loi de Bernoulli Ber(p).

Le champ de X est X(Ω) = J0; 3K.

III. Espérance et variance d’une variable aléatoire

X ,→ U (J1; 6K), c-à-d X(Ω) = J1; 6K et ∀i ∈ J1; 6K, P(X = i) = 16 . Donc

Théorème 3. 24. Si X est une v.a.r. sur (Ω; P), alors

• On a vu précédemment que la distribution de Y est :

En utilisant la définition, on obtient donc

Théorème 3. 26. (linéarité de l’espérance)

V(X) = E(X 2 ) − E(X)2 = n(