Vous êtes sur la page 1sur 44

Probabilités

Chapitre 1 - Rappels d’analyse combinatoire


1. Principe de la multiplication
Énoncé 1.1.1 : S’il existe m façons d’obtenir un résultat A et si A ayant été obtenu, il existe n
façons d’obtenir un résultat B, alors il existe m.n façons d’obtenir A et B.

Exemple 1.2.1 : De combien de façons peut-on asseoir 5 personnes sur 5 chaises numérotées ?
Solution :
La première personne entre et choisit une chaise, elle a 5 choix possibles.
La deuxième personne entre et choisit une chaise, il n’y en a plus que 4 qui sont libres, elle n’a donc
plus que 4 choix possibles.
Par le principe de la multiplication, il y a 5*4 façons d’asseoir les deux premières personnes.
La troisième personne entre et choisit une chaise, il en reste 3, elle a 3 choix possibles.
Par le principe de la multiplication, il y a (5*4)*3 façons d’asseoir les trois premières personnes.
etc.
La réponse est donc 5*4*3*2*1=120.

2. Permutations
Définition 1.2.1 : Le nombre de façons de placer n objets différents dans n cases différentes,
sachant que chaque case doit recevoir un et un seul objet, est appelé nombre de permutations de n
objets et noté P (n).

Théorème 1.2.2 : ∀n ∈ N, P (n) = n!

3. Arrangements
Définition 1.3.1 : Soit B un ensemble de r éléments, et soit C un ensemble de n éléments,
avec r ≤ n. Le nombre de façons d’associer à chaque élément de B un et un seul élément de C
sans répétition (c-à-d on utilise une fois ou zéro fois chaque élément de C), est appelé nombre
d’arrangements de r dans n, et noté Anr .

Exemple 1.3.2 : On a 10 candidats, et on veut former un comité avec un président, un secrétaire


et un trésorier. Combien peut-on former de comités différents ?
Solution :
Pour le poste de président, on a 10 candidats, donc 10 choix possibles.
Pour le poste de secrétaire, il reste 9 candidats, donc 9 choix possibles.
Pour le poste de trésorier, il reste 8 candidats, donc 8 choix possibles.
Par le principe de la multiplication, on peut donc former 10*9*8=720 comités différents.

Théorème 1.3.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,
n!
Anr =
(n − r)!

1
4. Combinaisons
Définition 1.4.1 : Soit A un ensemble de n objets distincts. Le nombre de façons de choisir r
éléments (r ≤ n) parmi les n éléments de A sans répétition (c-à-d on choisit une fois ou zéro fois
chaque élément de A) est appelé nombre de combinaisons de r dans n et noté Crn .

Exemple 1.4.2 : On a une classe de 10 élèves, dont 3 doivent aller visiter une usine. Combien de
manières d’en choisir 3 parmi 10 ?
Solution :
Si nous raisonnons comme dans l’exemple précédent, en appliquant le principe de la multiplication,
nous obtenons 10*9*8. Cependant, on remarque que si on a choisi Arthur en premier, Bernard en
deuxième et Charles en troisième, c’est la même délégation que si on avait pris Bernard en premier,
Charles en deuxième et Arthur en troisième. En fait, dans la délégation, il n’y a pas d’ordre : pas
de président, pas de secrétaire, pas de trésorier. Donc
(Arthur, Bernard, Charles)=(B,C,A)=(A,C,B)=...={A,B,C}. Comptons combien de fois nous avons
compté le même ensemble {A,B,C}. C’est le nombre de permutations de A, B, C, c’est donc 3 !=6.
Nous devons donc diviser 10*9*8 par 3 !
Le nombre de délégations pour visiter l’usine est donc
10*9*8/(3 !)=120.

Théorème 1.4.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,

An
 
n n!
n
Cr = = r =
r r! r!(n − r)!

Proposition 1.4.4 :
n
a) Crn = Cn−r
n−1
b) Crn = Crn−1 + Cr−1

5. Permutations avec répétitions


Ce sont des permutations d’objets qui ne sont pas tous distincts.
Exemple 1.5.1 : Combien d’anagrammes différents peut- on former avec les mots :
a) MERCI ; b) REMERCIEMENT ?
Solution :
a) Il y a 5 lettres différentes, le nombre de permutations de ces 5 lettres est donc 5 !=120.
b) Il y a 12 lettres, dont 2 M , 2 R, 4 E.
Si les lettres étaient différentes, notons-les
R1 E1 M1 E2 R2 CIE3 M2 E4 N T , le nombre de permutations serait 12 !
Mais prendre (R1 , R2 ) ou (R2 , R1 ) c’est la même chose, c’est en fait avoir {R, R}.
Pour les R, on va donc diviser par 2.
Idem pour les 2 M .
Et on divise par 4 ! pour les 4 E.
Le nombre de permutations est donc
12 !/(2 ! 2 ! 4 !)=4989600.

Théorème 1.5.2 : Soient n objets dont r1 sont indiscernables entre eux, r2 indiscernables entre
eux,..., rk indiscernables entre eux (avec r1 + r2 + ... + rk ≤ n). Alors il existe r1 !r2n!!...rk ! permutations
de ces n objets.

2
Exemple 1.5.3 : Un piéton doit se rendre du point A au point B, situé 7 rues au nord et 5 avenues à
l’est du point A. Combien d’itinéraires différents existe-t-il, sachant que le piéton ne marche jamais
vers le sud ou vers l’ouest ?
Solution :
Supposons que le piéton va d’abord vers le nord (n) 7 fois, puis vers l’est (e) 5 fois. C’est un premier
itinéraire, qu’on peut noter nnnnnnneeeee.
Si le piéton va d’abord vers l’est 5 fois, puis vers le nord, son itinéraire est eeeeennnnnnn.
De même, l’itinéraire nnneeenneenn correspond à : le piéton va 3 fois vers le nord, puis 3 fois vers
l’est, puis 2 fois vers le nord, puis 2 fois vers l’est, et enfin 2 fois vers le nord.
Compter les itinéraires, c’est donc compter le nombre de permutations de nnnnnnneeeee.
Le nombre d’itinéraires est donc 12 !/(7 ! 5 !)=792.

6. Binôme de Newton
Théorème 1.6.1 : ∀a ∈ R, ∀b ∈ R, ∀n ∈ N,
n
X
n
(a + b) = Ckn ak bn−k .
k=0

Définition 1.6.2 : Soit E un ensemble. L’ensemble de tous les sous-ensembles de E, noté P(E),
est appelé classe des parties de E.

Théorème 1.6.4 : Soit E un ensemble de n éléments. Alors P(E) comprend 2n éléments.

Démonstration :
soit Ek l’ensemble des parties de E qui ont k éléments (k ≤ n). Notons N(Ek ) le nombre d’éléments
n
de Ek . N(E
Sk ) est égal au nombre de façons de choisir k éléments parmi n, donc N(Ek ) = Ck . Or
P(E) = k≤n Ek , donc
N(P(E)) = nk=0 N(Ek ) = nk=0 Ckn .1k .1n−k
P P
= (1 + 1)n = 2n


Exemple 1.6.5 : Une municipalité compte 300 habitants adultes. On veut former une délégation
pour rendre visite au maire. Combien y a-t-il de délégations différentes ?
Solution :
Supposons que l’on admet la délégation vide (personne ne se déplace) ou la délégation pleine (tout
le monde y va).
Chaque délégation est une partie de E, où E est l’ensemble des habitants, avec N(E) =300.
Il y a donc 2300 délégations.

7. Théorie des ensembles


Définition 1.7.1 : Soient A et B deux ensembles.
1) inclusion : A est inclus dans B si et seulement si tout élément de A est un élément de B :

A ⊂ B ⇔ ∀x, (x ∈ A ⇒ x ∈ B)

2) Si A ⊂ B, on dit que A est une partie de B.

3
P(B) est l’ensemble des parties de B :

A ∈ P(B) ⇔ A ⊂ B

On a toujours : ∅ ∈ P(B) (où ∅ est l’ensemble vide) et B ∈ P(B).


3) union :
A ∪ B = {x|x ∈ A ou x ∈ B}.
4) intersection :
A ∩ B = {x|x ∈ A et x ∈ B}.
5) différence :
A \ B = {x ∈ A|x ∈
/ B}.
6) complémentaire :
si A ⊂ B, le complémentaire de A dans B est : {B A = B \ A.
7) produit cartésien :
A × B = {(x, y)|x ∈ A et y ∈ B}.

Propriétés 1.7.2 (distributivité) : Soient A, B, C trois ensembles.


1) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
2) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

Propriétés 1.7.3 : Soient A et B deux parties d’un ensemble E.


1) A ∪ ({E A) = E
2) {E E = ∅
3) {E ∅ = E
et les lois de Morgan :
4) E \ (A ∪ B) = (E \ A) ∩ (E \ B)
5) E \ (A ∩ B) = (E \ A) ∪ (E \ B)

8. Cardinal d’un ensemble fini


Définition 1.8.1 : Le cardinal d’un ensemble fini E est le nombre de ses éléments, on le note N(E)
(ou bien card(E) ou |E|).

Théorème 1.8.2 : Soient A et B deux ensembles finis.


1) N(A ∪ B) = N(A) + N(B) − N(A ∩ B)
2) N(A × B) = N(A).N(B)

4
Chapitre 2 - Probabilités sur un univers fini
I. Univers fini
1. Expérience aléatoire
Définition 2.1. Une épreuve aléatoire est une expérience dont on connaı̂t tous les résultats possibles.
L’ensemble contenant tous les résultats possibles est appelé univers (ou espace échantillonnal) et
noté Ω.

Exemple 2. 2. Épreuve aléatoire : on lance un dé à 6 faces numérotées de 1 à 6.


Univers : Ω = {1; 2; 3; 4; 5; 6} = J1; 6K.

Remarque 2. 3. Dans ce cours on se limitera au cas où Ω est un ensemble fini non vide.

2. Événements
Définition 2. 4. Soit Ω un univers fini.
• Les éléments de Ω sont appelés les possibles (ou éventualités).
• On appelle événement toute partie de Ω.
Un singleton est appelé événement élémentaire.
L’ensemble des événements est P(Ω).
• Si A est un événement, le complémentaire de A dans Ω, Ω \ A, est appelé son événement contraire
et noté {A.
• On dit que l’événement A implique (ou entraı̂ne) l’événement B lorsque A ⊂ B.

Exemple 2. 5. Épreuve aléatoire : on lance un dé.


Univers : Ω = J1; 6K.
Événements élémentaires : {1}, {2}, {3}, {4}, {5}, {6}.
L’événement ”obtenir un chiffre pair” est A = {2; 4; 6}. Son événement contraire ”obtenir un chiffre
impair” est {A = {1; 3; 5}.
L’événement ”obtenir le chiffre 1” implique l’événement ”obtenir un chiffre impair”.

Définition 2. 6. Soient A et B deux événements d’un univers Ω.


• L’événement ”A ou B” est représenté par la réunion A ∪ B.
• L’événement ”A et B” est représenté par l’intersection A ∩ B.
• Deux événements A et B sont incompatibles (ou disjoints) lorsque A ∩ B = ∅.

Exemple 2. 7. Tout événement est incompatible avec son événement contraire.

Définition 2. 8. (Système complet d’événements)


Soit (A1 , . . . , An ) = (Ai )i∈J1;nK une famille d’événements d’un univers Ω.
Cette famille est un système complet d’événements lorsque :

5
• les événements sont incompatibles deux à deux :
∀(i, j) ∈ J1; nK2 , i 6= j ⇒ Ai ∩ Aj = ∅, et
• la réunion de ces événements est l’événement certain :
n
[
Ai = A1 ∪ · · · ∪ An = Ω.
i=1

Remarque 2. 9. Une partition de Ω forme un système complet d’événements.

Exemple 2. 10.
1. Si A est un événement, alors {A, {A} est un système complet d’événements.
2. La famille des événements élémentaires ({x})x∈Ω est un système complet d’événements.

II. Espaces probabilisés


1. Probabilité
Définition 2. 11. Soit Ω un univers.
On appelle probabilité sur Ω toute application P de P(Ω) vers [0; 1] vérifiant :
• P(Ω) = 1, et
• P est additive, c’est-à-dire :
∀A, B ∈ P(Ω), A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B).
Le couple (Ω; P) est appelé espace probabilisé.

Exemple 2. 12. On lance un dé bien équilibré.


P({i}) = 1/6, ∀i ∈ J1; 6K.
La probabilité de l’événement ”le résultat est pair” est 1/2 :
P({2; 4; 6}) = P({2} ∪ {4} ∪ {6})
= P({2}) + P({4}) + P({6}) = 3/6 = 1/2.

Définition 2. 13.
• Un événement de probabilité nulle est appelé événement impossible. L’ensemble vide ∅ est impos-
sible, ainsi que nous allons le voir ci-dessous.
• Un événement de probabilité égale à 1 est appelé événement certain. L’univers Ω est certain.

6
2. Propriétés
Théorème 2. 14. Soient A et B deux événements d’un espace probabilisé (Ω; P). On a :
1. P(∅) = 0 ;
2. P({A) = 1 − P(A) ;
3. Si A ⊂ B alors P(A) ≤ P(B) (P est croissante)
et P(B \ A) = P(B) − P(A) ;
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
5. Si (A1 , . . . , An ) = (Ai )i∈J1;nK est une famille d’événements incompatibles deux à deux, alors
n
[ n
X
P( Ai ) = P(Ai ).
i=1 i=1

c’est-à-dire
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An )

Démonstration :
1. Ω ∩ ∅ = ∅ et P est additive, donc
P(Ω ∪ ∅) = P(Ω) + P(∅).
Mais Ω ∪ ∅ = Ω, donc
P(Ω) = P(Ω) + P(∅).
Donc P(∅) = 0.
2. A ∩ ({A) = ∅ et P est additive, donc
P(A ∪ ({A)) = P(A) + P({A).
Mais A ∪ ({A) = Ω,
donc P(A ∪ ({A)) = P(Ω) = 1.
On a donc 1 = P(A) + P({A),
c-à-d P({A) = 1 − P(A).
3. Supposons A ⊂ B.
A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = B.
On a donc montré P(B) = P(A) + P(B \ A).
Donc P(B \ A) = P(B) − P(A).
Mais une probabilité est positive,
donc P(B \ A) ≥ 0,
donc P(B) − P(A) ≥ 0,
donc P(B) ≥ P(A).
4. (A ∩ B) ∩ (B \ A) = ∅ et P est additive, donc
P((A ∩ B) ∪ (B \ A)) = P(A ∩ B) + P(B \ A).
Mais (A ∩ B) ∪ (B \ A) = B, donc
P(B) = P(A ∩ B) + P(B \ A).
On en déduit
P(B \ A) = P(B) − P(A ∩ B). (1)

7
D’autre part, A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = A ∪ B, donc
P(A ∪ B) = P(A) + P(B \ A).
En utilisant (1) dans l’égalité ci-dessus, il vient
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. — pour n = 2, c’est
A1 ∩ A2 = ∅ ⇒ P(A1 ∪ A2 ) = P(A1 ) + P(A2 ).
C’est vrai, par additivité de P.
— pour n = 3 :
on suppose
A1 ∩ A2 = ∅ et A1 ∩ A3 = ∅ et A2 ∩ A3 = ∅, alors

(A1 ∪ A2 ) ∩ A3 = (A1 ∩ A3 ) ∪ (A2 ∩ A3 )


= ∅∪∅
= ∅

Puisque P est additive, on en déduit


P((A1 ∪ A2 ) ∪ A3 ) = P(A1 ∪ A2 ) + P(A3 ).
On utilise alors la propriété pour n = 2, et on obtient
P((A1 ∪ A2 ) ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 ).
— pour n ∈ N, n ≥ 3, on raisonne comme ci-dessus par récurrence.

Exercice 2. 15. (Inégalité de Boole)


Montrer que pour toute famille d’événements (A1 , . . . , An ), on a
n
X
P(A1 ∪ · · · ∪ An ) ≤ P(Ai ).
i=1

Théorème 2. 16. Soit (Ai )i∈J1;nK un système complet d’événements d’un espace probabilisé (Ω; P).
On a :
1. n
X
P(Ai ) = 1;
i=1

2. Pour tout événement B,


n
X
P(B) = P(B ∩ Ai ).
i=1

8
Démonstration :
1. Les événements A1 , . . . , An sont incompatibles deux à deux, donc, par le théorème 2.14, on a :
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An ).
Mais A1 ∪ · · · ∪ An = Ω, donc
P(A1 ∪ · · · ∪ An ) = P(Ω) = 1, ce qui démontre que
P(A1 ) + · · · + P(An ) = 1.
2. On montre d’abord que les événements B ∩ A1 , . . . , B ∩ An sont incompatibles deux à deux :
soit (i, j) ∈ J1; nK2 avec i 6= j. Alors

(B ∩ Ai ) ∩ (B ∩ Aj ) = B ∩ (Ai ∩ Aj )
= B∩∅
= ∅.

On utilise ensuite le théorème 2.14 :


n
X
P((B ∩ A1 ) ∪ · · · ∪ (B ∩ An )) = P(B ∩ Ai ).
i=1

Mais

(B ∩ A1 ) ∪ · · · ∪ (B ∩ An ) = B ∩ (A1 ∪ · · · ∪ An )
= B∩Ω
= B (car B ⊂ Ω)

Donc n
X
P(B) = P(B ∩ Ai ).
i=1

3. Probabilité des événements élémentaires


Une probabilité P sur un univers fini Ω est entièrement déterminée par la connaissance des proba-
bilités des événements élémentaires.

Théorème 2. 17. Soit Ω = {x1 , . . . , xn } un univers fini.


• Soit
P P une probabilité sur Ω. Notons pi = P({xi }), ∀i ∈ J1; nK. Alors ∀i ∈ J1; nK, pi ≥ 0 et
n
i=1 pi = 1.
• Réciproquement, si p1 , . . . , pn sont des réels positifs et de somme égale à 1, alors il existe une
probabilité P sur Ω telle que ∀i ∈ J1; nK, P({xi }) = pi .
• Dans les deux cas, on a pour tout événement A,
X
P(A) = pi .
xi ∈A

9
Démonstration :
laissée en exercice, en utilisant le théorème 2.16 et en remarquant que la famille des événements
élémentaires est un système complet d’événements.

Exemple 2. 18. On lance un dé truqué (ou pipé) à 6 faces tel que la probabilité d’obtenir la face
k est proportionnelle à k. Quelle est la probabilité d’obtenir un résultat pair ?

Remarque : ”la probabilité d’obtenir la face k est proportionnelle à k” signifie que


P({k})
est une constante (indépendante de k).
k
P a cette constante. On obtient donc P({1}) = a, P({2}) = 2a,. . ., P({k}) = a.k, ∀k ∈ J1; 6K.
Notons
Or 6k=1 P({k}) = 1, donc a(1 + 2 + 3 + 4 + 5 + 6) = 1.
1
Donc a = 21 . Alors P({2; 4; 6}) = a(2 + 4 + 6) = 12
21
= 47 .

Exercice 2. 19. Refaire l’exemple avec un dé à n faces (n ∈ N, n ≥ 2). On rappelle la formule de
la progression arithmétique : 1 + 2 + · · · + n = n(n+1)
2
.

Théorème 2. 20. (équiprobabilité)


Sur tout univers fini Ω, il existe une unique probabilité P qui prend la même valeur sur chaque
événement élémentaire (on parle d’événements équiprobables). Elle est définie par
1 1
∀x ∈ Ω, P({x}) = = .
card(Ω) N(Ω)
On l’appelle probabilité uniforme sur Ω.
Pour tout événement A, on a alors
card(A) N(A)
P(A) = = .
card(Ω) N(Ω)
La probabilité d’un événement est le nombre de cas favorables divisé par le nombre de cas possibles.

Démonstration :
Notons Ω = {x1 ; . . . ; xn } où n = card(Ω) = N(Ω).
1
On pose ∀i ∈ J1; nK, pi = P n
.
On a bien : ∀i, pi ≥ 0 et ni=1 pi = 1.
On utilise alors le théorème 2.17.

Exemple 2.21. On lance 6 fois un dé bien équilibré. Quelle est la probabilité d’obtenir les 6 numéros
de 1 à 6 ?

Ω = J1; 6K × · · · × J1; 6K = J1; 6K6 . Donc N(Ω) = 66 .


N(A) = nombre de permutations des chiffres 1, 2, 3, 4, 5, 6 = 6!
Donc P(A) = N(A)N(Ω)
= 66!6 ∼
= 0, 015.

Exercice 2. 22. On tire 4 cartes (simultanément) au hasard dans un jeu de 32 cartes. Quelle est la
probabilité d’avoir 4 cœurs ?

10
III. Probabilités conditionnelles
1. Définition
Définition 2. 23. Soit (Ω; P) un espace probabilisé. Soit A un événement de probabilité non nulle.
Pour tout événement B, on définit la probabilité de B sachant A par

P(A ∩ B)
PA (B) = .
P(A)

Théorème 2. 24. PA est une probabilité sur Ω, appelée probabilité conditionnelle sachant A.

Remarque 2. 25. on note parfois PA (B) = P(B|A), à ne pas confondre avec P(B \ A).

Exemple 2. 26. On lance une pièce de monnaie bien équilibrée deux fois de suite. Quelle est la
probabilité d’avoir deux faces, étant donné :
1. que le premier lancer a donné face ?
2. qu’au moins un des deux lancers a donné face ?

L’univers est Ω = {F ace; P ile} × {F ace; P ile}.


Donc N(Ω) = 4.
1. Soit A l’événement ”le premier lancer est face”.
A = {(F ; P )} ∪ {(F ; F )}. Donc N(A) = 2.
D’où P(A) = N(A)
N(Ω)
= 24 = 21 .
Soit B l’événement ”avoir 2 faces”.
B = {(F ; F )}. Donc N(B) = 1 et P(B) = N(B) N(Ω)
= 14 .
B ⊂ A, donc A ∩ B = B.
Donc P(A ∩ B) = P(B) = 41 . Finalement

P(A ∩ B) 1/4 1
PA (B) = = = .
P(A) 1/2 2

2. Soit C l’événement ”au moins un des 2 lancers est face”.


C = {(F ; F ); (F ; P ); (P ; F )} = Ω \ {(P ; P )}.
N(C) = 3. P(C) = N(C) N(Ω)
= 34 .
Mais B ⊂ C, donc B ∩ C = B.
Donc P(B ∩ C) = P(B) = 41 . Finalement

P(B ∩ C) 1/4 1
PC (B) = = = .
P(C) 3/4 3

11
2. Probabilités composées
Théorème 2. 27. Soient A et B deux événements. Alors
• P(A ∩ B) = P(A).PA (B), si P(A) 6= 0
• P(A ∩ B) = P(B).PB (A), si P(B) 6= 0
Exemple 2.28. Une urne contient 4 boules blanches et 2 noires. On tire une boule, puis on la remet
dans l’urne en ajoutant une autre boule de la même couleur. Ensuite on procède à un deuxième
tirage. Quelle est la probabilité d’obtenir 2 boules noires ?

Notons Bi (resp. Ni ) l’événement ”la ième boule tirée est blanche (resp. noire)”, pour i = 1; 2.
5/7 B2
B1
4/6 2/7 N2

2/6 4/7 B2
N1
3/7 N2
On a P(B1 ) = 46 ; P(N1 ) = 26 ; PN1 (N2 ) = 37 , donc

P(N1 ∩ N2 ) = P(N1 ).PN1 (N2 )


2 3 1
= × =
6 7 7

Théorème 2. 29. (formule des probabilités composées)


Soit (Ai )i∈J1;nK une famille d’événements (n ≥ 2) telle que P(A1 ∩ · · · ∩ An−1 ) 6= 0. Alors

P(A1 ∩ · · · ∩ An ) = P(A1 ).PA1 (A2 ).PA1 ∩A2 (A3 ) . . . PA1 ∩···∩An−1 (An ).

3. Formule des probabilités totales


Théorème 2. 30. (formule des probabilités totales)
Soit (Ai )i∈J1;nK un système complet d’événements tel qu’aucun n’est impossible (∀i ∈ J1; nK, P(Ai ) 6=
0).
Alors, pour tout événement B, on a :
n
X
P(B) = P(Ak ).PAk (B)
k=1

Démonstration :
Ceci se déduit des théorèmes 2.16 et 2.27.

12
4. Formule de Bayes
Théorème 2. 31. (formule de Bayes)
Soit (Ai )i∈J1;nK un système complet d’événements tel qu’aucun n’est impossible.
Soit B un événement non impossible. Alors, ∀i ∈ J1; nK,
P(Ai ).PAi (B)
PB (Ai ) = Pn
k=1 P(Ak ).PAk (B)

Démonstration :
Cette formule découle directement de la définition d’une probabilité conditionnelle et de la formule
des probabilités totales.


Exemple 2. 32. On a 6 urnes numérotées de 1 à 6. L’urne k contient k boules blanches et (6 − k)


boules noires. On lance un dé non truqué. Si la face k sort alors on tire une boule de l’urne k. La
boule tirée est blanche, quelle est la probabilité d’avoir fait un 6 ?

Notons Dk l’événement ”le résultat du dé est k” (k = 1; . . . ; 6).


(D1 , . . . , D6 ) est un système complet d’événements :
si i 6= j, Di ∩ Dj = ∅ et D1 ∪ · · · ∪ D6 = Ω.
De plus, P(Dk ) = 61 6= 0, ∀k.
Notons B (resp. N ) l’événement ”la boule tirée est blanche (resp. noire)”.
On a PDk (B) = k6 et PDk (N ) = 6−k 6
.
On peut donc utiliser la formule de Bayes :
P(D6 ).PD6 (B)
PB (D6 ) = P6
k=1 P(Dk ).PDk (B)
1
6
× 66
= 1 1 2 3 4 5 6
( + 6 + 6 + 6 + 6 + 6)
6 6
6 6 2
= = =
1+2+3+4+5+6 21 7

IV. Indépendance
1. Indépendance de deux événements
Définition 2.33. Deux événements A et B d’un espace probabilisé (Ω; P) sont indépendants lorsque

P(A ∩ B) = P(A).P(B)

Exercice 2. 34. On tire une carte d’un jeu de 52 cartes. Montrer que les événements ”tirer un
pique” et ”tirer un as” sont indépendants.

Proposition 2. 35. Si A est un événement non impossible, alors A et B sont indépendants ssi
PA (B) = P(B).

13
Démonstration :
laissée en exercice.

Théorème 2. 36. Si A et B sont deux événements indépendants, alors


• A et {B sont indépendants,
• {A et B sont indépendants, et
• {A et {B sont indépendants.

Démonstration :
• A ∩ B et A ∩ ({B) sont disjoints :
(A ∩ B) ∩ (A ∩ {B) = A ∩ (B ∩ {B) = A ∩ ∅ = ∅.
Mais A = (A ∩ B) ∪ (A ∩ {B).
Puisque P est additive, ceci implique
P(A) = P(A ∩ B) + P(A ∩ {B).
A et B étant indépendants, on a donc
P(A) = P(A).P(B) + P(A ∩ {B).
Donc

P(A ∩ {B) = P(A) − P(A).P(B)


= P(A).[1 − P(B)]
= P(A).P({B)

A et {B sont donc indépendants.


• Le deuxième point se déduit du premier en permutant A et B.
• Le troisième point se déduit du premier et du deuxième.


2. Indépendance d’une famille d’événements


Définition 2.37. Soient n ∈ N, n ≥ 3, et A1 , . . . , An des événements d’un espace probabilisé (Ω; P).
• On dit que ces événements sont deux à deux indépendants si
∀(i, j) ∈ J1; nK2 , i 6= j ⇒ P(Ai ∩ Aj ) = P(Ai ).P(Aj )

• On dit que ces événements sont mutuellement indépendants si


\ Y
∀J ⊂ J1; nK, P( Aj ) = P(Aj )
j∈J j∈J

Remarque 2. 38. Si des événements sont mutuellement indépendants, alors ils sont deux à deux
indépendants. La réciproque est fausse, comme le montre l’exemple suivant.

14
Exemple 2. 39. On lance deux dés. On définit les événements :
A1 : ”le premier dé amène un nombre pair”,
A2 : ”le deuxième dé amène un nombre pair”,
A3 : ”la somme des résultats obtenus est paire”.
Les événements (A1 , A2 , A3 ) sont-ils indépendants deux à deux ? Mutuellement indépendants ?

• On établit facilement que :


N(Ω) = 36; N(A1 ) = 3 × 6 = 18; P(A1 ) = 21 .
• Idem pour A2 :P(A2 ) = 12 .
• Pour A3 : N(A3 ) = 18; P(A3 ) = 21 .
• A1 ∩ A2 : ”les deux dés donnent des résultats pairs”
9
N(A1 ∩ A2 ) = 3 × 3 = 9; P(A1 ∩ A2 ) = 36 = 14 .
P(A1 ∩ A2 ) = P(A1 ).P(A2 ), donc A1 et A2 sont indépendants.
• A1 ∩ A3 = A1 ∩ A2 , donc P(A1 ∩ A3 ) = 41 ,
P(A1 ∩ A3 ) = P(A1 ).P(A3 ), donc A1 et A3 sont indépendants.
• A2 ∩ A3 = A1 ∩ A2 , donc P(A2 ∩ A3 ) = 41 ,
P(A2 ∩ A3 ) = P(A2 ).P(A3 ), donc A2 et A3 sont indépendants.
On a donc établi que (A1 , A2 , A3 ) sont indépendants deux à deux.
• A1 ∩ A2 ∩ A3 = A1 ∩ A2 , donc P(A1 ∩ A2 ∩ A3 ) = 41 ,
donc P(A1 ∩ A2 ∩ A3 ) 6= P(A1 ).P(A2 ).P(A3 ) = 81 .
On a démontré que (A1 , A2 , A3 ) ne sont pas mutuellement indépendants.

Proposition 2. 40. Si des événements sont mutuellement indépendants, alors leurs contraires sont
également mutuellement indépendants.

15
Chapitre 3 - Variables aléatoires sur un univers fini
I. Notion de variable aléatoire
1. Définition
Définition 3. 1. Soit Ω un univers fini.
• Toute application X : Ω → E est appelée variable aléatoire (v.a.).
• Lorsque E = R, on dit que X est une variable aléatoire réelle (v.a.r.).
• Lorsque X est constante, on parle de v.a. constante ou certaine.
• L’ensemble des images X(Ω) est un ensemble fini appelé le champ de la v.a. X.

Exemple 3. 2.
1. On lance deux dés. Soit X la v.a. de la somme des résultats.
Ω = J1; 6K × J1; 6K; ∀(i; j) ∈ Ω, X(i; j) = i + j; X(Ω) = J2; 12K
2. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a.
du montant (en EUR) gagné par le joueur.
Ω = {P ile; F ace}; Y (P ile) = −2; Y (F ace) = 5; Y (Ω) = {−2; 5}

Définition 3. 3. (variable indicatrice d’un événement)


Soit A un événement de (Ω; P).
La v.a. X : Ω → R définie par

1 si x ∈ A
∀x ∈ Ω, X(x) =
0 sinon

est appelée variable indicatrice de A.

Remarque 3. 4.
• L’ensemble des v.a.r. sur Ω, noté F(Ω; R), a une structure de R-espace vectoriel et d’anneau pour
les lois usuelles.
• Si X : Ω → E est une v.a. et u : E → F est une application, alors u ◦ X est une v.a. notée u(X).

Notations : (événements liés à une v.a.)


• Soit X : Ω → E une v.a. et A une partie de E.
Alors X −1 (A) = {x ∈ Ω tels que X(x) ∈ A} est un événement de Ω, noté (X ∈ A).
• Soit X : Ω → R une v.a.r. et α un réel.
On note (X ≤ α) l’événement
(X ≤ α) = {ω ∈ Ω, X(ω) ≤ α}.
De même (X ≥ α) = {ω ∈ Ω, X(ω) ≥ α}, etc.

16
2. Loi d’une variable aléatoire
Définition 3. 5. Soit X une v.a. sur (Ω; P).
• L’application fX : X(Ω) → [0; 1] définie par :
∀k ∈ X(Ω), fX (k) = P(X = k)
est appelée loi (ou loi de probabilité) de la v.a. X.
• La distribution de la v.a. X est l’ensemble formé par son champ X(Ω) et sa loi fX . Dans le cas où
le champ X(Ω) = {k1 ; . . . ; kn } est fini, la distribution est souvent notée sous forme d’un tableau :
X k1 ... kn
fX fX (k1 ) . . . fX (kn )

Théorème 3. 6. Soit X une v.a. sur (Ω; P) de loi fX .


i) On a alors, pour toute partie A de X(Ω),
X X
P(X ∈ A) = P(X = y) = fX (y)
y∈A y∈A

ii) De plus, X
fX (k) = 1.
k∈X(Ω)

En particulier, si X(Ω) = {k1 ; . . . ; kn }, alors


n
X
fX (ki ) = 1
i=1

Démonstration :
i)
(X ∈ A) = {ω ∈ Ω, X(ω) ∈ A}
Donc [
(X ∈ A) = {ω ∈ Ω, X(ω) = y}
y∈A

En d’autres termes, [
(X ∈ A) = (X = y),
y∈A

où
(X = y) = {ω ∈ Ω, X(ω) = y}.
Si y1 6= y2 , les ensembles (X = y1 ) et (X = y2 ) sont disjoints. En effet, si ω ∈ (X = y1 ) ∩ (X = y2 )
alors X(ω) = y1 et X(ω) = y2 donc y1 = y2 . Les événements (X = y)y∈A sont donc incompatibles
deux à deux.
Vu le théorème 2.14, !
[ X
P (X = y) = P(X = y)
y∈A y∈A

donc X
P(X ∈ A) = P(X = y).
y∈A

17
ii) Remarquons que
(X ∈ X(Ω)) = {ω ∈ Ω, X(ω) ∈ X(Ω)} = Ω,
donc P(X ∈ X(Ω)) = P(Ω) = 1.
On applique alors le point précédent avec A = X(Ω) :
X
1 = P(X ∈ X(Ω)) = P(X = y).
y∈X(Ω)

Exemple 3. 7.
1) On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a. du
montant (en EUR) gagné par le joueur. Donner la distribution de Y .

Remarquons que
fY (−2) = P(Y = −2) = P({P ile}) = 12 .
La distribution de Y est donc :
Y −2 5
1 1
fY 2 2

2) On lance deux dés. La v.a. X est la somme des résultats. Écrire la distribution de X.
1
N(Ω) = 36; fX (2) = P(X = 2) = P({(1; 1)}) = 36
2
fX (3) = P(X = 3) = P({(1; 2); (2; 1)}) = 36 , etc.

X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
fX 36 36 36 36 36 36 36 36 36 36 36

3. Image d’une variable aléatoire par une fonction


Théorème 3.8. Soit X une v.a. sur (Ω; P) et U une fonction définie sur X(Ω), notons Y = U ◦ X =
U (X), alors : X
∀β ∈ Y (Ω), P(Y = β) = P(X = α)
α∈X(ω) t.q. U (α)=β

Démonstration :
Soit β ∈ Y (Ω).

P(Y = β) = P({ω ∈ Ω, Y (ω) = β})


= P({ω ∈ Ω, U (X(ω)) = β})
= P({ω ∈ Ω, X(ω) ∈ U −1 ({β})})
P X ∈ U −1 ({β})

=
X
= P(X = α), par le théorème 3.6
α∈U −1 ({β})
X
= P(X = α)
α∈X(ω) t.q. U (α)=β

18


Remarque 3. 9. si X est une v.a.r. et a ∈ R∗ , on peut définir aX :


z
P(aX = z) = P(X = )
a

Exemple 3. 10. Soit la v.a. X dont la distribution est


X −1 0 1
fX 1/3 1/4 5/12
Calculer la distribution de |X|, X 2 , −X.

La distribution de |X| est


|X| 0 1
f|X| 1/4 3/4
La distribution de X 2 est la même :
X2 0 1
fX 2 1/4 3/4
La distribution de −X est :
X −1 0 1
fX 5/12 1/4 1/3

II. Lois usuelles


1. Variables certaines
Définition 3. 11. Soit X une v.a. sur (Ω; P). Lorsque X est une application constante, on dit que
X est certaine. Dans ce cas N(X(Ω)) = 1. Notons X(Ω) = {k}. Alors P(X = k) = 1.

2. Loi uniforme
Définition 3. 12. Notons X(Ω) = {k1 ; . . . ; kn }. X suit une loi uniforme lorsque ∀i ∈ J1; nK,
P(X = ki ) = n1 . On note X ,→ U (X(Ω)).

Exemple 3. 13. On lance un dé bien équilibré. Soit X la v.a. du résultat. Alors X ,→ U (J1; 6K).

3. Loi de Bernoulli
Définition 3. 14. Soit p ∈ [0; 1], notons q = 1 − p. On dit que X suit une loi de Bernoulli de
paramètre p si X(Ω) = {0; 1}, P(X = 0) = q et P(X = 1) = p. On note X ,→ Ber(p).

1
Exemple 3. 15. Un archer a une probabilité 5
de toucher la cible. Il tire une flèche. Soit X la v.a.
du nombre de succès. Alors X ,→ Ber( 15 ).

Définition 3.16. Une épreuve aléatoire est appelée épreuve de Bernoulli lorsqu’elle a deux résultats
possibles : le succès (avec une probabilité p) et l’échec (avec une probabilité q = 1 − p). Lorsqu’on
a une seule épreuve de Bernoulli, la v.a. X du nombre de succès suit Ber(p).

Proposition 3.17. Si X et Y suivent une loi de Bernoulli, alors X.Y suit aussi une loi de Bernoulli.

19
Démonstration :
Puisque X et Y suivent une loi de Bernoulli, alors leur champ est X(Ω) = Y (Ω) = {0; 1}.
Ceci implique XY (Ω) = {0; 1}.
Notons alors p = P(XY = 1). Grâce au théorème 3.6.ii, P(XY = 0) = 1 − p = q.

4. Loi binomiale
Définition 3. 18. Soient n ∈ N∗ , p ∈ [0; 1] et q = 1 − p. X suit une loi binomiale de paramètres n
et p lorsque X(Ω) = J0; nK et ∀k ∈ J0; nK, P(X = k) = nk pk q n−k . On note X ,→ Bin(n; p).

Remarque 3. 19. Lorsque n = 1, on retrouve la loi de Bernoulli Ber(p).

Exemple 3. 20. Un archer a une probabilité 15 de toucher la cible. Il tire trois flèches. Soit X la
v.a. du nombre de succès. Déterminer la distribution de X.

Le champ de X est X(Ω) = J0; 3K.


Pour i ∈ J1; 3K, notons Si (resp. Ri ) l’événement ”la ième flèche touche (resp. rate) la cible”. On
peut modéliser la situation par un diagramme en arbre :
1/5 S3
S2
1/5 4/5 R3
S1

4/5 1/5 S3
5
1/ R2
4/5 R3

1/5 S3
4/ S2
5
1/5 4/5 R3
R1

4/5 1/5 S3
R2
4/5 R3
4 3

P(X = 0) = P(R1 ∩ R2 ∩ R3 ) = 5 .
P(X = 1)
= P(S1 ∩ R2 ∩ R3 ) + P(R1 ∩ S2 ∩ R3 ) + P(R1 ∩ R2 ∩ S3 )
2
= 3 × 51 × 45 .

20
P(X = 2)
= P(S1 ∩ S2 ∩ R3 ) + P(S1 ∩ R2 ∩ S3 ) + P(R1 ∩ S2 ∩ S3 )
2
= 3 × 51 × 54 .
3
P(X = 3) = P(S1 ∩ S2 ∩ S3 ) = 51 .
Donc X ,→ Bin(3; 15 ).

III. Espérance et variance d’une variable aléatoire


1. Espérance
Définition 3. 21. Soit X une P v.a.r. sur (Ω; P).
L’espérance de X est E(X) = k∈X(Ω) k.P(X = k).
Si X(Ω) = {k1 ; . . . ; kn }, alors
Xn
E(X) = ki P(X = ki )
i=1
Si E(X) = 0, on dit que la v.a. X est centrée.

Remarque 3. 22. L’espérance de X est une moyenne pondérée des valeurs prises par X.

Exemple 3. 23. On lance un dé bien équilibré. Soit X la v.a. du résultat. Calculer E(X).

X ,→ U (J1; 6K), c-à-d X(Ω) = J1; 6K et ∀i ∈ J1; 6K, P(X = i) = 16 . Donc


6
X 1 21 7
E(X) = i. = = .
i=1
6 6 2

Théorème 3. 24. Si X est une v.a.r. sur (Ω; P), alors


X
E(X) = X(ω)P({ω})
ω∈Ω

Démonstration :
Posons X(Ω) = {k1 ; . . . ; kn }.
Notons Ai = {ω ∈ Ω, X(ω) = ki } = X −1 ({ki }).
Alors X
P(X = ki ) = P(Ai ) = P({ω}).
ω∈Ai
D’où
n
X
E(X) = ki P(X = ki ) (par définition)
i=1
n
!
X X
= ki P({ω})
i=1 ω∈Ai
Xn X
= ki P({ω})
i=1 ω∈Ai
Xn X
= X(ω)P({ω}) (car si ω ∈ Ai , alors ki = X(ω))
i=1 ω∈Ai

21
Or (A1 , . . . , An ) forment un système complet d’événements, donc
X
E(X) = X(ω)P({ω})
ω∈Ω

Exemple 3. 25. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR.
Soit Y la v.a. du montant (en EUR) gagné par le joueur. Calculer l’espérance de Y , en utilisant la
définition, puis en utilisant le théorème 3.24.

• On a vu précédemment que la distribution de Y est :


Y −2 5
1 1
fY 2 2

En utilisant la définition, on obtient donc


E(Y ) = (−2) × 21 + 5 × 21 = 32 .
• Remarquons d’abord que Ω = {P ile; F ace}, donc en utilisant le théorème 3.24,
E(Y ) = Y (P ile)P({P ile}) + Y (F ace)P({F ace})
Or Y (P ile) = −2 et Y (F ace) = 5, donc
E(Y ) = (−2) × 21 + 5 × 21 = 32 .
On constate que le théorème 3.24 permet de calculer l’espérance sans avoir déterminé au préalable
la distribution de la v.a.

Théorème 3. 26. (linéarité de l’espérance)


1. Si X = a est une constante réelle, alors E(X) = a.
2. Si X et Y sont deux v.a.r. définies sur (Ω; P), alors
∀λ ∈ R, E(λX + Y ) = λE(X) + E(Y ).

Démonstration :
1. On utilise le théorème 3.24 :
X
E(X) = X(ω)P({ω})
ω∈Ω
X
= a.P({ω})
ω∈Ω
X
= a P({ω}) = a
ω∈Ω

2. En utilisant le théorème 3.24, on a :


X
E(λX + Y ) = [λX(ω) + Y (ω)]P({ω})
ω∈Ω
" # " #
X X
= λ X(ω)P({ω}) + Y (ω)P({ω})
ω∈Ω ω∈Ω
= λE(X) + E(Y ) (vu le théorème 3.24)

22


Proposition 3. 27. (v.a. centrée)


Si X est une v.a.r., alors X − E(X) est une v.a. centrée (son espérance est nulle). C’est la v.a.
centrée associée à X.

Théorème 3. 28. (positivité de l’espérance)


Si X est une v.a.r. positive ou nulle sur (Ω; P), alors
1) E(X) ≥ 0 (positivité), et
2) E(X) = 0 ⇔ P(X = 0) = 1, on dit alors que X est presque sûrement nulle.

Démonstration :
1) X est positive ou nulle ssi ∀x ∈ X(Ω), on a x ≥ 0.
Dans ce cas, X
E(X) = x.P(X = x)
x∈X(Ω)

est une somme de termes positifs ou nuls, donc


E(X) ≥ 0.
2) Supposons X ≥ 0 telle que E(X) = 0.
Puisque E(X) est une somme nulle de termes positifs ou nuls, alors chaque terme est nul, donc
∀x ∈ X(Ω), x.P(X = x) = 0.
Ceci implique que si x 6= 0, alors P(X = x) = 0.
On a bien sûr : X
P(X = x) = 1.
x∈X(Ω)

Sortons x = 0 de la somme ci-dessus, on en déduit :


X
P(X = 0) + P(X = x) = 1.
x∈X(Ω) et x6=0

Mais on a vu que si x 6= 0, alors P(X = x) = 0, donc


X
P(X = x) = 0.
x∈X(Ω) et x6=0

Nous avons donc démontré que


P(X = 0) = 1.

Théorème 3. 29. (croissance de l’espérance)


Si X et Y sont deux v.a.r. définies sur (Ω; P) telles que X ≤ Y alors E(X) ≤ E(Y ).

23
Démonstration :

X ≤ Y ⇔ Y − X ≥ 0.
Vu le théorème 3.28, on en déduit que E(Y −X) ≥ 0, et vu la linéarité de l’espérance, E(Y )−E(X) ≥
0, c-à-d E(X) ≤ E(Y ).

Théorème 3. 30. (inégalité de Markov)


Pour toute v.a.r. positive X, on a

E(X)
∀a > 0, P(X ≥ a) ≤ .
a

Démonstration :
Soit a > 0 fixé.
Définissons A = {ω ∈ Ω, X(ω) ≥ a} = (X ≥ a).
Grâce au théorème 3.24, X
E(X) = X(ω)P({ω})
ω∈Ω

Dans cette somme, puisque X ≥ 0, tous les termes sont positifs ou nuls, et puisque A ⊂ Ω,
X X
X(ω)P({ω}) ≤ X(ω)P({ω})
ω∈A ω∈Ω

Donc
X
E(X) ≥ X(ω)P({ω})
ω∈A
X
≥ a P({ω}) car si ω ∈ A, alors X(ω) ≥ a
ω∈A
X
≥ a P({ω})
ω∈A
≥ a P(A)
≥ a P(X ≥ a)
E(X)
On a donc montré P(X ≥ a) ≤ a
.

Théorème 3. 31. (de transfert)


Si X est une v.a. sur (Ω; P) et si u est une application de X(Ω) vers R, alors
X
E(u(X)) = u(x).P(X = x)
x∈X(Ω)

24
Démonstration :
Posons X(Ω) = {x1 ; . . . ; xn } et
Ak = X −1 ({xk }) = {ω ∈ Ω, X(ω) = xk } = (X = xk ).
Alors (A1 , . . . , An ) est un système complet d’événements de Ω. Vu le théorème 3.24,
X
E(u(X)) = u(X(ω)).P({ω})
ω∈Ω
n
" #
X X
= u(X(ω)).P({ω})
k=1 ω∈Ak
n
" #
X X
= u(xk ).P({ω}) car ω ∈ Ak ⇒ X(ω) = xk
k=1 ω∈Ak
n
" #
X X
= u(xk ) P({ω})
k=1 ω∈Ak
n
X
= u(xk ).P(Ak )
k=1
n
X
= u(xk ).P(X = xk )
k=1
X
= u(x).P(X = x)
x∈X(Ω)

2. Variance et écart-type
Définition 3. 32. (moments d’une v.a.)
Soit X une v.a.r. et r ∈ N.
On appelle moment d’ordre r de X l’espérance de la v.a. X r , c-à-d
X
E(X r ) = xr .P(X = x).
x∈X(Ω)

On le note parfois mr (X).

Remarque 3. 33. Le moment d’ordre 0 vaut 1, et le moment d’ordre 1 de X est E(X).

Définition 3. 34. (variance, écart-type)


On appelle variance de la v.a.r. X :
V(X) = E [X − E(X)]2


et l’écart-type de X est p
σ(X) = V(X).
Si X(Ω) = {x1 ; . . . ; xn }, alors
n
X
V(X) = (xi − E(X))2 P(X = xi ).
i=1

25
Remarque 3. 35. Ces notions permettent de mesurer la dispersion de X autour de sa valeur
moyenne.

Théorème 3. 36. Soit X une v.a.r. Alors


V(X) = 0 ⇔ P(X = E(X)) = 1.
Dans ce cas, X est presque sûrement constante.

Démonstration :
Ce résultat se déduit directement de la définition de la variance et du théorème 3.28.2.


Théorème 3. 37. (formule de Koenig-Huygens)


Si X est une v.a.r. sur (Ω; P), alors
V(X) = E(X 2 ) − E(X)2 .
Si X(Ω) = {x1 ; . . . ; xn }, alors
" n
#
X
V(X) = x2i .P(X = xi ) − E(X)2 .
i=1

Démonstration :
Posons µ = E(X). Par définition de la variance,
V(X) = E([X − µ]2 )
= E(X 2 − 2µX + µ2 )
= E(X 2 ) − 2µE(X) + E(µ2 ) par linéarité de l’espérance,
= E(X 2 ) − 2µE(X) + µ2 car l’espérance d’une constante est la constante,
= E(X 2 ) − 2µ2 + µ2 car E(X) = µ,
= E(X 2 ) − µ2 .


Remarque 3. 38. Comme nous le verrons par la suite dans la démonstration du théorème 3.41, il
est parfois judicieux de calculer E(X(X − 1)) ou E(X(X + 1)) pour en déduire E(X 2 ).

Théorème 3. 39. (propriétés de la variance)


Soit X une v.a.r. sur (Ω; P), alors
1.
V(X) ≥ 0
2. ∀a, b ∈ R,
V(aX + b) = a2 .V(X)
σ(aX + b) = |a|.σ(X)
3. Inégalité de Bienaymé-Tchebychev :
V(X)
∀ε > 0, P(|X − E(X)| ≥ ε) ≤
ε2

26
Démonstration :
1. Par définition, V(X) = E ([X − E(X)]2 ).
Or [X − E(X)]2 ≥ 0, et en utilisant le théorème 3.28, son espérance est positive ou nulle.
2. On a par linéarité de l’espérance
(aX + b) − E(aX + b) = (aX + b) − (aE(X) + b)
= a(X − E(X))
Donc
V(aX + b) = E([(aX + b) − E(aX + b)]2 ) (par définition)
= E([a(X − E(X))]2 ) (vu ci-dessus)
= E(a2 [X − E(X)]2 )
= a2 .E([X − E(X)]2 ) (par linéarité de l’espérance)
= a2 .V(X) (par définition)

3. Posons Y = [X − E(X)]2 . Alors


P(|X − E(X)| ≥ ε) = P(|X − E(X)|2 ≥ ε2 )
= P(Y ≥ ε2 )
Mais Y ≥ 0, donc Y vérifie l’inégalité de Markov :
E(Y )
∀ε > 0, P(Y ≥ ε2 ) ≤
ε2
Puisque E(Y ) = V(X) et vu l’égalité ci-dessus, on en déduit
V(X)
∀ε > 0, P(|X − E(X)| ≥ ε) ≤
ε2


Définition 3. 40. (v.a. centrée réduite)


Une v.a.r. dont l’écart-type vaut 1 est appelée v.a. réduite.
Soit X une v.a.r. de variance non nulle, la v.a. centrée réduite associée à X est
X − E(X)
X∗ =
σ(X)
On a alors E(X ∗ ) = 0 et σ(X ∗ ) = 1.

3. Cas des lois usuelles


Théorème 3. 41.
a) Si X est une v.a. certaine de valeur a ∈ R, alors E(X) = a et V(X) = 0.
b) Si X suit la loi uniforme sur {x1 ; . . . ; xn }, alors
2
E(X) = n1 (x1 + · · · + xn ). En particulier, si X ,→ U (J1; nK), alors E(X) = n+1
2
et V(X) = n 12−1 .
c) Si X suit une loi de Bernoulli de paramètre p ∈ [0; 1], alors E(X) = p et V(X) = p(1 − p).
d) Si X ,→ Bin(n; p), alors
E(X) = np et V(X) = np(1 − p)

27
Démonstration :
La démonstration des points a), b) et c) est laissée en exercice, avec ce rappel :
n n
X n(n + 1) X n(n + 1)(2n + 1)
k= et k2 =
k=1
2 k=1
6
Démonstration du point d) :
Supposons que X ,→ Bin(n; p).
• Montrons que E(X) = np :
n n  
X X n k
E(X) = k.P(X = k) = k p (1 − p)n−k
k=0 k=1
k
n
X n!
= k pk (1 − p)n−k
k (k − 1)!(n − k)!

k=1

n
X (n − 1)!
= n pk (1 − p)n−k
k=1
(k − 1)!((n − 1) − (k − 1))!
n  
X n−1
= n pk (1 − p)n−k
k=1
k−1
n−1  
X n−1
= n pl+1 (1 − p)n−(l+1)
l=0
l
n−1  
X n−1
= np pl (1 − p)n−1−l
l=0
l
= np (p + (1 − p))n−1 (formule du binôme de Newton)
= np
• Montrons que V(X) = np(1 − p) :
E(X(X − 1))
Xn
= k(k − 1).P(X = k)
k=0
n  
X n k
= k(k − 1) p (1 − p)n−k
k=2
k
n
X n!
= (k−1)
k 
pk (1 − p)n−k
(k−1)(k − 2)!(n − k)!

k=2
k



n
X (n − 2)!
= n(n − 1) pk (1 − p)n−k
k=2
(k − 2)!((n − 2) − (k − 2))!
n−2
(n − 2)!
X
= n(n − 1) pl+2 (1 − p)n−(l+2)
l=0
l!(n − 2 − l)!
n−2  
2
X n−2
= n(n − 1)p pl (1 − p)n−2−l
l=0
l
= n(n − 1)p2 (p + (1 − p))n−2
= n(n − 1)p2

28
Par linéarité de l’espérance,

E(X 2 ) = E(X(X − 1)) + E(X) = n(n − 1)p2 + np

Par la formule de Koenig-Huygens,

V(X) = E(X 2 ) − E(X)2 = n(


n − 1)p2 + np − 
(np)
2
= np − np2

4. Loi hypergéométrique
C’est le résultat de l’expérience aléatoire suivante :
- on considère N objets (N ∈ N∗ ), dont M (M ∈ N∗ , M < N ) ont une caractéristique A, que l’on
considère comme un succès, et N − M n’ont pas cette caractéristique ;
- on prend simultanément n objets parmi les N (n ∈ N∗ , n < N ) ;
X est la v.a. du nombre de succès, c’est-à-dire le nombre d’objets retirés qui présentent la ca-
ractéristique A.
Alors X suit la loi hypergéométrique de paramètres N, M, n. On note X ,→ H(N ; M ; n).

Exemple 3. 42. 1. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément
4 boules. On note X1 la variable aléatoire du nombre de boules noires retirées. Donner la
distribution de X1 .

On a X1 ,→ H(20; 7; 4). De plus, X1 (Ω) = J0; 4K, et


7 13
 
k 4−k
∀k ∈ J0; 4K, P(X1 = k) = 20
 .
4

2. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément 8 boules. On note
X2 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X2 .

On a X2 ,→ H(20; 7; 8). De plus, X2 (Ω) = J0; 7K, et


7 13
 
k 8−k
∀k ∈ J0; 7K, P(X2 = k) = 20
 .
8

3. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément 15 boules. On note
X3 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X3 .

On a X3 ,→ H(20; 7; 15). J’ai retiré 15 boules, dont j’ai retiré au moins 2 boules noires, donc
X3 (Ω) = J2; 7K, et
7
 13 
k 15−k
∀k ∈ J2; 7K, P(X3 = k) = 20
 .
15

4. Une urne contient 20 boules, dont 12 sont noires. On retire simultanément 9 boules. On note
X4 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X4 .

On a X4 ,→ H(20; 12; 9). J’ai retiré 9 boules, dont j’ai retiré au moins une boule noire, donc
X4 (Ω) = J1; 9K, et
12
 8 
k 9−k
∀k ∈ J1; 9K, P(X4 = k) = 20
 .
9

29
On admettra les résultats suivants :

Théorème 3. 43. Soient N, M, n ∈ N∗ , M < N, n < N . Alors X ,→ H(N ; M ; n) si et seulement si




 J0; nK si n ≤ M et n ≤ N − M
J0; M K si M < n ≤ N − M

X(Ω) =

 Jn − (N − M ); M K si n > M et n > N − M
Jn − (N − M ); nK si N − M < n ≤ M

ou encore
X(Ω) = Jmax(0; n − (N − M )) ; min(n; M )K
et
M N −M
 
k n−k
∀k ∈ X(Ω), P(X = k) = N

n

Théorème 3. 44. Soient N, M, n ∈ N∗ , M < N, n < N . Si X ,→ H(N ; M ; n) alors, en posant


p= MN
∈]0; 1[ et q = 1 − p, on a

N −n
E(X) = np et V(X) = npq .
N −1

IV. Couples de variables aléatoires


1. Définitions
Définition 3. 45. (couple de v.a.)
Soit X une v.a. sur (Ω; P) à valeurs dans E,
et soit Y une v.a. sur (Ω; P) à valeurs dans F .
Le couple de v.a. X et Y , ou couple aléatoire (X; Y ), est l’application

(X; Y ) : Ω → E × F : ω → (X(ω); Y (ω))

C’est une v.a. sur (Ω; P).

Définition 3. 46. (loi conjointe)


Soient X : Ω → E et Y : Ω → F deux v.a. sur (Ω; P).
La loi conjointe du couple (X; Y ) est

f(X;Y ) : (X(Ω) × Y (Ω)) → [0; 1]


(x; y) → f(X;Y ) (x; y) = P([X = x] ∩ [Y = y])

Définition 3. 47. (lois marginales)


Si (X; Y ) est un couple de v.a. sur (Ω; P),
les lois de probabilité fX de X et fY de Y sont appelées lois marginales du couple.

30
Remarque 3. 48. Si X(Ω) = {x1 ; . . . ; xn } et Y (Ω) = {y1 ; . . . ; yk },
posons ∀i ∈ J1; nK, ∀j ∈ J1; kK,
pi,j = P([X = xi ] ∩ [Y = yj ]) = f(X;Y ) (xi ; yj ). Alors
1.
n X
X k
pi,j = 1
i=1 j=1

2.
k
X
∀i ∈ J1; nK, pi,j = fX (xi ) = P(X = xi )
j=1

3. n
X
∀j ∈ J1; kK, pi,j = fY (yj ) = P(Y = yj )
i=1

Exemple 3. 49. On lance deux dés bien équilibrés. On note X la v.a. du minimum des résultats et
Y la v.a. du maximum. Déterminer la loi conjointe et les lois marginales.

On a Ω = J1; 6K2 , donc N(Ω) = 36.


X(Ω) = Y (Ω) = J1; 6K.
1
p1,1 = P([X = 1] ∩ [Y = 1]) = P({(1; 1)}) = 36 .
p2,1 = P([X = 2] ∩ [Y = 1]) = 0 impossible, car X ≤ Y .
2
p1,2 = P([X = 1] ∩ [Y = 2]) = P({(2; 1); (1; 2)}) = 36 .
etc. On obtient le tableau suivant :

HH Y
HH
1 2 3 4 5 6 fX
X HH
1 2 2 2 2 2 11
1 36 36 36 36 36 36 36
1 2 2 2 2 9
2 0 36 36 36 36 36 36
1 2 2 2 7
3 0 0 36 36 36 36 36
1 2 2 5
4 0 0 0 36 36 36 36
1 2 3
5 0 0 0 0 36 36 36
1 1
6 0 0 0 0 0 36 36
1 3 5 7 9 11
fY 36 36 36 36 36 36
1

Définition 3. 50. (lois conditionnelles)


Soient X : Ω → E et Y : Ω → F deux v.a. sur (Ω; P).
Pour y ∈ Y (Ω), on appelle loi conditionnelle de X sachant (Y = y) l’application de X(Ω) dans [0; 1]
qui à x ∈ X(Ω) associe

fX|(Y =y) (x) = P(Y =y) (X = x)


= P(X = x|Y = y)
P([X = x] ∩ [Y = y]
=
P(Y = y)

31
De même, pour x ∈ X(Ω), on appelle loi conditionnelle de Y sachant (X = x) l’application de Y (Ω)
dans [0; 1] qui à y ∈ Y (Ω) associe

fY |(X=x) (y) = P(X=x) (Y = y)


= P(Y = y|X = x)
P([X = x] ∩ [Y = y]
=
P(X = x)

Exemple 3. 51. En reprenant l’exemple précédent, la loi de X sachant (Y = 4) est donnée par

X 1 2 3 4 5 6
fX|(Y =4) 27 27 27 17 0 0

Proposition 3. 52. Si (X; Y ) est un couple de v.a. sur (Ω; P),


et si ∀x ∈ X(Ω), P(X = x) 6= 0,
et si ∀y ∈ Y (Ω), P(Y = y) 6= 0, alors
X
P(X = x) = P(Y = y).P(X = x|Y = y)
y∈Y (Ω)
X
et P(Y = y) = P(X = x).P(Y = y|X = x).
x∈X(Ω)

Démonstration :
laissée en exercice, elle se déduit de la formule des probabilités totales.

Définition 3. 53. (vecteurs aléatoires)


Soient X1 , . . . , Xn des v.a. sur (Ω; P) à valeurs dans E1 , . . . , En respectivement.
Le vecteur aléatoire Z = (X1 ; . . . ; Xn ) est l’application

Z : Ω → E1 × · · · × En : ω → Z(ω) = (X1 (ω); . . . ; Xn (ω)).

La loi conjointe du vecteur Z est la loi de probabilité de la v.a. Z, c-à-d ∀x1 ∈ X1 (Ω), . . . , ∀xn ∈
Xn (Ω),

fZ (x1 ; . . . ; xn ) = f(X1 ;...;Xn ) (x1 ; . . . ; xn )


= P([X1 = x1 ] ∩ · · · ∩ [Xn = xn ])

Les lois des v.a. X1 , . . . , Xn sont appelées lois marginales du vecteur Z.

Proposition 3. 54. (fonction de deux v.a.)


Soient X et Y deux v.a. sur (Ω; P)
et u : X(Ω) × Y (Ω) → E. Alors ∀z ∈ E,
X
P(u(X; Y ) = z) = P([X = x] ∩ [Y = y])
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. u(x, y) = z

32
Remarque 3. 55. Si X et Y sont deux v.a.r. sur le même espace probabilisé (Ω; P), on peut donc
définir les lois de X + Y et X.Y : ∀z ∈ R,
i) X
P(X + Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. x + y = z
ii) X
P(X.Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. xy = z

Exemple 3. 56. Une urne contient n boules numérotées de 1 à n. On retire successivement et


avec remise deux boules de l’urne. Notons Ul (l = 1; 2), la v.a. du résultat de la l-ième boule et
X = U1 − U2 . Déterminer les lois de U1 , U2 et X.

• Les lois de U1 et U2 sont uniformes :


∀l ∈ J1; 2K, Ul (Ω) = J1; nK et ∀i ∈ J1; nK, P(Ul = i) = n1 .
• Le champ de X est X(Ω) = J−(n − 1); (n − 1)K.
Soit k ∈ X(Ω). X
P(X = k) = P(U1 = i ∩ U2 = j)
1≤i≤n
1≤j≤n
i−j =k
Calculons P(U1 = i ∩ U2 = j), ∀i, j ∈ J1; nK.
On a équiprobabilité. Or, N(Ω) = n2 , et
N(U1 = i ∩ U2 = j) = 1, donc
P(U1 = i ∩ U2 = j) = n12 . Donc
X 1
P(X = k) = .
n2
1≤i≤n
1≤j≤n
i−j =k
Combien y a-t-il de termes dans la somme ?
(1 ≤ i ≤ n) et (1 ≤ j ≤ n) et (i − j = k)
ssi (1 ≤ i ≤ n) et (1 ≤ j ≤ n) et (i = j + k)
ssi (1 ≤ j + k ≤ n) et (1 ≤ j ≤ n)
ssi (1 − k ≤ j ≤ n − k) et (1 ≤ j ≤ n)
ssi max(1 − k; 1) ≤ j ≤ min(n − k; n)
Il y a donc min(n − k; n) − max(1 − k; 1) + 1 termes.
Si k ≥ 0, alors max(1 − k; 1) = 1 et min(n − k; n) = n − k,
il y a donc (n − k) − 1 + 1 = n − k termes.

33
Si k < 0, alors max(1 − k; 1) = 1 − k et min(n − k; n) = n,
il y a donc n − (1 − k) + 1 = n + k termes.
On a donc montré que  n−k
n2
si k ≥ 0
P(X = k) = n+k
n2
sinon
Vous vérifierez en exercice que
n−1
X
P(X = k) = 1.
k=−(n−1)

On peut généraliser le théorème de transfert à un couple de v.a. :


Théorème 3. 57. (de transfert pour les couples aléatoires)
Soient X et Y deux v.a. sur (Ω; P)
et u : X(Ω) × Y (Ω) → R. Alors
X X
E(u(X; Y )) = u(x, y)P([X = x] ∩ [Y = y])
x∈X(Ω) y∈Y (Ω)

Remarque 3. 58. On a également un théorème analogue dans le cas de n v.a.

2. Indépendance des variables aléatoires


Définition 3. 59. (v.a. indépendantes)
Soient X et Y deux v.a. sur (Ω; P).
On dit que X et Y sont indépendantes lorsque
∀A ⊂ X(Ω), ∀B ⊂ Y (Ω),

P([X ∈ A] ∩ [Y ∈ B]) = P(X ∈ A).P(Y ∈ B)

c-à-d ∀A ⊂ X(Ω), ∀B ⊂ Y (Ω), les événements (X ∈ A) et (Y ∈ B) sont indépendants.

Théorème 3. 60. Deux v.a. X et Y sur (Ω; P) sont indépendantes si et seulement si

∀x ∈ X(Ω), ∀y ∈ Y (Ω), P([X = x] ∩ [Y = y]) = P(X = x).P(Y = y)

c-à-d ssi ∀x ∈ X(Ω), ∀y ∈ Y (Ω), f(X;Y ) (x; y) = fX (x).fY (y)

Remarque 3. 61. Vu le théorème 3.60, lorsque X et Y sont deux v.a. indépendantes sur (Ω; P), la
connaissance des deux lois marginales fX et fY permet de reconstituer la loi conjointe f(X;Y ) .

Exemple 3. 62. Dans l’exemple 3.49, X et Y ne sont pas indépendantes car


9 1
0 = P([X = 2] ∩ [Y = 1]) 6= P(X = 2).P(Y = 1) = ×
36 36

34
Théorème 3. 63. (indépendance de fonctions de v.a.)
Soient X et Y deux v.a. indépendantes sur (Ω; P),
si f est une application définie sur X(Ω) et si g est une application définie sur Y (Ω), alors les v.a.
f (X) et g(Y ) sont indépendantes.

Définition 3. 64. (indépendance de n v.a.)


Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P) à valeurs dans E1 × · · · × En . On dit que ces n v.a.
sont :
• deux à deux indépendantes lorsque ∀(i, j) ∈ J1; nK2 , i 6= j ⇒ Xi et Xj sont indépendantes ;
• mutuellement indépendantes lorsque
∀(x1 ; . . . ; xn ) ∈ X1 (Ω) × · · · × Xn (Ω), les événements (X1 = x1 ), . . . , (Xn = xn ) sont mutuellement
indépendants.

Théorème 3. 65. Soient X1 , . . . , Xn des v.a. sur (Ω; P) mutuellement indépendantes. Alors
• ∀k ∈ J2; n − 1K, les v.a. Y = (X1 ; . . . ; Xk ) et Z = (Xk+1 ; . . . ; Xn ) sont indépendantes ; et
• ∀k ∈ J2; n − 1K, si f est une fonction à k variables et g une fonction à (n − k) variables, alors
f (X1 ; . . . ; Xk ) et g(Xk+1 ; . . . ; Xn ) sont indépendantes.

Remarque 3. 66. Le résultat ci-dessus se généralise au cas où on partage l’ensemble des n v.a. en
plus de deux parties, on remplace alors ”indépendantes” par ”mutuellement indépendantes” dans
les conclusions.
Par exemple, si X, Y, Z et T sont quatre v.a. mutuellement indépendantes, alors :
• XY et ZT sont deux v.a. indépendantes, et
• X, Y + Z et T 2 sont trois v.a. mutuellement indépendantes.

3. Applications de l’indépendance
Théorème 3. 67. Si X1 , . . . , Xn sont n v.a. sur (Ω; P) qui suivent toutes la même loi de Bernoulli
Ber(p) et sont mutuellement indépendantes, alors X = X1 +· · ·+Xn suit la loi binomiale Bin(n; p).

Démonstration :
Si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors Xi (Ω) = {0, 1}.
Ceci implique que leur somme X(Ω) = J0; nK.
Soit k ∈ J0; nK fixé.
On a (X = k) ssi exactement k parmi les v.a. X1 , . . . , Xn sont égales à 1.
Il y a Ckn = nk façons de choisir ces k v.a. qui sont égales à 1 (les autres sont égales à 0).
Notons Xi1 , . . . , Xik les k v.a. qui sont égales à 1, et Xik+1 , . . . , Xin les v.a. qui sont égales à 0.
Puisque les (Xi ) sont mutuellement indépendantes, on a :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= P(Xi1 = 1) . . . P(Xik = 1).P(Xik+1 = 0) . . . P(Xin = 0)
Or ∀i ∈ J1; nK, Xi ,→ Ber(p), donc P(Xi = 1) = p et P(Xi = 0) = 1 − p.
Nous en déduisons donc :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= pk .(1 − p)n−k
a nk façons de choisir Xi1 , . . . , Xik , finalement,

Mais puisqu’il y
P(X = k) = nk pk (1 − p)n−k


On a donc démontré que X ,→ Bin(n; p).

35


Remarque 3. 68. Ce théorème est cohérent avec les calculs de l’espérance dans le théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors E(Xi ) = p.
Par linéarité de l’espérance, si X = X1 + · · · + Xn ,
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = n.p,
c’est ce que nous avions démontré pour la loi binomiale.

4. Espérance d’un couple aléatoire


Définition 3. 69. (espérance d’un couple aléatoire)
Soient X et Y deux v.a.r. sur (Ω; P), formant un couple aléatoire (X; Y ). Son espérance E(X; Y )
est définie par X X
E(X; Y ) = x.y.P([X = x] ∩ [Y = y])
x∈X(Ω) y∈Y (Ω)

Théorème 3. 70. (espérance du couple=espérance du produit)


Soient X et Y deux v.a.r. sur (Ω; P). Alors
E(X; Y ) = E(X.Y )

Démonstration :
On utilise le théorème de transfert pour les couples de v.a. avec la fonction u(X; Y ) = X.Y .

Exemple 3. 71. Calculons E(X; Y ) pour l’exemple 3.49.

E(X; Y )
1 2 2 2 2 2
= 1×1× +1×2× +1×3× +1×4× +1×5× +1×6×
36 36 36 36 36 36
1 2 2 2 2
+ 2×1×0+2×2× +2×3× +2×4× +2×5× +2×6×
36 36 36 36 36
1 2 2 2
+ 3×1×0+3×2×0+3×3× +3×4× +3×5× +3×6×
36 36 36 36
1 2 2
+ 4×1×0+4×2×0+4×3×0+4×4× +4×5× +4×6×
36 36 36
1 2
+ 5×1×0+5×2×0+5×3×0+5×4×0+5×5× +5×6×
36 36
1
+ 6×1×0+6×2×0+6×3×0+6×4×0+6×5×0+6×6×
36
= 441/36 = 49/4.

Théorème 3. 72. Soit (X; Y ) un couple de v.a.r. sur (Ω; P).


1. Si X et Y sont indépendantes, alors
E(X; Y ) = E(X).E(Y )

2. La réciproque est fausse.

36
Démonstration :
1. La démonstration est laissée en exercice. On utilisera le théorème 3.60.
2. Un contre-exemple est donné dans l’exemple 3.73 ci-dessous.

Exemple 3. 73. Soit X ,→ U ({−1; 0; 1}) et Y la variable indicatrice de l’événement (X = 0).


Écrire la loi conjointe de (X; Y ). Montrer que E(X; Y ) = E(X).E(Y ) mais que X et Y ne sont pas
indépendantes.

Pour rappel, Y variable indicatrice de l’événement (X = 0) signifie que Y (Ω) = {0; 1} et que Y = 1
ssi X = 0. Les événements (X = −1) ∩ (Y = 1), (X = 0) ∩ (Y = 0) et (X = 1) ∩ (Y = 1) sont donc
impossibles.
D’autre part, X ,→ U ({−1; 0; 1}), donc la loi marginale fX est donnée par le tableau :
X −1 0 1
fX 1/3 1/3 1/3
On calcule E(X) = (−1) × 13 + 0 × 31 + 1 × 13 = 0.
Nous pouvons donc déjà remplir certaines cases du tableau donnant la loi conjointe :
H
HH X
-1 0 1 fY
Y H
HH
0 0
1 0 0
fX 1/3 1/3 1/3 1
On remplira le tableau en exercice.
On peut donc calculer E(X; Y ), on obtient
E(X; Y ) = 0.
Nous avons donc établi que E(X; Y ) = E(X).E(Y ).
Cependant, X et Y ne sont pas indépendantes,
car P([X = −1] ∩ [Y = 1]) = 0,
mais P(X = −1).P(Y = 1) 6= 0.
Lorsque nous avons n v.a.r., nous pouvons généraliser la notion d’espérance d’un couple aléatoire à
un vecteur aléatoire :

Définition 3. 74. (espérance d’un vecteur aléatoire)


Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P).
Son espérance E(X1 ; . . . ; Xn ) est définie par
E(X1 ; . . . ; Xn )
X X
= ... x1 . . . xn .P([X1 = x1 ] ∩ · · · ∩ [Xn = xn ])
x1 ∈X1 (Ω) xn ∈Xn (Ω)

= E(X1 . . . Xn )

Théorème 3. 75. Soit (X1 ; . . . ; Xn ) un vecteur aléatoire sur (Ω; P).


Si X1 , . . . , Xn sont mutuellement indépendantes, alors
E(X1 ; . . . ; Xn ) = E(X1 ) . . . E(Xn )
La réciproque est fausse.

37
5. Covariance et corrélation
Définition 3. 76. (covariance)
Soient X et Y deux v.a.r. sur (Ω; P).
On appelle covariance de X et Y le réel
Cov(X; Y ) = E(X − E(X); Y − E(Y ))
Lorsque Cov(X; Y ) = 0, on dit que X et Y sont non corrélées ou décorrélées.

Théorème 3. 77. (propriétés de la covariance)


Soient X, Y et Z trois v.a.r. sur (Ω; P). Alors
1. Cov(X; Y ) = E(X; Y ) − E(X).E(Y )
2. Cov(X; X) = V(X)
3. Cov(X; Y ) = Cov(Y ; X) (symétrie)
4. ∀a ∈ R, Cov(aX + Y ; Z) = a Cov(X; Z) + Cov(Y ; Z) (bilinéarité)
5. V(X + Y ) = V(X) + V(Y ) + 2 Cov(X; Y )
6. Si X et Y sont indépendantes, alors Cov(X; Y ) = 0, mais la réciproque est fausse.

Démonstration :
1. Notons µX = E(X) et µY = E(Y ). Grâce aux propriétés de l’espérance,
Cov(X; Y ) = E(X − µX ; Y − µY )
= E((X − µX ).(Y − µY ))
= E(XY − µX Y − µY X + µX µY )
= E(XY ) − µX E(Y ) − µY E(X) + µX µY
= E(XY ) − µX µY − µY µX + µX µY
= E(X; Y ) − µX µY
2. Cette propriété se déduit du point précédent et de la formule de Koenig-Huygens, en remarquant
que E(X; X) = E(X 2 ).
3. Cette propriété se déduit du fait que E(X; Y ) = E(XY ) = E(Y X) = E(Y ; X).
4. Vu la première propriété et les propriétés de l’espérance,
Cov(aX + Y ; Z)
= E((aX + Y )Z) − E(aX + Y )E(Z)
= E(aXZ + Y Z) − (aE(X) + E(Y ))E(Z)
= aE(XZ) + E(Y Z) − aE(X)E(Z) − E(Y )E(Z)
= a[E(X; Z) − E(X)E(Z)] + [E(Y ; Z) − E(Y )E(Z)]
= a Cov(X; Z) + Cov(Y ; Z)
5. Cette propriété se déduit aisément des trois propriétés précédentes (laissé en exercice).
6. Cette propriété se déduit de la première propriété et du théorème 3.72.


Théorème 3. 78. (variance et indépendance) Si X et Y sont deux v.a.r. indépendantes sur (Ω; P),
alors
V(X + Y ) = V(X) + V(Y )
La réciproque est fausse.

38
Démonstration :
Ce théorème se déduit directement des propriétés de la covariance.


Théorème 3. 79. Si X1 , . . . , Xn sont n v.a.r. sur (Ω; P), alors


n
X X
V(X1 + · · · + Xn ) = V(Xi ) + 2 Cov(Xi ; Xj )
i=1 1≤i<j≤n

De plus si (X1 , . . . , Xn ) sont deux à deux indépendantes, alors


n
X
V(X1 + · · · + Xn ) = V(Xi )
i=1

Démonstration :
La première formule se démontre par récurrence sur n en utilisant les propriétés de la covariance.
La deuxième formule se déduit de la première grâce à la dernière propriété de la covariance. La
démonstration détaillée est laissée en exercice.

Remarque 3. 80. Les théorèmes 3.67 et 3.79 sont cohérents avec les calculs de la variance dans le
théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors V(Xi ) = p(1 − p).
Si les Xi sont mutuellement indépendants, alors ils sont deux à deux indépendants, et vu le théorème
précédent, si X = X1 + · · · + Xn ,
V(X) = V(X1 + · · · + Xn )
= V(X1 ) + · · · + V(Xn ) = np(1 − p).
C’est ce que nous avions calculé dans le théorème 3.41, puisque vu le théorème 3.79, X ,→ Bin(n; p).

Définition 3. 81. (corrélation)


Le coefficient de corrélation linéaire entre deux v.a.r. X et Y définies sur (Ω; P), de variance non
nulle, est :
Cov(X; Y )
ρ(X; Y ) =
σ(X)σ(Y )

6. Indépendance et décorrélation
Proposition 3. 82. Soient X et Y deux v.a.r. définies sur (Ω; P). Si X et Y sont indépendantes,
alors X et Y sont décorrélées : Cov(X; Y ) = ρ(X; Y ) = 0.

Remarque 3.83. L’indépendance est une hypothèse plus forte que la décorrélation, car l’indépendance
entraı̂ne la décorrélation. La réciproque est fausse en général, excepté dans le cas de v.a. de Bernoulli,
comme on le montre dans la proposition suivante :

Proposition 3. 84. Deux variables de Bernoulli sont indépendantes si et seulement si elles sont
décorrélées.

39
Démonstration :
On a vu que l’indépendance entraı̂ne la décorrélation. Montrons que la réciproque est vraie dans le
cas des variables de Bernoulli. Supposons que
X ,→ Ber(p1 ) et Y ,→ Ber(p2 ), avec p1 , p2 ∈ [0; 1], vérifient Cov(X; Y ) = 0. On a X(Ω) = Y (Ω) =
{0; 1}, donc
X X
E(X; Y ) = xy P([X = x] ∩ [Y = y])
x∈X(Ω) y∈Y (Ω)

= P([X = 1] ∩ [Y = 1])

D’autre part, Cov(X; Y ) = 0 ⇒ E(X; Y ) = E(X).E(Y ).


Mais on a vu que l’espérance d’une variable de Bernoulli est égale à son paramètre, donc E(X) = p1
et E(Y ) = p2 . Donc
E(X; Y ) = E(X).E(Y ) = p1 .p2 = P(X = 1).P(Y = 1).
Nous avons donc démontré que
P([X = 1] ∩ [Y = 1]) = P(X = 1).P(Y = 1).
Donc les événements (X = 1) et (Y = 1) sont indépendants.
Grâce au théorème 2.36, on en déduit que
• (X = 1) et {(Y = 1) = (Y = 0) sont indépendants,
• {(X = 1) = (X = 0) et (Y = 1) sont indépendants,
• {(X = 1) = (X = 0) et {(Y = 1) = (Y = 0) sont indépendants.
Vu le théorème 3.60, on en conclut que X et Y sont indépendantes.


7. Propriétés du coefficient de corrélation linéaire


Proposition 3. 85. (Propriétés du coefficient de corrélation)
Soient X et Y deux v.a.r. définies sur (Ω; P) de variance non nulle.
1. Le coefficient de corrélation prend ses valeurs dans l’intervalle [−1; 1] :

|ρ(X; Y )| ≤ 1.

2. X et Y sont presque sûrement liées par une relation affine, c-à-d ∃a, b ∈ R, P(Y = aX + b) = 1,
si et seulement si |ρ(X; Y )| = 1.

Démonstration :
1. Vu les propriétés de la covariance, il est aisé de démontrer que ∀x ∈ R,

V(Y − xX) = Cov(Y − xX; Y − xX)


= Cov(Y ; Y ) − 2xCov(X; Y ) + x2 Cov(X; X)
= V(Y ) − 2xCov(X; Y ) + x2 V(X)

Posons A = V(X), B = Cov(X; Y ) et C = V(Y ).


On a V(Y − xX) = Ax2 − 2Bx + C
Puisque la variance est toujours positive ou nulle, A et C sont positifs ou nuls. De plus, le
polynôme
Ax2 − 2Bx + C ≥ 0, ∀x ∈ R

40
Donc ce polynôme ne peut pas avoir deux racines réelles distinctes. Son discriminant ∆ est donc
négatif ou nul :
∆ = 4B 2 − 4AC ≤ 0
Donc B 2 ≤ AC,
√ √
donc |B| ≤ A C,
c-à-d |Cov(X; Y )| ≤ σ(X)σ(Y ),
d’où |ρ(X; Y )| ≤ 1.
2. En reprenant les mêmes notations,

|ρ(X; Y )| = 1
√ √
⇔ |B| = A C
⇔ ∆=0
⇔ le polynôme Ax2 − 2Bx + C admet une racine.

Donc
|ρ(X; Y )| = 1 ⇔ ∃a ∈ R, V(Y − aX) = 0. (2)
• Supposons |ρ(X; Y )| = 1.
Vu (2), ∃a ∈ R, V(Y − aX) = 0.
Posons b = E(Y − aX).
Par le théorème 3.36, puisque V(Y − aX) = 0, on a P(Y − aX = b) = 1.
Nous avons donc montré qu’il existe a ∈ R et b ∈ R tels que P(Y = aX + b) = 1.
• Supposons ∃a, b ∈ R, P(Y = aX + b) = 1.
Alors P(Y − aX − b = 0) = 1.
Par le théorème 3.28.2, on en déduit E(Y − aX − b) = 0, et par linéarité de l’espérance,
E(Y − aX) − b = 0, donc b = E(Y − aX). Posons Z = Y − aX. On a montré b = E(Z). On a

Y = aX + b ⇐⇒ Y − aX = b ⇐⇒ Z = E(Z)

Donc P(Z = E(Z)) = P(Y = aX + b) = 1.


Par le théorème 3.36, on en déduit que V(Z) = 0, c’est-à-dire V(Y − aX) = 0.
Vu (2), |ρ(X; Y )| = 1.

8. Régression linéaire
Soient X et Y deux v.a.r. définies sur (Ω; P), de variance non nulle.
Le but est de déterminer a et b réels tels que
E([Y − aX − b]2 ) est minimale.
Grâce à la formule de Koenig-Huygens, pour toute v.a.r. Z, V(Z) = E(Z 2 ) − E(Z)2 , donc E(Z 2 ) =
V(Z) + E(Z)2 .
Appliquons ceci avec Z = Y − aX − b :
E([Y − aX − b]2 ) = V(Y − aX − b) + E(Y − aX − b)2 .
Les deux termes de la somme du membre de droite sont positifs ou nuls. On va donc chercher deux
réels a et b qui minimisent chacun de ces deux termes.

41
• En utilisant les propriétés de la variance et de la covariance,

V(Y − aX − b) = V(Y − aX)


= Cov(Y − aX; Y − aX)
= V(Y ) − 2aCov(X; Y ) + a2 V(X)
1
= [a2 V(X)2 − 2aCov(X; Y )V(X) + Cov(X; Y )2 ]
V(X)
Cov(X; Y )2
− + V(Y )
V(X)
1 V(X)V(Y ) − Cov(X; Y )2
= [aV(X) − Cov(X; Y )]2 +
V(X) V(X)

Les deux termes de cette somme sont positifs ou nuls. Pour minimiser cette expression, on choisira
)
donc a de sorte que aV(X) − Cov(X; Y ) = 0, donc a = Cov(X;Y
V(X)
.
• L’autre terme de la somme est E(Y − aX − b)2 . Il est minimum s’il est nul. Nous allons donc choisir
b de sorte que E(Y − aX − b) = 0. Vu la linéarité de l’espérance, cette égalité est équivalente à
E(Y ) − aE(X) − b = 0. Donc b = E(Y ) − aE(X).
Les valeurs de a et b qui donnent la meilleure expression linéaire de Y en fonction de X sont donc

Cov(X; Y )
a =
V(X)
Cov(X; Y )
b = E(Y ) − E(X)
V(X)

On dit que ces valeurs de a et b réalisent une régression linéaire.

9. Moyenne empirique. Variance empirique.


Définition 3. 86. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
Leur moyenne empirique est définie par
n
1X
Xn = Xi
n i=1

Proposition 3. 87. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 . L’espérance et
la variance de leur moyenne empirique Xn sont

σ2
E(Xn ) = µ et V(Xn ) =
n

Démonstration :
Vu la linéarité de l’espérance,
n n
!
1X 1 X
E(Xn ) = E(Xi ) = µ =µ
n i=1 n i=1

42
On a vu que ∀a ∈ R, V(aX) = a2 V(X). Donc
n
!
1 X
V(Xn ) = 2 V Xi
n i=1

Par le théorème 3.79, puisque (X1 , . . . , Xn ) sont deux à deux indépendantes,


n
! n n
X X X
V Xi = V(Xi ) = σ 2 = n.σ 2
i=1 i=1 i=1

Nous avons donc montré que


1 2 σ2
V(Xn ) = n.σ =
n2 n


Définition 3. 88. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
La variance empirique de (X1 , . . . , Xn ) est définie par
n
1X
Vn = (Xi − Xn )2
n i=1

Proposition 3. 89. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
Leur variance empirique Vn vérifie :
n
!
1X 2 2
Vn = Xi − Xn (3)
n i=1

Démonstration :

n
1X
Vn = (Xi − Xn )2
n i=1
n
1X 2 2
= (Xi − 2Xn Xi + Xn )
n i=1
n
! n
! n
!
1X 2 1X 2 1X
= Xi − 2Xn Xi + Xn 1
n i=1 n i=1 n i=1
n
!
1X 2 2
= Xi − 2Xn .Xn + Xn
n i=1
n
!
1X 2 2
= Xi − X n
n i=1

43
Proposition 3. 90. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
L’espérance de leur variance empirique Vn est donnée par
n−1 2
E(Vn ) = σ
n

Démonstration :
Nous venons de démontrer que !
n
1X 2 2
Vn = X − Xn .
n i=1 i
Puisque l’espérance est linéaire, on en déduit
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1

2
Nous allons donc calculer d’abord E(Xi2 ), puis E(Xn ).
Pour le calcul de E(Xi2 ), nous utilisons la formule de Koenig-Huygens :

σ 2 = V(Xi ) = E(Xi2 ) − E(Xi )2 = E(Xi2 ) − µ2

Donc E(Xi2 ) = σ 2 + µ2 .
2
Nous raisonnons de la même manière pour calculer E(Xn ), en utilisant la proposition ci-dessus.

σ2 2 2
= V(Xn ) = E(Xn ) − E(Xn )2 = E(Xn ) − µ2
n
2 2
donc E(Xn ) = σn + µ2 .
Nous avons donc obtenu :
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1
n
!
σ2
 
1X 2
= (σ + µ2 ) − + µ2
n i=1 n
σ2
= σ 2 + µ2 − − µ2
n
n−1 2
= σ
n


44

Vous aimerez peut-être aussi