Académique Documents
Professionnel Documents
Culture Documents
Exemple 1.2.1 : De combien de façons peut-on asseoir 5 personnes sur 5 chaises numérotées ?
Solution :
La première personne entre et choisit une chaise, elle a 5 choix possibles.
La deuxième personne entre et choisit une chaise, il n’y en a plus que 4 qui sont libres, elle n’a donc
plus que 4 choix possibles.
Par le principe de la multiplication, il y a 5*4 façons d’asseoir les deux premières personnes.
La troisième personne entre et choisit une chaise, il en reste 3, elle a 3 choix possibles.
Par le principe de la multiplication, il y a (5*4)*3 façons d’asseoir les trois premières personnes.
etc.
La réponse est donc 5*4*3*2*1=120.
2. Permutations
Définition 1.2.1 : Le nombre de façons de placer n objets différents dans n cases différentes,
sachant que chaque case doit recevoir un et un seul objet, est appelé nombre de permutations de n
objets et noté P (n).
3. Arrangements
Définition 1.3.1 : Soit B un ensemble de r éléments, et soit C un ensemble de n éléments,
avec r ≤ n. Le nombre de façons d’associer à chaque élément de B un et un seul élément de C
sans répétition (c-à-d on utilise une fois ou zéro fois chaque élément de C), est appelé nombre
d’arrangements de r dans n, et noté Anr .
Théorème 1.3.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,
n!
Anr =
(n − r)!
1
4. Combinaisons
Définition 1.4.1 : Soit A un ensemble de n objets distincts. Le nombre de façons de choisir r
éléments (r ≤ n) parmi les n éléments de A sans répétition (c-à-d on choisit une fois ou zéro fois
chaque élément de A) est appelé nombre de combinaisons de r dans n et noté Crn .
Exemple 1.4.2 : On a une classe de 10 élèves, dont 3 doivent aller visiter une usine. Combien de
manières d’en choisir 3 parmi 10 ?
Solution :
Si nous raisonnons comme dans l’exemple précédent, en appliquant le principe de la multiplication,
nous obtenons 10*9*8. Cependant, on remarque que si on a choisi Arthur en premier, Bernard en
deuxième et Charles en troisième, c’est la même délégation que si on avait pris Bernard en premier,
Charles en deuxième et Arthur en troisième. En fait, dans la délégation, il n’y a pas d’ordre : pas
de président, pas de secrétaire, pas de trésorier. Donc
(Arthur, Bernard, Charles)=(B,C,A)=(A,C,B)=...={A,B,C}. Comptons combien de fois nous avons
compté le même ensemble {A,B,C}. C’est le nombre de permutations de A, B, C, c’est donc 3 !=6.
Nous devons donc diviser 10*9*8 par 3 !
Le nombre de délégations pour visiter l’usine est donc
10*9*8/(3 !)=120.
Théorème 1.4.3 : ∀r ∈ N, ∀n ∈ N, r ≤ n,
An
n n!
n
Cr = = r =
r r! r!(n − r)!
Proposition 1.4.4 :
n
a) Crn = Cn−r
n−1
b) Crn = Crn−1 + Cr−1
Théorème 1.5.2 : Soient n objets dont r1 sont indiscernables entre eux, r2 indiscernables entre
eux,..., rk indiscernables entre eux (avec r1 + r2 + ... + rk ≤ n). Alors il existe r1 !r2n!!...rk ! permutations
de ces n objets.
2
Exemple 1.5.3 : Un piéton doit se rendre du point A au point B, situé 7 rues au nord et 5 avenues à
l’est du point A. Combien d’itinéraires différents existe-t-il, sachant que le piéton ne marche jamais
vers le sud ou vers l’ouest ?
Solution :
Supposons que le piéton va d’abord vers le nord (n) 7 fois, puis vers l’est (e) 5 fois. C’est un premier
itinéraire, qu’on peut noter nnnnnnneeeee.
Si le piéton va d’abord vers l’est 5 fois, puis vers le nord, son itinéraire est eeeeennnnnnn.
De même, l’itinéraire nnneeenneenn correspond à : le piéton va 3 fois vers le nord, puis 3 fois vers
l’est, puis 2 fois vers le nord, puis 2 fois vers l’est, et enfin 2 fois vers le nord.
Compter les itinéraires, c’est donc compter le nombre de permutations de nnnnnnneeeee.
Le nombre d’itinéraires est donc 12 !/(7 ! 5 !)=792.
6. Binôme de Newton
Théorème 1.6.1 : ∀a ∈ R, ∀b ∈ R, ∀n ∈ N,
n
X
n
(a + b) = Ckn ak bn−k .
k=0
Définition 1.6.2 : Soit E un ensemble. L’ensemble de tous les sous-ensembles de E, noté P(E),
est appelé classe des parties de E.
Démonstration :
soit Ek l’ensemble des parties de E qui ont k éléments (k ≤ n). Notons N(Ek ) le nombre d’éléments
n
de Ek . N(E
Sk ) est égal au nombre de façons de choisir k éléments parmi n, donc N(Ek ) = Ck . Or
P(E) = k≤n Ek , donc
N(P(E)) = nk=0 N(Ek ) = nk=0 Ckn .1k .1n−k
P P
= (1 + 1)n = 2n
Exemple 1.6.5 : Une municipalité compte 300 habitants adultes. On veut former une délégation
pour rendre visite au maire. Combien y a-t-il de délégations différentes ?
Solution :
Supposons que l’on admet la délégation vide (personne ne se déplace) ou la délégation pleine (tout
le monde y va).
Chaque délégation est une partie de E, où E est l’ensemble des habitants, avec N(E) =300.
Il y a donc 2300 délégations.
A ⊂ B ⇔ ∀x, (x ∈ A ⇒ x ∈ B)
3
P(B) est l’ensemble des parties de B :
A ∈ P(B) ⇔ A ⊂ B
4
Chapitre 2 - Probabilités sur un univers fini
I. Univers fini
1. Expérience aléatoire
Définition 2.1. Une épreuve aléatoire est une expérience dont on connaı̂t tous les résultats possibles.
L’ensemble contenant tous les résultats possibles est appelé univers (ou espace échantillonnal) et
noté Ω.
Remarque 2. 3. Dans ce cours on se limitera au cas où Ω est un ensemble fini non vide.
2. Événements
Définition 2. 4. Soit Ω un univers fini.
• Les éléments de Ω sont appelés les possibles (ou éventualités).
• On appelle événement toute partie de Ω.
Un singleton est appelé événement élémentaire.
L’ensemble des événements est P(Ω).
• Si A est un événement, le complémentaire de A dans Ω, Ω \ A, est appelé son événement contraire
et noté {A.
• On dit que l’événement A implique (ou entraı̂ne) l’événement B lorsque A ⊂ B.
5
• les événements sont incompatibles deux à deux :
∀(i, j) ∈ J1; nK2 , i 6= j ⇒ Ai ∩ Aj = ∅, et
• la réunion de ces événements est l’événement certain :
n
[
Ai = A1 ∪ · · · ∪ An = Ω.
i=1
Exemple 2. 10.
1. Si A est un événement, alors {A, {A} est un système complet d’événements.
2. La famille des événements élémentaires ({x})x∈Ω est un système complet d’événements.
Définition 2. 13.
• Un événement de probabilité nulle est appelé événement impossible. L’ensemble vide ∅ est impos-
sible, ainsi que nous allons le voir ci-dessous.
• Un événement de probabilité égale à 1 est appelé événement certain. L’univers Ω est certain.
6
2. Propriétés
Théorème 2. 14. Soient A et B deux événements d’un espace probabilisé (Ω; P). On a :
1. P(∅) = 0 ;
2. P({A) = 1 − P(A) ;
3. Si A ⊂ B alors P(A) ≤ P(B) (P est croissante)
et P(B \ A) = P(B) − P(A) ;
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
5. Si (A1 , . . . , An ) = (Ai )i∈J1;nK est une famille d’événements incompatibles deux à deux, alors
n
[ n
X
P( Ai ) = P(Ai ).
i=1 i=1
c’est-à-dire
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An )
Démonstration :
1. Ω ∩ ∅ = ∅ et P est additive, donc
P(Ω ∪ ∅) = P(Ω) + P(∅).
Mais Ω ∪ ∅ = Ω, donc
P(Ω) = P(Ω) + P(∅).
Donc P(∅) = 0.
2. A ∩ ({A) = ∅ et P est additive, donc
P(A ∪ ({A)) = P(A) + P({A).
Mais A ∪ ({A) = Ω,
donc P(A ∪ ({A)) = P(Ω) = 1.
On a donc 1 = P(A) + P({A),
c-à-d P({A) = 1 − P(A).
3. Supposons A ⊂ B.
A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = B.
On a donc montré P(B) = P(A) + P(B \ A).
Donc P(B \ A) = P(B) − P(A).
Mais une probabilité est positive,
donc P(B \ A) ≥ 0,
donc P(B) − P(A) ≥ 0,
donc P(B) ≥ P(A).
4. (A ∩ B) ∩ (B \ A) = ∅ et P est additive, donc
P((A ∩ B) ∪ (B \ A)) = P(A ∩ B) + P(B \ A).
Mais (A ∩ B) ∪ (B \ A) = B, donc
P(B) = P(A ∩ B) + P(B \ A).
On en déduit
P(B \ A) = P(B) − P(A ∩ B). (1)
7
D’autre part, A ∩ (B \ A) = ∅ et P est additive,
donc P(A ∪ (B \ A)) = P(A) + P(B \ A).
Mais A ∪ (B \ A) = A ∪ B, donc
P(A ∪ B) = P(A) + P(B \ A).
En utilisant (1) dans l’égalité ci-dessus, il vient
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. — pour n = 2, c’est
A1 ∩ A2 = ∅ ⇒ P(A1 ∪ A2 ) = P(A1 ) + P(A2 ).
C’est vrai, par additivité de P.
— pour n = 3 :
on suppose
A1 ∩ A2 = ∅ et A1 ∩ A3 = ∅ et A2 ∩ A3 = ∅, alors
Théorème 2. 16. Soit (Ai )i∈J1;nK un système complet d’événements d’un espace probabilisé (Ω; P).
On a :
1. n
X
P(Ai ) = 1;
i=1
8
Démonstration :
1. Les événements A1 , . . . , An sont incompatibles deux à deux, donc, par le théorème 2.14, on a :
P(A1 ∪ · · · ∪ An ) = P(A1 ) + · · · + P(An ).
Mais A1 ∪ · · · ∪ An = Ω, donc
P(A1 ∪ · · · ∪ An ) = P(Ω) = 1, ce qui démontre que
P(A1 ) + · · · + P(An ) = 1.
2. On montre d’abord que les événements B ∩ A1 , . . . , B ∩ An sont incompatibles deux à deux :
soit (i, j) ∈ J1; nK2 avec i 6= j. Alors
(B ∩ Ai ) ∩ (B ∩ Aj ) = B ∩ (Ai ∩ Aj )
= B∩∅
= ∅.
Mais
(B ∩ A1 ) ∪ · · · ∪ (B ∩ An ) = B ∩ (A1 ∪ · · · ∪ An )
= B∩Ω
= B (car B ⊂ Ω)
Donc n
X
P(B) = P(B ∩ Ai ).
i=1
9
Démonstration :
laissée en exercice, en utilisant le théorème 2.16 et en remarquant que la famille des événements
élémentaires est un système complet d’événements.
Exemple 2. 18. On lance un dé truqué (ou pipé) à 6 faces tel que la probabilité d’obtenir la face
k est proportionnelle à k. Quelle est la probabilité d’obtenir un résultat pair ?
Exercice 2. 19. Refaire l’exemple avec un dé à n faces (n ∈ N, n ≥ 2). On rappelle la formule de
la progression arithmétique : 1 + 2 + · · · + n = n(n+1)
2
.
Démonstration :
Notons Ω = {x1 ; . . . ; xn } où n = card(Ω) = N(Ω).
1
On pose ∀i ∈ J1; nK, pi = P n
.
On a bien : ∀i, pi ≥ 0 et ni=1 pi = 1.
On utilise alors le théorème 2.17.
Exemple 2.21. On lance 6 fois un dé bien équilibré. Quelle est la probabilité d’obtenir les 6 numéros
de 1 à 6 ?
Exercice 2. 22. On tire 4 cartes (simultanément) au hasard dans un jeu de 32 cartes. Quelle est la
probabilité d’avoir 4 cœurs ?
10
III. Probabilités conditionnelles
1. Définition
Définition 2. 23. Soit (Ω; P) un espace probabilisé. Soit A un événement de probabilité non nulle.
Pour tout événement B, on définit la probabilité de B sachant A par
P(A ∩ B)
PA (B) = .
P(A)
Théorème 2. 24. PA est une probabilité sur Ω, appelée probabilité conditionnelle sachant A.
Remarque 2. 25. on note parfois PA (B) = P(B|A), à ne pas confondre avec P(B \ A).
Exemple 2. 26. On lance une pièce de monnaie bien équilibrée deux fois de suite. Quelle est la
probabilité d’avoir deux faces, étant donné :
1. que le premier lancer a donné face ?
2. qu’au moins un des deux lancers a donné face ?
P(A ∩ B) 1/4 1
PA (B) = = = .
P(A) 1/2 2
P(B ∩ C) 1/4 1
PC (B) = = = .
P(C) 3/4 3
11
2. Probabilités composées
Théorème 2. 27. Soient A et B deux événements. Alors
• P(A ∩ B) = P(A).PA (B), si P(A) 6= 0
• P(A ∩ B) = P(B).PB (A), si P(B) 6= 0
Exemple 2.28. Une urne contient 4 boules blanches et 2 noires. On tire une boule, puis on la remet
dans l’urne en ajoutant une autre boule de la même couleur. Ensuite on procède à un deuxième
tirage. Quelle est la probabilité d’obtenir 2 boules noires ?
Notons Bi (resp. Ni ) l’événement ”la ième boule tirée est blanche (resp. noire)”, pour i = 1; 2.
5/7 B2
B1
4/6 2/7 N2
•
2/6 4/7 B2
N1
3/7 N2
On a P(B1 ) = 46 ; P(N1 ) = 26 ; PN1 (N2 ) = 37 , donc
P(A1 ∩ · · · ∩ An ) = P(A1 ).PA1 (A2 ).PA1 ∩A2 (A3 ) . . . PA1 ∩···∩An−1 (An ).
Démonstration :
Ceci se déduit des théorèmes 2.16 et 2.27.
12
4. Formule de Bayes
Théorème 2. 31. (formule de Bayes)
Soit (Ai )i∈J1;nK un système complet d’événements tel qu’aucun n’est impossible.
Soit B un événement non impossible. Alors, ∀i ∈ J1; nK,
P(Ai ).PAi (B)
PB (Ai ) = Pn
k=1 P(Ak ).PAk (B)
Démonstration :
Cette formule découle directement de la définition d’une probabilité conditionnelle et de la formule
des probabilités totales.
IV. Indépendance
1. Indépendance de deux événements
Définition 2.33. Deux événements A et B d’un espace probabilisé (Ω; P) sont indépendants lorsque
P(A ∩ B) = P(A).P(B)
Exercice 2. 34. On tire une carte d’un jeu de 52 cartes. Montrer que les événements ”tirer un
pique” et ”tirer un as” sont indépendants.
Proposition 2. 35. Si A est un événement non impossible, alors A et B sont indépendants ssi
PA (B) = P(B).
13
Démonstration :
laissée en exercice.
Démonstration :
• A ∩ B et A ∩ ({B) sont disjoints :
(A ∩ B) ∩ (A ∩ {B) = A ∩ (B ∩ {B) = A ∩ ∅ = ∅.
Mais A = (A ∩ B) ∪ (A ∩ {B).
Puisque P est additive, ceci implique
P(A) = P(A ∩ B) + P(A ∩ {B).
A et B étant indépendants, on a donc
P(A) = P(A).P(B) + P(A ∩ {B).
Donc
Remarque 2. 38. Si des événements sont mutuellement indépendants, alors ils sont deux à deux
indépendants. La réciproque est fausse, comme le montre l’exemple suivant.
14
Exemple 2. 39. On lance deux dés. On définit les événements :
A1 : ”le premier dé amène un nombre pair”,
A2 : ”le deuxième dé amène un nombre pair”,
A3 : ”la somme des résultats obtenus est paire”.
Les événements (A1 , A2 , A3 ) sont-ils indépendants deux à deux ? Mutuellement indépendants ?
Proposition 2. 40. Si des événements sont mutuellement indépendants, alors leurs contraires sont
également mutuellement indépendants.
15
Chapitre 3 - Variables aléatoires sur un univers fini
I. Notion de variable aléatoire
1. Définition
Définition 3. 1. Soit Ω un univers fini.
• Toute application X : Ω → E est appelée variable aléatoire (v.a.).
• Lorsque E = R, on dit que X est une variable aléatoire réelle (v.a.r.).
• Lorsque X est constante, on parle de v.a. constante ou certaine.
• L’ensemble des images X(Ω) est un ensemble fini appelé le champ de la v.a. X.
Exemple 3. 2.
1. On lance deux dés. Soit X la v.a. de la somme des résultats.
Ω = J1; 6K × J1; 6K; ∀(i; j) ∈ Ω, X(i; j) = i + j; X(Ω) = J2; 12K
2. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a.
du montant (en EUR) gagné par le joueur.
Ω = {P ile; F ace}; Y (P ile) = −2; Y (F ace) = 5; Y (Ω) = {−2; 5}
Remarque 3. 4.
• L’ensemble des v.a.r. sur Ω, noté F(Ω; R), a une structure de R-espace vectoriel et d’anneau pour
les lois usuelles.
• Si X : Ω → E est une v.a. et u : E → F est une application, alors u ◦ X est une v.a. notée u(X).
16
2. Loi d’une variable aléatoire
Définition 3. 5. Soit X une v.a. sur (Ω; P).
• L’application fX : X(Ω) → [0; 1] définie par :
∀k ∈ X(Ω), fX (k) = P(X = k)
est appelée loi (ou loi de probabilité) de la v.a. X.
• La distribution de la v.a. X est l’ensemble formé par son champ X(Ω) et sa loi fX . Dans le cas où
le champ X(Ω) = {k1 ; . . . ; kn } est fini, la distribution est souvent notée sous forme d’un tableau :
X k1 ... kn
fX fX (k1 ) . . . fX (kn )
ii) De plus, X
fX (k) = 1.
k∈X(Ω)
Démonstration :
i)
(X ∈ A) = {ω ∈ Ω, X(ω) ∈ A}
Donc [
(X ∈ A) = {ω ∈ Ω, X(ω) = y}
y∈A
En d’autres termes, [
(X ∈ A) = (X = y),
y∈A
où
(X = y) = {ω ∈ Ω, X(ω) = y}.
Si y1 6= y2 , les ensembles (X = y1 ) et (X = y2 ) sont disjoints. En effet, si ω ∈ (X = y1 ) ∩ (X = y2 )
alors X(ω) = y1 et X(ω) = y2 donc y1 = y2 . Les événements (X = y)y∈A sont donc incompatibles
deux à deux.
Vu le théorème 2.14, !
[ X
P (X = y) = P(X = y)
y∈A y∈A
donc X
P(X ∈ A) = P(X = y).
y∈A
17
ii) Remarquons que
(X ∈ X(Ω)) = {ω ∈ Ω, X(ω) ∈ X(Ω)} = Ω,
donc P(X ∈ X(Ω)) = P(Ω) = 1.
On applique alors le point précédent avec A = X(Ω) :
X
1 = P(X ∈ X(Ω)) = P(X = y).
y∈X(Ω)
Exemple 3. 7.
1) On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR. Soit Y la v.a. du
montant (en EUR) gagné par le joueur. Donner la distribution de Y .
Remarquons que
fY (−2) = P(Y = −2) = P({P ile}) = 12 .
La distribution de Y est donc :
Y −2 5
1 1
fY 2 2
2) On lance deux dés. La v.a. X est la somme des résultats. Écrire la distribution de X.
1
N(Ω) = 36; fX (2) = P(X = 2) = P({(1; 1)}) = 36
2
fX (3) = P(X = 3) = P({(1; 2); (2; 1)}) = 36 , etc.
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
fX 36 36 36 36 36 36 36 36 36 36 36
Démonstration :
Soit β ∈ Y (Ω).
18
2. Loi uniforme
Définition 3. 12. Notons X(Ω) = {k1 ; . . . ; kn }. X suit une loi uniforme lorsque ∀i ∈ J1; nK,
P(X = ki ) = n1 . On note X ,→ U (X(Ω)).
Exemple 3. 13. On lance un dé bien équilibré. Soit X la v.a. du résultat. Alors X ,→ U (J1; 6K).
3. Loi de Bernoulli
Définition 3. 14. Soit p ∈ [0; 1], notons q = 1 − p. On dit que X suit une loi de Bernoulli de
paramètre p si X(Ω) = {0; 1}, P(X = 0) = q et P(X = 1) = p. On note X ,→ Ber(p).
1
Exemple 3. 15. Un archer a une probabilité 5
de toucher la cible. Il tire une flèche. Soit X la v.a.
du nombre de succès. Alors X ,→ Ber( 15 ).
Définition 3.16. Une épreuve aléatoire est appelée épreuve de Bernoulli lorsqu’elle a deux résultats
possibles : le succès (avec une probabilité p) et l’échec (avec une probabilité q = 1 − p). Lorsqu’on
a une seule épreuve de Bernoulli, la v.a. X du nombre de succès suit Ber(p).
Proposition 3.17. Si X et Y suivent une loi de Bernoulli, alors X.Y suit aussi une loi de Bernoulli.
19
Démonstration :
Puisque X et Y suivent une loi de Bernoulli, alors leur champ est X(Ω) = Y (Ω) = {0; 1}.
Ceci implique XY (Ω) = {0; 1}.
Notons alors p = P(XY = 1). Grâce au théorème 3.6.ii, P(XY = 0) = 1 − p = q.
4. Loi binomiale
Définition 3. 18. Soient n ∈ N∗ , p ∈ [0; 1] et q = 1 − p. X suit une loi binomiale de paramètres n
et p lorsque X(Ω) = J0; nK et ∀k ∈ J0; nK, P(X = k) = nk pk q n−k . On note X ,→ Bin(n; p).
Exemple 3. 20. Un archer a une probabilité 15 de toucher la cible. Il tire trois flèches. Soit X la
v.a. du nombre de succès. Déterminer la distribution de X.
4/5 1/5 S3
5
1/ R2
4/5 R3
•
1/5 S3
4/ S2
5
1/5 4/5 R3
R1
4/5 1/5 S3
R2
4/5 R3
4 3
P(X = 0) = P(R1 ∩ R2 ∩ R3 ) = 5 .
P(X = 1)
= P(S1 ∩ R2 ∩ R3 ) + P(R1 ∩ S2 ∩ R3 ) + P(R1 ∩ R2 ∩ S3 )
2
= 3 × 51 × 45 .
20
P(X = 2)
= P(S1 ∩ S2 ∩ R3 ) + P(S1 ∩ R2 ∩ S3 ) + P(R1 ∩ S2 ∩ S3 )
2
= 3 × 51 × 54 .
3
P(X = 3) = P(S1 ∩ S2 ∩ S3 ) = 51 .
Donc X ,→ Bin(3; 15 ).
Remarque 3. 22. L’espérance de X est une moyenne pondérée des valeurs prises par X.
Exemple 3. 23. On lance un dé bien équilibré. Soit X la v.a. du résultat. Calculer E(X).
Démonstration :
Posons X(Ω) = {k1 ; . . . ; kn }.
Notons Ai = {ω ∈ Ω, X(ω) = ki } = X −1 ({ki }).
Alors X
P(X = ki ) = P(Ai ) = P({ω}).
ω∈Ai
D’où
n
X
E(X) = ki P(X = ki ) (par définition)
i=1
n
!
X X
= ki P({ω})
i=1 ω∈Ai
Xn X
= ki P({ω})
i=1 ω∈Ai
Xn X
= X(ω)P({ω}) (car si ω ∈ Ai , alors ki = X(ω))
i=1 ω∈Ai
21
Or (A1 , . . . , An ) forment un système complet d’événements, donc
X
E(X) = X(ω)P({ω})
ω∈Ω
Exemple 3. 25. On joue à pile ou face. Si on obtient face, on gagne 5 EUR, sinon on perd 2 EUR.
Soit Y la v.a. du montant (en EUR) gagné par le joueur. Calculer l’espérance de Y , en utilisant la
définition, puis en utilisant le théorème 3.24.
Démonstration :
1. On utilise le théorème 3.24 :
X
E(X) = X(ω)P({ω})
ω∈Ω
X
= a.P({ω})
ω∈Ω
X
= a P({ω}) = a
ω∈Ω
22
Démonstration :
1) X est positive ou nulle ssi ∀x ∈ X(Ω), on a x ≥ 0.
Dans ce cas, X
E(X) = x.P(X = x)
x∈X(Ω)
23
Démonstration :
X ≤ Y ⇔ Y − X ≥ 0.
Vu le théorème 3.28, on en déduit que E(Y −X) ≥ 0, et vu la linéarité de l’espérance, E(Y )−E(X) ≥
0, c-à-d E(X) ≤ E(Y ).
E(X)
∀a > 0, P(X ≥ a) ≤ .
a
Démonstration :
Soit a > 0 fixé.
Définissons A = {ω ∈ Ω, X(ω) ≥ a} = (X ≥ a).
Grâce au théorème 3.24, X
E(X) = X(ω)P({ω})
ω∈Ω
Dans cette somme, puisque X ≥ 0, tous les termes sont positifs ou nuls, et puisque A ⊂ Ω,
X X
X(ω)P({ω}) ≤ X(ω)P({ω})
ω∈A ω∈Ω
Donc
X
E(X) ≥ X(ω)P({ω})
ω∈A
X
≥ a P({ω}) car si ω ∈ A, alors X(ω) ≥ a
ω∈A
X
≥ a P({ω})
ω∈A
≥ a P(A)
≥ a P(X ≥ a)
E(X)
On a donc montré P(X ≥ a) ≤ a
.
24
Démonstration :
Posons X(Ω) = {x1 ; . . . ; xn } et
Ak = X −1 ({xk }) = {ω ∈ Ω, X(ω) = xk } = (X = xk ).
Alors (A1 , . . . , An ) est un système complet d’événements de Ω. Vu le théorème 3.24,
X
E(u(X)) = u(X(ω)).P({ω})
ω∈Ω
n
" #
X X
= u(X(ω)).P({ω})
k=1 ω∈Ak
n
" #
X X
= u(xk ).P({ω}) car ω ∈ Ak ⇒ X(ω) = xk
k=1 ω∈Ak
n
" #
X X
= u(xk ) P({ω})
k=1 ω∈Ak
n
X
= u(xk ).P(Ak )
k=1
n
X
= u(xk ).P(X = xk )
k=1
X
= u(x).P(X = x)
x∈X(Ω)
2. Variance et écart-type
Définition 3. 32. (moments d’une v.a.)
Soit X une v.a.r. et r ∈ N.
On appelle moment d’ordre r de X l’espérance de la v.a. X r , c-à-d
X
E(X r ) = xr .P(X = x).
x∈X(Ω)
et l’écart-type de X est p
σ(X) = V(X).
Si X(Ω) = {x1 ; . . . ; xn }, alors
n
X
V(X) = (xi − E(X))2 P(X = xi ).
i=1
25
Remarque 3. 35. Ces notions permettent de mesurer la dispersion de X autour de sa valeur
moyenne.
Démonstration :
Ce résultat se déduit directement de la définition de la variance et du théorème 3.28.2.
Démonstration :
Posons µ = E(X). Par définition de la variance,
V(X) = E([X − µ]2 )
= E(X 2 − 2µX + µ2 )
= E(X 2 ) − 2µE(X) + E(µ2 ) par linéarité de l’espérance,
= E(X 2 ) − 2µE(X) + µ2 car l’espérance d’une constante est la constante,
= E(X 2 ) − 2µ2 + µ2 car E(X) = µ,
= E(X 2 ) − µ2 .
Remarque 3. 38. Comme nous le verrons par la suite dans la démonstration du théorème 3.41, il
est parfois judicieux de calculer E(X(X − 1)) ou E(X(X + 1)) pour en déduire E(X 2 ).
26
Démonstration :
1. Par définition, V(X) = E ([X − E(X)]2 ).
Or [X − E(X)]2 ≥ 0, et en utilisant le théorème 3.28, son espérance est positive ou nulle.
2. On a par linéarité de l’espérance
(aX + b) − E(aX + b) = (aX + b) − (aE(X) + b)
= a(X − E(X))
Donc
V(aX + b) = E([(aX + b) − E(aX + b)]2 ) (par définition)
= E([a(X − E(X))]2 ) (vu ci-dessus)
= E(a2 [X − E(X)]2 )
= a2 .E([X − E(X)]2 ) (par linéarité de l’espérance)
= a2 .V(X) (par définition)
27
Démonstration :
La démonstration des points a), b) et c) est laissée en exercice, avec ce rappel :
n n
X n(n + 1) X n(n + 1)(2n + 1)
k= et k2 =
k=1
2 k=1
6
Démonstration du point d) :
Supposons que X ,→ Bin(n; p).
• Montrons que E(X) = np :
n n
X X n k
E(X) = k.P(X = k) = k p (1 − p)n−k
k=0 k=1
k
n
X n!
= k pk (1 − p)n−k
k (k − 1)!(n − k)!
k=1
n
X (n − 1)!
= n pk (1 − p)n−k
k=1
(k − 1)!((n − 1) − (k − 1))!
n
X n−1
= n pk (1 − p)n−k
k=1
k−1
n−1
X n−1
= n pl+1 (1 − p)n−(l+1)
l=0
l
n−1
X n−1
= np pl (1 − p)n−1−l
l=0
l
= np (p + (1 − p))n−1 (formule du binôme de Newton)
= np
• Montrons que V(X) = np(1 − p) :
E(X(X − 1))
Xn
= k(k − 1).P(X = k)
k=0
n
X n k
= k(k − 1) p (1 − p)n−k
k=2
k
n
X n!
= (k−1)
k
pk (1 − p)n−k
(k−1)(k − 2)!(n − k)!
k=2
k
n
X (n − 2)!
= n(n − 1) pk (1 − p)n−k
k=2
(k − 2)!((n − 2) − (k − 2))!
n−2
(n − 2)!
X
= n(n − 1) pl+2 (1 − p)n−(l+2)
l=0
l!(n − 2 − l)!
n−2
2
X n−2
= n(n − 1)p pl (1 − p)n−2−l
l=0
l
= n(n − 1)p2 (p + (1 − p))n−2
= n(n − 1)p2
28
Par linéarité de l’espérance,
4. Loi hypergéométrique
C’est le résultat de l’expérience aléatoire suivante :
- on considère N objets (N ∈ N∗ ), dont M (M ∈ N∗ , M < N ) ont une caractéristique A, que l’on
considère comme un succès, et N − M n’ont pas cette caractéristique ;
- on prend simultanément n objets parmi les N (n ∈ N∗ , n < N ) ;
X est la v.a. du nombre de succès, c’est-à-dire le nombre d’objets retirés qui présentent la ca-
ractéristique A.
Alors X suit la loi hypergéométrique de paramètres N, M, n. On note X ,→ H(N ; M ; n).
Exemple 3. 42. 1. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément
4 boules. On note X1 la variable aléatoire du nombre de boules noires retirées. Donner la
distribution de X1 .
2. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément 8 boules. On note
X2 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X2 .
3. Une urne contient 20 boules, dont 7 sont noires. On retire simultanément 15 boules. On note
X3 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X3 .
On a X3 ,→ H(20; 7; 15). J’ai retiré 15 boules, dont j’ai retiré au moins 2 boules noires, donc
X3 (Ω) = J2; 7K, et
7
13
k 15−k
∀k ∈ J2; 7K, P(X3 = k) = 20
.
15
4. Une urne contient 20 boules, dont 12 sont noires. On retire simultanément 9 boules. On note
X4 la variable aléatoire du nombre de boules noires retirées. Donner la distribution de X4 .
On a X4 ,→ H(20; 12; 9). J’ai retiré 9 boules, dont j’ai retiré au moins une boule noire, donc
X4 (Ω) = J1; 9K, et
12
8
k 9−k
∀k ∈ J1; 9K, P(X4 = k) = 20
.
9
29
On admettra les résultats suivants :
ou encore
X(Ω) = Jmax(0; n − (N − M )) ; min(n; M )K
et
M N −M
k n−k
∀k ∈ X(Ω), P(X = k) = N
n
N −n
E(X) = np et V(X) = npq .
N −1
30
Remarque 3. 48. Si X(Ω) = {x1 ; . . . ; xn } et Y (Ω) = {y1 ; . . . ; yk },
posons ∀i ∈ J1; nK, ∀j ∈ J1; kK,
pi,j = P([X = xi ] ∩ [Y = yj ]) = f(X;Y ) (xi ; yj ). Alors
1.
n X
X k
pi,j = 1
i=1 j=1
2.
k
X
∀i ∈ J1; nK, pi,j = fX (xi ) = P(X = xi )
j=1
3. n
X
∀j ∈ J1; kK, pi,j = fY (yj ) = P(Y = yj )
i=1
Exemple 3. 49. On lance deux dés bien équilibrés. On note X la v.a. du minimum des résultats et
Y la v.a. du maximum. Déterminer la loi conjointe et les lois marginales.
HH Y
HH
1 2 3 4 5 6 fX
X HH
1 2 2 2 2 2 11
1 36 36 36 36 36 36 36
1 2 2 2 2 9
2 0 36 36 36 36 36 36
1 2 2 2 7
3 0 0 36 36 36 36 36
1 2 2 5
4 0 0 0 36 36 36 36
1 2 3
5 0 0 0 0 36 36 36
1 1
6 0 0 0 0 0 36 36
1 3 5 7 9 11
fY 36 36 36 36 36 36
1
31
De même, pour x ∈ X(Ω), on appelle loi conditionnelle de Y sachant (X = x) l’application de Y (Ω)
dans [0; 1] qui à y ∈ Y (Ω) associe
Exemple 3. 51. En reprenant l’exemple précédent, la loi de X sachant (Y = 4) est donnée par
X 1 2 3 4 5 6
fX|(Y =4) 27 27 27 17 0 0
Démonstration :
laissée en exercice, elle se déduit de la formule des probabilités totales.
La loi conjointe du vecteur Z est la loi de probabilité de la v.a. Z, c-à-d ∀x1 ∈ X1 (Ω), . . . , ∀xn ∈
Xn (Ω),
32
Remarque 3. 55. Si X et Y sont deux v.a.r. sur le même espace probabilisé (Ω; P), on peut donc
définir les lois de X + Y et X.Y : ∀z ∈ R,
i) X
P(X + Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. x + y = z
ii) X
P(X.Y = z) = P ((X = x) ∩ (Y = y))
x ∈ X(Ω)
y ∈ Y (Ω)
t.q. xy = z
33
Si k < 0, alors max(1 − k; 1) = 1 − k et min(n − k; n) = n,
il y a donc n − (1 − k) + 1 = n + k termes.
On a donc montré que n−k
n2
si k ≥ 0
P(X = k) = n+k
n2
sinon
Vous vérifierez en exercice que
n−1
X
P(X = k) = 1.
k=−(n−1)
Remarque 3. 61. Vu le théorème 3.60, lorsque X et Y sont deux v.a. indépendantes sur (Ω; P), la
connaissance des deux lois marginales fX et fY permet de reconstituer la loi conjointe f(X;Y ) .
34
Théorème 3. 63. (indépendance de fonctions de v.a.)
Soient X et Y deux v.a. indépendantes sur (Ω; P),
si f est une application définie sur X(Ω) et si g est une application définie sur Y (Ω), alors les v.a.
f (X) et g(Y ) sont indépendantes.
Théorème 3. 65. Soient X1 , . . . , Xn des v.a. sur (Ω; P) mutuellement indépendantes. Alors
• ∀k ∈ J2; n − 1K, les v.a. Y = (X1 ; . . . ; Xk ) et Z = (Xk+1 ; . . . ; Xn ) sont indépendantes ; et
• ∀k ∈ J2; n − 1K, si f est une fonction à k variables et g une fonction à (n − k) variables, alors
f (X1 ; . . . ; Xk ) et g(Xk+1 ; . . . ; Xn ) sont indépendantes.
Remarque 3. 66. Le résultat ci-dessus se généralise au cas où on partage l’ensemble des n v.a. en
plus de deux parties, on remplace alors ”indépendantes” par ”mutuellement indépendantes” dans
les conclusions.
Par exemple, si X, Y, Z et T sont quatre v.a. mutuellement indépendantes, alors :
• XY et ZT sont deux v.a. indépendantes, et
• X, Y + Z et T 2 sont trois v.a. mutuellement indépendantes.
3. Applications de l’indépendance
Théorème 3. 67. Si X1 , . . . , Xn sont n v.a. sur (Ω; P) qui suivent toutes la même loi de Bernoulli
Ber(p) et sont mutuellement indépendantes, alors X = X1 +· · ·+Xn suit la loi binomiale Bin(n; p).
Démonstration :
Si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors Xi (Ω) = {0, 1}.
Ceci implique que leur somme X(Ω) = J0; nK.
Soit k ∈ J0; nK fixé.
On a (X = k) ssi exactement k parmi les v.a. X1 , . . . , Xn sont égales à 1.
Il y a Ckn = nk façons de choisir ces k v.a. qui sont égales à 1 (les autres sont égales à 0).
Notons Xi1 , . . . , Xik les k v.a. qui sont égales à 1, et Xik+1 , . . . , Xin les v.a. qui sont égales à 0.
Puisque les (Xi ) sont mutuellement indépendantes, on a :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= P(Xi1 = 1) . . . P(Xik = 1).P(Xik+1 = 0) . . . P(Xin = 0)
Or ∀i ∈ J1; nK, Xi ,→ Ber(p), donc P(Xi = 1) = p et P(Xi = 0) = 1 − p.
Nous en déduisons donc :
P([Xi1 = 1] ∩ · · · ∩ [Xik = 1] ∩ [Xik+1 = 0] ∩ · · · ∩ [Xin = 0])
= pk .(1 − p)n−k
a nk façons de choisir Xi1 , . . . , Xik , finalement,
Mais puisqu’il y
P(X = k) = nk pk (1 − p)n−k
35
Remarque 3. 68. Ce théorème est cohérent avec les calculs de l’espérance dans le théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors E(Xi ) = p.
Par linéarité de l’espérance, si X = X1 + · · · + Xn ,
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = n.p,
c’est ce que nous avions démontré pour la loi binomiale.
Démonstration :
On utilise le théorème de transfert pour les couples de v.a. avec la fonction u(X; Y ) = X.Y .
E(X; Y )
1 2 2 2 2 2
= 1×1× +1×2× +1×3× +1×4× +1×5× +1×6×
36 36 36 36 36 36
1 2 2 2 2
+ 2×1×0+2×2× +2×3× +2×4× +2×5× +2×6×
36 36 36 36 36
1 2 2 2
+ 3×1×0+3×2×0+3×3× +3×4× +3×5× +3×6×
36 36 36 36
1 2 2
+ 4×1×0+4×2×0+4×3×0+4×4× +4×5× +4×6×
36 36 36
1 2
+ 5×1×0+5×2×0+5×3×0+5×4×0+5×5× +5×6×
36 36
1
+ 6×1×0+6×2×0+6×3×0+6×4×0+6×5×0+6×6×
36
= 441/36 = 49/4.
36
Démonstration :
1. La démonstration est laissée en exercice. On utilisera le théorème 3.60.
2. Un contre-exemple est donné dans l’exemple 3.73 ci-dessous.
Pour rappel, Y variable indicatrice de l’événement (X = 0) signifie que Y (Ω) = {0; 1} et que Y = 1
ssi X = 0. Les événements (X = −1) ∩ (Y = 1), (X = 0) ∩ (Y = 0) et (X = 1) ∩ (Y = 1) sont donc
impossibles.
D’autre part, X ,→ U ({−1; 0; 1}), donc la loi marginale fX est donnée par le tableau :
X −1 0 1
fX 1/3 1/3 1/3
On calcule E(X) = (−1) × 13 + 0 × 31 + 1 × 13 = 0.
Nous pouvons donc déjà remplir certaines cases du tableau donnant la loi conjointe :
H
HH X
-1 0 1 fY
Y H
HH
0 0
1 0 0
fX 1/3 1/3 1/3 1
On remplira le tableau en exercice.
On peut donc calculer E(X; Y ), on obtient
E(X; Y ) = 0.
Nous avons donc établi que E(X; Y ) = E(X).E(Y ).
Cependant, X et Y ne sont pas indépendantes,
car P([X = −1] ∩ [Y = 1]) = 0,
mais P(X = −1).P(Y = 1) 6= 0.
Lorsque nous avons n v.a.r., nous pouvons généraliser la notion d’espérance d’un couple aléatoire à
un vecteur aléatoire :
= E(X1 . . . Xn )
37
5. Covariance et corrélation
Définition 3. 76. (covariance)
Soient X et Y deux v.a.r. sur (Ω; P).
On appelle covariance de X et Y le réel
Cov(X; Y ) = E(X − E(X); Y − E(Y ))
Lorsque Cov(X; Y ) = 0, on dit que X et Y sont non corrélées ou décorrélées.
Démonstration :
1. Notons µX = E(X) et µY = E(Y ). Grâce aux propriétés de l’espérance,
Cov(X; Y ) = E(X − µX ; Y − µY )
= E((X − µX ).(Y − µY ))
= E(XY − µX Y − µY X + µX µY )
= E(XY ) − µX E(Y ) − µY E(X) + µX µY
= E(XY ) − µX µY − µY µX + µX µY
= E(X; Y ) − µX µY
2. Cette propriété se déduit du point précédent et de la formule de Koenig-Huygens, en remarquant
que E(X; X) = E(X 2 ).
3. Cette propriété se déduit du fait que E(X; Y ) = E(XY ) = E(Y X) = E(Y ; X).
4. Vu la première propriété et les propriétés de l’espérance,
Cov(aX + Y ; Z)
= E((aX + Y )Z) − E(aX + Y )E(Z)
= E(aXZ + Y Z) − (aE(X) + E(Y ))E(Z)
= aE(XZ) + E(Y Z) − aE(X)E(Z) − E(Y )E(Z)
= a[E(X; Z) − E(X)E(Z)] + [E(Y ; Z) − E(Y )E(Z)]
= a Cov(X; Z) + Cov(Y ; Z)
5. Cette propriété se déduit aisément des trois propriétés précédentes (laissé en exercice).
6. Cette propriété se déduit de la première propriété et du théorème 3.72.
Théorème 3. 78. (variance et indépendance) Si X et Y sont deux v.a.r. indépendantes sur (Ω; P),
alors
V(X + Y ) = V(X) + V(Y )
La réciproque est fausse.
38
Démonstration :
Ce théorème se déduit directement des propriétés de la covariance.
Démonstration :
La première formule se démontre par récurrence sur n en utilisant les propriétés de la covariance.
La deuxième formule se déduit de la première grâce à la dernière propriété de la covariance. La
démonstration détaillée est laissée en exercice.
Remarque 3. 80. Les théorèmes 3.67 et 3.79 sont cohérents avec les calculs de la variance dans le
théorème 3.41 :
si ∀i ∈ J1; nK, Xi ,→ Ber(p), alors V(Xi ) = p(1 − p).
Si les Xi sont mutuellement indépendants, alors ils sont deux à deux indépendants, et vu le théorème
précédent, si X = X1 + · · · + Xn ,
V(X) = V(X1 + · · · + Xn )
= V(X1 ) + · · · + V(Xn ) = np(1 − p).
C’est ce que nous avions calculé dans le théorème 3.41, puisque vu le théorème 3.79, X ,→ Bin(n; p).
6. Indépendance et décorrélation
Proposition 3. 82. Soient X et Y deux v.a.r. définies sur (Ω; P). Si X et Y sont indépendantes,
alors X et Y sont décorrélées : Cov(X; Y ) = ρ(X; Y ) = 0.
Remarque 3.83. L’indépendance est une hypothèse plus forte que la décorrélation, car l’indépendance
entraı̂ne la décorrélation. La réciproque est fausse en général, excepté dans le cas de v.a. de Bernoulli,
comme on le montre dans la proposition suivante :
Proposition 3. 84. Deux variables de Bernoulli sont indépendantes si et seulement si elles sont
décorrélées.
39
Démonstration :
On a vu que l’indépendance entraı̂ne la décorrélation. Montrons que la réciproque est vraie dans le
cas des variables de Bernoulli. Supposons que
X ,→ Ber(p1 ) et Y ,→ Ber(p2 ), avec p1 , p2 ∈ [0; 1], vérifient Cov(X; Y ) = 0. On a X(Ω) = Y (Ω) =
{0; 1}, donc
X X
E(X; Y ) = xy P([X = x] ∩ [Y = y])
x∈X(Ω) y∈Y (Ω)
= P([X = 1] ∩ [Y = 1])
|ρ(X; Y )| ≤ 1.
2. X et Y sont presque sûrement liées par une relation affine, c-à-d ∃a, b ∈ R, P(Y = aX + b) = 1,
si et seulement si |ρ(X; Y )| = 1.
Démonstration :
1. Vu les propriétés de la covariance, il est aisé de démontrer que ∀x ∈ R,
40
Donc ce polynôme ne peut pas avoir deux racines réelles distinctes. Son discriminant ∆ est donc
négatif ou nul :
∆ = 4B 2 − 4AC ≤ 0
Donc B 2 ≤ AC,
√ √
donc |B| ≤ A C,
c-à-d |Cov(X; Y )| ≤ σ(X)σ(Y ),
d’où |ρ(X; Y )| ≤ 1.
2. En reprenant les mêmes notations,
|ρ(X; Y )| = 1
√ √
⇔ |B| = A C
⇔ ∆=0
⇔ le polynôme Ax2 − 2Bx + C admet une racine.
Donc
|ρ(X; Y )| = 1 ⇔ ∃a ∈ R, V(Y − aX) = 0. (2)
• Supposons |ρ(X; Y )| = 1.
Vu (2), ∃a ∈ R, V(Y − aX) = 0.
Posons b = E(Y − aX).
Par le théorème 3.36, puisque V(Y − aX) = 0, on a P(Y − aX = b) = 1.
Nous avons donc montré qu’il existe a ∈ R et b ∈ R tels que P(Y = aX + b) = 1.
• Supposons ∃a, b ∈ R, P(Y = aX + b) = 1.
Alors P(Y − aX − b = 0) = 1.
Par le théorème 3.28.2, on en déduit E(Y − aX − b) = 0, et par linéarité de l’espérance,
E(Y − aX) − b = 0, donc b = E(Y − aX). Posons Z = Y − aX. On a montré b = E(Z). On a
Y = aX + b ⇐⇒ Y − aX = b ⇐⇒ Z = E(Z)
8. Régression linéaire
Soient X et Y deux v.a.r. définies sur (Ω; P), de variance non nulle.
Le but est de déterminer a et b réels tels que
E([Y − aX − b]2 ) est minimale.
Grâce à la formule de Koenig-Huygens, pour toute v.a.r. Z, V(Z) = E(Z 2 ) − E(Z)2 , donc E(Z 2 ) =
V(Z) + E(Z)2 .
Appliquons ceci avec Z = Y − aX − b :
E([Y − aX − b]2 ) = V(Y − aX − b) + E(Y − aX − b)2 .
Les deux termes de la somme du membre de droite sont positifs ou nuls. On va donc chercher deux
réels a et b qui minimisent chacun de ces deux termes.
41
• En utilisant les propriétés de la variance et de la covariance,
Les deux termes de cette somme sont positifs ou nuls. Pour minimiser cette expression, on choisira
)
donc a de sorte que aV(X) − Cov(X; Y ) = 0, donc a = Cov(X;Y
V(X)
.
• L’autre terme de la somme est E(Y − aX − b)2 . Il est minimum s’il est nul. Nous allons donc choisir
b de sorte que E(Y − aX − b) = 0. Vu la linéarité de l’espérance, cette égalité est équivalente à
E(Y ) − aE(X) − b = 0. Donc b = E(Y ) − aE(X).
Les valeurs de a et b qui donnent la meilleure expression linéaire de Y en fonction de X sont donc
Cov(X; Y )
a =
V(X)
Cov(X; Y )
b = E(Y ) − E(X)
V(X)
Proposition 3. 87. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 . L’espérance et
la variance de leur moyenne empirique Xn sont
σ2
E(Xn ) = µ et V(Xn ) =
n
Démonstration :
Vu la linéarité de l’espérance,
n n
!
1X 1 X
E(Xn ) = E(Xi ) = µ =µ
n i=1 n i=1
42
On a vu que ∀a ∈ R, V(aX) = a2 V(X). Donc
n
!
1 X
V(Xn ) = 2 V Xi
n i=1
Définition 3. 88. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
La variance empirique de (X1 , . . . , Xn ) est définie par
n
1X
Vn = (Xi − Xn )2
n i=1
Proposition 3. 89. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
Leur variance empirique Vn vérifie :
n
!
1X 2 2
Vn = Xi − Xn (3)
n i=1
Démonstration :
n
1X
Vn = (Xi − Xn )2
n i=1
n
1X 2 2
= (Xi − 2Xn Xi + Xn )
n i=1
n
! n
! n
!
1X 2 1X 2 1X
= Xi − 2Xn Xi + Xn 1
n i=1 n i=1 n i=1
n
!
1X 2 2
= Xi − 2Xn .Xn + Xn
n i=1
n
!
1X 2 2
= Xi − X n
n i=1
43
Proposition 3. 90. Soient X1 , . . . , Xn des v.a.r. mutuellement indépendantes, définies sur le même
espace probabilisé (Ω; P), qui suivent une même loi d’espérance µ et de variance σ 2 .
L’espérance de leur variance empirique Vn est donnée par
n−1 2
E(Vn ) = σ
n
Démonstration :
Nous venons de démontrer que !
n
1X 2 2
Vn = X − Xn .
n i=1 i
Puisque l’espérance est linéaire, on en déduit
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1
2
Nous allons donc calculer d’abord E(Xi2 ), puis E(Xn ).
Pour le calcul de E(Xi2 ), nous utilisons la formule de Koenig-Huygens :
Donc E(Xi2 ) = σ 2 + µ2 .
2
Nous raisonnons de la même manière pour calculer E(Xn ), en utilisant la proposition ci-dessus.
σ2 2 2
= V(Xn ) = E(Xn ) − E(Xn )2 = E(Xn ) − µ2
n
2 2
donc E(Xn ) = σn + µ2 .
Nous avons donc obtenu :
n
!
1X 2
E(Vn ) = E(Xi2 ) − E(Xn )
n i=1
n
!
σ2
1X 2
= (σ + µ2 ) − + µ2
n i=1 n
σ2
= σ 2 + µ2 − − µ2
n
n−1 2
= σ
n
44