Vous êtes sur la page 1sur 57

Licence 2 Mathématiques

Semestre 4

Université Paris-Saclay

Probabilités et Statistique
Math207
Notes de cours

Notes prises par Valentin Kanganagedara


Cours de Monsieur Sylvain Arlot

Année universitaire 2019-2020


Table des matières

1 Espaces de probabilité 3
1.1 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Fonction indicatrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 Propriétés du cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Ensemble de référence (et leurs cardinaux) . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 Bilan sur le dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Espaces de probabilité : définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 L’univers Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Les événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Mesure de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.4 Espaces de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.5 Mesure de probabilité uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Mesure de probabilité produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Mesure de probabilité produit et mesure de probabilité uniforme . . . . . . . . . . 12
1.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Indépendance et probabilité produit . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Indépendance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Variables aléatoires 17
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.3 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Quelques lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Loi uniforme sur {1, 2, · · · , n} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Loi de Bernoulli de paramètre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Loi binomiale de paramètres n et p . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1
TABLE DES MATIÈRES

2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Retour sur la loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Loi géométrique de paramètre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Espaces de probabilité dénombrables 25


3.1 Rappels sur les séries numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Mesure de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3 Variables aléatoires sur Ω dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Espérance d’une variable aléatoire de signe constant . . . . . . . . . . . . . . . . . 27
3.3.3 Familles sommables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.4 Espérance pour des variables aléatoires de signe quelconque . . . . . . . . . . . . . 28
3.3.5 Bilan sur la définition de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.6 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Loi de Poisson, ou loi des événements rares . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.2 Espérance de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.3 Loi d’une somme de deux variables de Poisson indépendantes . . . . . . . . . . . . 31
3.4.4 Utilisation de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 Variance et loi des grands nombres 33


4.0 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Propriétés de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.3 Variance et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.4 Variance de lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Statistique 41
5.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.1 Exemple : procès d’un casino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.2 Vocabulaire et définitions (tests) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.3 Formalisation : vocabulaire et démarche de construction d’un test . . . . . . . . . . 47
5.2.4 Exemple 2 : une pièce est-elle équilibrée ? . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.5 Puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.6 Procès d’un anesthésiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2
Chapitre 1
Espaces de probabilité

1.1 Dénombrement

1.1.1 Cardinal

Définition 1.1.1. Soit Ω un ensemble fini. Card(Ω) est le nombre d’éléments de Ω. Si n = Card(Ω), on
peut écrire : Ω = {ω1 , · · · , ωn }.

Propriété 1.1.2 (admise). Soient A et B deux ensembles finis. On a : Card A = Card B si et seulement
s’il existe une bijection f : A −→ B.

Rappels (injection, surjection, bijection) : Une fonction f : A −→ B est :

— injective si : ∀(x, y) ∈ A2 , x 6= y ⇒ f (x) 6= f (y) ;

— surjective si : ∀z ∈ B, ∃ x ∈ A, f (x) = z ;

— bijective si f est injective et bijective.

1.1.2 Fonction indicatrice

Définition 1.1.3. Soient A et Ω deux ensembles tels que A ⊆ Ω. La fonction indicatrice de A dans Ω
est :
1A : Ω −→  R
1 si x ∈ A
x 7→
0 sinon

Remarque 1.1. La fonction indicatrice a un lien avec le dénombrement.


X X
En effet, on a : Card A = 1= 1A (ω).
ω∈A ω∈Ω

3
CHAPITRE 1. ESPACES DE PROBABILITÉ

Proposition 1.1.4. Soient A et B deux sous-ensembles de Ω, et soit (x, y) ∈ Ω2 . Alors, on a :

(i) 1Ac (x) = 1 − 1A (x) ; (iii) 1A∪B (x) = 1A (x) + 1B (x) − 1A∩B (x) ;
(ii) 1A∩B (x) = 1A (x) × 1B (x) ; (iv) 1A×B (x, y) = 1A (x) × 1B (y) ;
p
X
(v) Si (Ai )1≤i≤p est une partition de A, alors : 1A (x) = 1Ai (x).
i=1

Démonstration. (i) Ac = {z ∈ Ω/z ∈


/ A}. On fait une disjonction de cas :

— Si x ∈ A : 1Ac (x) = 0 et 1 − 1A (x) = 1 − 1 = 0.


/ A, x ∈ Ac : 1Ac (x) = 1 et 1 − 1A (x) = 1 − 0 = 1.
— Si x ∈

(ii) A ∩ B = {z ∈ Ω/z ∈ A et z ∈ B}. On refait une disjonction de cas :

— x ∈ A et x ∈ B : 1A∩B (x) = 1 = 1A (x) × 1B (x) ;


— x ∈ A et x ∈
/ B : 1A∩B (x) = 0 = 1 × 0 = 1A (x) × 1B (x) ;
— x∈
/ A et x ∈ B : 1A∩B (x) = 0 = 0 × 1 = 1A (x) × 1B (x) ;
— x∈
/ A et x ∈
/ B : 1A∩B (x) = 0 = 0 × 0 = 1A (x) × 1B (x).

(iii) A ∪ B = {z ∈ Ω/z ∈ A ou z ∈ B}. On fait une disjonction de cas :

— x ∈ A et x ∈ B : 1A∪B (x) = 1 = 1 + 1 − 1 = 1A (x) + 1B (x) − 1A∩B (x) ;


— x ∈ A et x ∈
/ B : 1A∪B (x) = 1 = 1 + 0 − 0 = 1A (x) + 1B (x) − 1A∩B (x) ;
— x∈
/ A et x ∈ B : 1A∪B (x) = 1 = 0 + 1 − 0 = 1A (x) + 1B (x) − 1A∩B (x) ;
— x∈
/ A et x ∈
/ B : 1A∪B (x) = 0 = 0 + 0 − 0 = 1A (x) + 1B (x) − 1A∩B (x).

(iv) A × B = {(x, y) ∈ Ω × Ω/x ∈ A et y ∈ B}. On a : A × B = (A × Ω) ∩ (Ω × B), donc :

1A×B (x, y) = 1A×Ω (x, y) × 1Ω×B (x, y) = 1A (x) × 1B (y).

(v) (Ai )1≤i≤p est une partition de A lorsque :


[
1) Ai = A1 ∪ A2 ∪ · · · ∪ Ap = A ;
1≤i≤p

2) ∀(i, j) ∈ J1, pK2 , i 6= j ⇒ Ai ∩ Aj = ∅.

Ainsi : ∀z ∈ A, ∃ !i0 ∈ J1, pK, z ∈ Ai0 . On fait une disjonction de cas :


p
X
— x ∈ A : 1A (x) = 1 et 1Ai (x) = 1Ai0 (x) = 1 ;
i=1
p
X
— x∈
/ A : 1A (x) = 0 et 1Ai (x) = 0.
i=1

4
1.1. DÉNOMBREMENT

1.1.3 Propriétés du cardinal

Proposition 1.1.5. Soit Ω un ensemble fini et A et B deux sous-ensembles de Ω. Alors :

(i) Card Ac = Card Ω − Card A ; (ii) Card(A ∪ B) = Card A + Card B − Card(A ∩ B) ;


p
X
(iii) Si (Ai )1≤i≤p est une partition de A, on a : Card A = Card Ai ;
i=1

(iv) Card(A × B) = Card A × Card B ; (v) Card Ap = (Card A)p .


X X X X
Démonstration. (i) Card(Ac ) = 1Ac (ω) = (1 − 1A (ω)) = 1− 1A (ω) = Card Ω −
ω∈Ω ω∈Ω ω∈Ω ω∈Ω
Card A.
(ii)
X X
Card(A ∪ B) = 1A∪B (ω) = [1A (ω) + 1B (ω) − 1A∩B (ω)]
ω∈Ω ω∈Ω
X X X
= 1A (ω) + 1B (ω) − 1A∩B (ω) = Card A + Card B − Card(A ∩ B).
ω∈Ω ω∈Ω ω∈Ω

[
(iv) ({a} × B)a∈A forment une partition de A × B, car : {a} × B = {(a, b)/a ∈ A et b ∈ B}, et pour
a∈A
(a, a0 ) ∈ A2 , a 6= a0 ⇒ ({a} × B) ∩ ({a0 } × B) = ∅.
X
On a : Card(A × B) = Card({a} × B) = Card A × Card B.
a∈A
p p−1
(v) A = A × A pour p ≥ 2 donc : Card Ap = Card A × Card(Ap−1 ).
Si p = 1 : A = A ⇒ Card Ap = Card A. Par récurrence, on obtient que : Card Ap = (Card A)p .
p

1.1.4 Ensemble de référence (et leurs cardinaux)


1.1.4.1 Ensemble des p-uplets à valeurs dans {1, · · · , n}

Définition 1.1.6. Pour tout p ∈ N∗ , {1, 2, · · · , n}p = {(x1 , · · · , xp )/x1 ∈ J1, nK, · · · , xp ∈ J1, nK}.
On a Card({1, 2, · · · , n}p ) = np .

Proposition 1.1.7. Si A et B sont deux ensembles finis tels que Card A = p et Card B = n. L’ensemble
des fonctions f : A −→ B est en bijection avec {1, 2, · · · , n}p , il est donc aussi de cardinal np .

Démonstration. On écrit A = {1, · · · , p} et B = {1, · · · , n} pour simplifier. Soit :


g : {1, · · · , n}p −→ {fonctions : A −→ B}
f : A −→ B .
(x1 , · · · , xp ) 7→
x 7→ xi

1) g est bien définie car : ∀i ∈ A, xi ∈ B.


2) g est injective car si (x1 , · · · , xp ) 6= (x01 , · · · , x0p ), alors : ∃ i0 ∈ J1, pK, xi0 6= x0i0 et donc :

g((x1 , · · · , xp ))(i0 ) = xi0 6= x0i0 = g((x01 , · · · , x0p ))(i0 ) ⇒ g(x1 , · · · , xp ) 6= g(x01 , · · · , x0p ).

5
CHAPITRE 1. ESPACES DE PROBABILITÉ

3) g est surjective car si f : A −→ B, g(f (1), · · · , f (p)) = f .

1.1.4.2 Ensemble des parties de {1, 2, · · · , n}

Définition 1.1.8. L’ensemble des parties de {1, 2, · · · , n}, noté P({1, 2, · · · , n}) est :

P({1, 2, · · · , n}) = {A/A ⊆ {1, · · · , n}}.

Proposition 1.1.9. P({1, · · · , n}) est en bijection avec {0, 1}n . Il est donc de cardinal 2n .

f: {0, 1}n −→ P({1, · · · , n})


Démonstration. Soit .
(x1 , · · · , xn ) 7→ {i ∈ J1, nK, xi = 1}

1) f est bien définie.


2) f est injective : si x = (x1 , · · · , xn ) 6= x0 = (x01 , · · · , x0n ), alors : ∃ i0 ∈ J1, nK, xi0 6= x0i0 , donc
f (x) 6= f (x0 ) car l’un contient i0 et pas l’autre.
3) f est surjective car : ∀A ⊆ J1, nK, f ((1A (1), 1A (2), · · · , 1A (n))) = A.

1.1.4.3 Ensemble des permutations de n éléments

Définition 1.1.10. L’ensemble des permutations de n éléments est :

S(n) = {g : {1, · · · , n} −→ {1, · · · , n}/g bijective}.

Proposition 1.1.11. On a : Card S(n) = n! = Card({g : E −→ F/g bijective}), pour tous ensembles
E et F de cardinal n.

Démonstration. On a n choix pour g(1), puis, sachant g(1), on a n − 1 pour g(2). Ensuite, sachant g(1)
et g(2), on a n − 2 choix pour g(3) et ainsi de suite. Enfin, sachant g(1), g(2), jusqu’à g(n − 1), il nous
reste un seul choix pour g(n).
En tout, on a : n(n − 1)(n − 2) × · · · × 2 × 1 = n! choix.

1.1.4.4 Ensemble des arrangements de p éléments de {1, · · · , n}

Définition 1.1.12. L’ensemble des arrangements de p éléments de {1, · · · , n} est :

{(x1 , · · · , xp ) ∈ {1, · · · , n}p /∀(i, j) ∈ J1, pK2 , i 6= j ⇒ xi 6= xj }


.

6
1.1. DÉNOMBREMENT

Proposition 1.1.13. Pour n ≥ p :


n!
Card ({arrangements de p éléments de {1, · · · , n}}) = n(n − 1) × · · · × (n − p + 1) = = Apn
(n − p)!
= Card({f : E −→ F/ f injective})

avec Card E = p et Card F = n.


Pour n < p, ce cardinal vaut 0.

Démonstration. On a n choix pour x1 , puis sachant x1 , on a n − 1 choix pour x2 , et ainsi de suite. À


la fin, sachant x1 , x2 , ..., xp−1 , on a n − (p − 1) = n − p + 1 choix pour xp .
Pour simplifier, on pose E = {1, · · · , p} et F = {1, · · · , n}. On définit :
g : {arrangements de p éléments de {1, · · · , n}} −→ {injections : E −→ F }
g : E −→ F .
x = (x1 , · · · , xp ) 7→
i 7→ xi

Soit x un arrangement. Si i 6= j, g(x)(i) = xi 6= xj . = g(x)(j) donc g est bien à valeurs dans


{injections : E −→ F }.
Pour tous arrangements x et x0 différents, g(x) 6= g 0 (x) (cf. la démonstration de la section 1.1.4.1).
Soit f : E −→ F une injection. (f (1), · · · , f (p)) est un arrangement puisque i 6= j ⇒ f (i) 6= f (j) car
f est injective. g((f (1), · · · , f (p))) = f donc g est surjective, et donc bijective.

1.1.4.5 Ensemble des parties de p éléments de {1, · · · , n}

Définition 1.1.14. L’ensemble des parties de p éléments de {1, · · · , n} est :


{A ∈ P({1, · · · , n})/ Card A = p}
= {{x1 , · · · , xp }/∀i ∈ J1, pK, xi ∈ J1, nK et ∀(i, j) ∈ J1, pK2 , i 6= j ⇒ xi 6= xj }.

Proposition 1.1.15. Pour tout ensemble E de cardinal n :



   n!
p n si 0 ≤ p ≤ n
Card(A ∈ P(E)/ Card A = p}) = Cn = = p!(n − p)!
p 
0 sinon

Démonstration. Si p ∈ / {0, · · · , n}, {A ∈ P(E)/ Card A = p} = ∅.


Si p ∈ {0, · · · , n} :

[
{arrangements de p éléments de {1, · · · , n}} = {(x1 , · · · , xp )/{x1 , · · · , xp } = 1}.
A∈P({1,··· ,n})
Card A=p

C’est une partition de {arrangements de p éléments de {1, · · · , n}} : soit A 6= A0 deux parties à p
éléments de {1, · · · , n}. On a : {(x1 , · · · , xp )/{x1 , · · · , xp } = A} ∩ {(x1 , · · · , xp } = A0 } = ∅, donc :
 
p
X n
An = Card({(x1 , · · · , xp )/{x1 , · · · , xp } = A} = p! .
p
A∈P({1,··· ,n})
Card A=p

7
CHAPITRE 1. ESPACES DE PROBABILITÉ

n!
Apn
 
n (n−p)! n!
d’où : = = = .
p p! p! p!(n − p)!

Propriétés 1.1.16. Soit n ∈ N∗ et p ∈ {0, · · · , n}.


           
n n n n n n
1) = = 1; = et = = n.
0 n n−p p 1 n−1
 
n
2) = nombre de façons d’écrire un n-uplet à valeurs dans {0, 1} avec p fois le chiffre 1 = nombre
p
n
X
n
de solutions (ε1 , · · · , εn ) ∈ {0, 1} de l’équation εi = p.
i=1
3) Formule du binôme de Newton : pour tout (a, b) ∈ R2 , et n ∈ N :
n  
X
n n k n−k
(a + b) = a b .
k
k=0
n  
X n
4) = 2n .
k
k=0
     
n n−1 n−1
5) ∀n ∈ N ∩ [2, +∞[, ∀p ∈ {1, · · · , n − 1} : = + .
p p p−1
Démonstration. 2)
g : {{0, 1}n avec p éléments} −→ {P({1, · · · , n}) avec p éléments}
x = (x1 , · · · , xp ) 7→ {i/xi = 1}
est une bijection.
3) On a, pour (a, b) ∈ R2 et n ∈ N :

(a + b)n = (a + b) × (a + b) × · · · × (a + b)
X
= aε1 b1−ε1 aε2 b1−ε2 · · · aεn b1−εn
(ε1 ,··· ,ε2 )∈{0,1}n
X
= aε1 +···+εn bn−(ε1 +···+εn )
(ε1 ,··· ,ε2 )∈{0,1}n
X n X
= ak bn−k
k=0 (ε1 ,··· ,ε2 )∈{0,1}n
ε1 +···+εn =k
n
X n
k n−k
= a b
k
k=0

5) On dénombre de deux manières l’ensemble des parties à p éléments de {1, · · · , n} :


 
n
— j’ai possibilités ;
p
— on
 exclut 1 il reste p − 1 éléments à choisir (si 1 avait été pris), soit il en reste p, d’où :
et soit 
n−1 n−1
+ .
p p−1

8
1.2. ESPACES DE PROBABILITÉ : DÉFINITIONS

1.1.5 Bilan sur le dénombrement


Choix de p éléments parmi n possibilités :
— Ordonnés avec répétitions : p-uplets : np ;
n!
— Ordonnés sans répétitions : arrangements : Apn = ;
(n − p)!
 
n n!
— Non ordonnés sans répétition : combinaison : =
p p!(n − p)!
On a aussi :
— Parties (sans préciser le nombre d’éléments) : 2n ;
— Ordre parmi n éléments : permutations : n!.

1.2 Espaces de probabilité : définitions


1.2.1 L’univers Ω

Définition 1.2.1. L’univers Ω est un ensemble non vide qui rassemble au moins tous les résultats
possibles de l’expérience considérée.
Exemple 1.1. — Lancer d’un dé à 6 faces : Ω = {1, · · · , 6}, ou Ω = {1, · · · , 10}, même si c’est moins
naturel.
— Lancer d’une pièce (pile ou face) une fois : Ω = {0, 1}, Ω = {1, 2}, ou Ω = {P, F }.
— Lancer d’une pièce n fois : Ω = {0, 1}n .
— Tirages du loto : Ω = {1, · · · , 49}5 , ou Ω = {arrangements de 5 éléments de {1, · · · , 49}}, ou encore
Ω = {parties à 5 éléments de {1, · · · , 49}}.
— Nombre d’accidents de la route en 2020 à Orsay : Ω = N.
Pour le moment, on va toujours supposer que Ω est fini.

1.2.2 Les événements

Définition 1.2.2. Un élément ω de Ω est un événement élémentaire.


Une partie de Ω est appelé un événement (un ensemble d’états possibles de l’univers).
L’ensemble des éléments est P(Ω).
Exemple 1.2 (lancer d’un dé). {1}, {1, 2, 3, 4} sont des événements. « obtenir un tirage impair » =
{1, 3, 5}.

Définition 1.2.3. Deux événements A et B sont dits incompatibles si A ∩ B = ∅ (réalisation simultanée


impossible).
Exemple 1.3 (lancer d’un dé). « résultat impair » et {2} sont incompatibles.

Définition 1.2.4. Des événements (Ai )1≤i≤n forment une partition de Ω lorsque :
n
[
— Ai = Ω.
i=1
— ∀(i, j) ∈ J1, nK2 , i ≤ j ⇒ Ai ∩ Aj = ∅.
On dit aussi que (Ai )1≤i≤n est un système complet d’événements.

9
CHAPITRE 1. ESPACES DE PROBABILITÉ

Exemple 1.4 (lancer d’un dé). {1}, {2, 4, 6} et {3, 5} forment une partition de Ω. « Tirage pair » et
« Tirage impair » aussi.

1.2.3 Mesure de probabilité

Définition 1.2.5. Soit Ω un univers. X


Un germe de probabilité est une fonction p : Ω −→ [0, 1] telle que : p(ω) = 1.
ω∈Ω
La mesure de probabilité P associée au germe p est la fonction :
P : P(Ω) −→ [0,X
1]
A 7→ P (A) = p(ω)
ω∈A

Une mesure de probabilité est une mesure de probabilité associée à un germe p (non précisé).

−→ [0, 1]
p:Ω
Exemple 1.5 (lancer d’un dé). Ω = {1, · · · , 6}. 1 est un germe de probabilité.
ω 7→
6
1
Soit P la mesure de probabilité associée. On a : P ({2, 4, 6}) = .
2

Proposition 1.2.6. Une mesure de probabilité P sur Ω vérifie :


— P (Ω) = 1 ;
— Pour tous événements A et B dans P(Ω) incompatibles : P (A ∪ B) = P (A) + P (B) ;
— Pour tous événements A et B dans P(Ω) : P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
X
Démonstration. — P (Ω) = p(ω) = 1 car p est un germe ;
ω∈Ω
X X X
— P (A ∪ B) = p(ω) = p(ω) + p(ω) = P (A) + P (B).
A et B
ω∈A∪B disjoints ω∈A ω∈B
X X
— ∀C ⊂ Ω, P (C) = p(ω) = p(ω) 1C (ω). On a : 1A∪B = 1A + 1B − 1A∩B , donc :
ω∈C ω∈Ω
X
P (A ∪ B) = p(ω)(1A (ω) + 1B (ω) − 1A∩B (ω))
ω∈Ω
X X X
= p(ω) 1A (ω) + p(ω) 1B (ω) − p(ω) 1A∩B (ω) = P (A) + P (B) − P (A ∩ B).
ω∈Ω ω∈Ω ω∈Ω

Proposition 1.2.7. Une mesure de probabilité P sur Ω vérifie :


— Si Ac = Ω\A, P (Ac ) = 1 − P (A) ;
n
X
— Si (Ai )1≤i≤n est une partition de A ⊂ Ω, P (Ai ) = P (A) ;
i=1
— Si ω ∈ Ω, P ({ω}) = p(ω) où p est le germe associé à P .

Démonstration. — Conséquence de : 1Ac = 1 − 1A ;

10
1.3. MESURE DE PROBABILITÉ PRODUIT

n
X
— Conséquence de 1A = 1Ai ;
i=1
— Évident sur la définition.

1.2.4 Espaces de probabilité

Définition 1.2.8. Un espace de probabilité est la donnée de Ω un univers et P une mesure de probabilité
sur Ω.

On dit : « Ω muni d’une mesure de probabilité P » ou « muni d’un germe p ».

1.2.5 Mesure de probabilité uniforme

Définition 1.2.9. Si Ω est fini, la mesure de probabilité uniforme sur Ω est la mesure de probabilité
associée au germe p défini par :
1
∀ω ∈ Ω, p(ω) = .
Card Ω
X 1
Remarque 1.2. — p est bien un germe : il est bien à valeurs dans [0, 1] et = 1.
Card Ω
ω∈Ω
— p est l’unique germe constant.
Exemple 1.6. — dé équilibré : Ω = {1, · · · , 6} ;
— pièce équilibrée : Ω = {0, 1} ;
— choix "au hasard" (uniforme) dans une population Ω.

Proposition 1.2.10. Si P est la mesure de probabilité uniforme sur Ω, alors :

Card A
∀A ⊂ Ω, P (A) = .
Card Ω
X 1 Card A
Démonstration. P (A) = = .
Card Ω Card Ω
ω∈A

1.3 Mesure de probabilité produit


1.3.1 Formalisation

Proposition - Définition 1.3.1. Si (Ω1 , P1 ) et (Ω2 , P2 ) sont deux espaces de probabilité et p1 et p2


sont les germes associés alors, sur Ω = Ω1 × Ω2 , on définit le germe de probabilité « produit de p1 et
p2 » par :

∀(ω1 , ω2 ) ∈ Ω1 × Ω2 , p((ω1 , ω2 )) = p(ω1 ) × p(ω2 ).


La mesure de probabilité associée P est la mesure de probabilité produit de P1 et P2 .
L’espace de probabilité (Ω, P ) est l’espace de probabilité produit de (Ω1 , P1 ) et (Ω2 , P2 ).

11
CHAPITRE 1. ESPACES DE PROBABILITÉ

Démonstration. — p((ω1 , ω2 )) = p(ω1 ) × p(ω2 ) ∈ [0, 1].


| {z } | {z }
∈[0,1] ∈[0,1]
X X X X X X
— p(ω) = p1 (ω1 ) × p2 (ω2 ) = p1 (ω1 ) p2 (ω2 ) = p1 (ω1 ) × 1 = 1.
ω∈Ω ω1 ∈Ω1 ω2 ∈Ω2 ω1 ∈Ω1 ω2 ∈Ω2 ω1 ∈Ω1

Notation : On note : P = P1 ⊗ P2 et p = p1 ⊗ p2 .
Remarque 1.3. — Si (Ω1 , P1 ), ..., (Ωn , Pn ) sont des espaces de probabilité, on définit de même l’espace
de probabilité produit (Ω1 × · · · × Ωn , P1 ⊗ · · · ⊗ Pn ) via le germe :
p : Ω1 × · · · × Ωn −→ [0, 1]
(ω1 , · · · , ωn ) 7→ p1 (ω1 ) × · · · × pn (ωn )

— Quand Ω1 = · · · = Ωn et P1 = · · · = Pn , on définit : (Ω, P ) = (Ωn1 , P1⊗n ) où P1⊗n = P1 ⊗ · · · ⊗ P1 .


| {z }
n fois

Exemple 1.7. n lancers successifs d’un dé.

1.3.2 Mesure de probabilité produit et mesure de probabilité uniforme

Proposition 1.3.2. Si Ω1 est muni de sa mesure de probabilité uniforme P1 , Ω2 est muni de sa mesure
de probabilité uniforme P2 , alors la mesure de probabilité produit P1 ⊗ P2 est la mesure de probabilité
uniforme sur Ω1 × Ω2 .

1.4 Indépendance
1.4.1 Définitions

Définition 1.4.1. Soit (Ω, P ) un espace de probabilité. Deux événements A et B sont indépendants si :

P (A ∩ B) = P (A) × P (B).
Remarque 1.4. « pas de lien » ⇒ indépendants mais la réciproque est fausse.
Exemple 1.8. 2 lancers successifs d’un dé équilibré : Ω = {1, · · · , 6}2 muni de P la mesure de probabilité
uniforme.
On considère : A = « résultat pair au premier lancer » et B = « résultat pair au deuxième lancer ».
1 1 1
« sans lien » ⇒ A et B indépendants : P (A ∩ B) = P (A) × P (B) = × = .
2 2 4
C = « résultats de parités différentes aux 2 lancers ». C = (A ∩ B c ) ∪ (Ac ∩ B) et l’union est disjointe.
1 1 1 1 1
P (C) = P (A ∩ B c ) + P (Ac ∩ B) = P (A)P (B c ) + P (Ac )P (B) = × + × = .
2 2 2 2 2
1 1 1
P (A) × P (C) = × = = P (A ∩ C), donc A et C sont indépendants.
2 2 4

Définition 1.4.2. Soit (Ω, P ) un espace de probabilité. Trois événements A, B et C sont dits indépen-
dants si :

— P (A ∩ B ∩ C) = P (A) × P (B) × P (C) ; — P (B ∩ C) = P (B) × P (C) ;


— P (A ∩ B) = P (A) × P (B) ; — P (A ∩ C) = P (A) × P (C).

12
1.5. PROBABILITÉ CONDITIONNELLE

Exemple 1.9. 3 lancers d’un dé, Ai = « le i-ème lancer est pair ».

Exemple 1.10 (les 2 lancers d’un dé). A et B sont indépendants, A et C aussi et B et C également.
1
A ∩ B ∩ C = ∅ donc P (A ∩ B ∩ C) = 0 6= P (A) × P (B) × P (C) = , donc A, B et C ne sont pas
8
indépendants.

Définition 1.4.3. Soit (Ω, P ) un espace de probabilité. A1 , ..., An sont indépendants si :

∀k ∈ {1, · · · , n}, ∀(i1 , · · · , ik ) ∈ {1, · · · , n}k , P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) × · · · × P (Aik ).

Exercice. Soit n ≥ 2 entier. On regarde les familles à n enfants. On fait l’hypothèse que toutes les
configurations fille/garçon (avec ordre de naissance en mémoire) sont équiprobables.
On considère les événements A = « avoir au moins une fille et un garçon » et B = « avoir au plus
une fille ». A et B sont-ils indépendants ?
On se place dans l’espace de probabilité (Ω, P ) avec Ω = {F, G}n et P la mesure de probabilité
uniforme sur Ω.
On a : Ac = {(F, F, · · · , F ), (G, · · · , G)} et B = {(G, · · · , G), (F, G, · · · , G), · · · , (G, · · · , G, F )}, d’où :
Card Ac = 2 et Card B = n + 1.
2 1 n+1 n
Ainsi : P (A) = 1 − P (Ac ) = 1 − n = 1 − n−1 et P (B) = n
et P (A ∩ B) = n .
2 2  2 2
n n+1 1 n−1
A et B sont indépendants ⇔ n = 1 − n−1 ⇔ n + 1 = 2 ⇔ n = 3.
2 2n 2
Conclusion : A et B sont indépendants si n = 3, et A et B ne sont pas indépendants si n 6= 3.

1.4.2 Indépendance et probabilité produit

Proposition 1.4.4. Soit (Ω, P ) = (Ω1 × Ω2 , P1 ⊗ P2 ) un espace de probabilité produit.


Pour A ⊂ Ω1 et B ⊂ Ω2 , A × Ω2 et Ω1 × B sont indépendants.

1.4.3 Propriétés

Proposition 1.4.5. Soit (Ω, P ) un espace de probabilité.


— Si A ⊂ Ω et B ⊂ Ω sont indépendants, alors A et B c aussi.
— Si A1 , ..., An sont indépendants, Ac1 × A2 × · · · × An aussi.
— Si A, B et C sont indépendants, alors A ∪ B est indépendant de C et A ∩ B est indépendant de C.

1.5 Probabilité conditionnelle


1.5.1 Définition et propriétés

Définition 1.5.1. Soit (Ω, P ) un espace de probabilité. Soient A et B deux événements tels que P (A) > 0.
On appelle probabilité conditionnelle de B sachant A la quantité :

P (B ∩ A)
P (B|A) = .
P (A)

Remarque 1.5. A et B sont indépendants et P (A) > 0 ⇒ P (B|A) = P (B).

13
CHAPITRE 1. ESPACES DE PROBABILITÉ

Proposition 1.5.2. Soient (Ω, P ) un espace de probabilité, A et B deux événements tels que P (A) > 0.
On définit :

PA : B ∈ P(Ω) 7→ P (B|A).
C’est une mesure de probabilité sur Ω, appelée mesure de probabilité conditionnelle sachant A.

Démonstration. — Le germe associée à PA est :

P (A ∩ {ω}) p(ω) 1A (ω)


pA : ω ∈ Ω 7→ PA ({ω}) = = .
P (A) P (A)
où p est le germe associé à p.
X
— P (A) = p(ω) 1A (ω) donc ∀ω 0 ∈ Ω, 0 ≤ p(ω 0 ) 1A (ω 0 ) ≤ P (A) ⇒ ∀ω 0 ∈ ω, p(ω 0 ) ∈ [0, 1].
| {z }
ω∈Ω ≥0
P
ω∈Ω p(ω) 1A (ω) P (A)
X
— pA (ω) = = = 1.
P (A) P (A)
ω∈Ω
— ∀B ⊂ Ω,

P (A ∩ B) 1 X 1 X X
PA (B) = = p(ω) = p(ω) 1A (ω) = pA (ω).
P (A) P (A) P (A)
ω∈A∩B ω∈B ω∈B

donc PA est bien associée au germe pA .

Proposition 1.5.3. Soient (Ω, P ) un espace de probabilité et A et B deux événements tels que P (A) > 0.
— P (B c |A) = 1 − P (B|A) ;
— Formule des probabilités totales : si (Ai )1≤i≤n est une partition de Ω avec : ∀i ∈ {1, · · · , n},
P (Ai ) > 0, alors :
n
X n
X
P (B) = P (B ∩ Ai ) = P (Ai ) × P (B|Ai ).
i=1 i=1

Démonstration. — Conséquence de la proposition précédente.


n
[
— B= (Ai ∩ B) car (Ai )1≤i≤n est une partition de Ω. Ainsi :
i=1
n
X
P (B) = P (Ai ∩ B) car les Ai sont disjoints
i=1
Xn
= P (B|Ai ) × P (Ai ) car P (Ai ) > 0
i=1

1.5.2 Formule de Bayes


Exemple 1.11. On se place dans le contexte suivant :
— On a un test de cannabis « fiable à 99% » ;

14
1.5. PROBABILITÉ CONDITIONNELLE

— On a une estimation : 1 conducteur sur 1000 a pris du cannabis.


On cherche à savoir : si le résultat du test est positif, quelle est la probabilité qu’il ait vraiment pris
du cannabis ?
On pose :
— Ω = {conducteurs} muni de la mesure de probabilité P uniforme ;
1
— C = {conducteurs qui ont pris du cannabis}, on a : P (C) = ;
1000
— T = {conducteurs qui ont un test positif}.
On a P (T |C) = 0, 99 et P (T |C c ) = 0, 01. On cherche à connaître P (C|T ).

Proposition 1.5.4 (Formule de Bayes 1). Soient (Ω, P ) un espace de probabilité, A et B deux événements
tels que P (A) > 0 et P (B) > 0. Alors :

P (B|A) × P (A)
P (A|B) = .
P (B)

P (A ∩ B) P (A ∩ B)P (A) P (B|A)P (A)


Démonstration. P (A|B) = = = .
P (B) P (A)P (B) P (B)

Proposition 1.5.5 (Formule de Bayes 2). Soient (Ω, P ) un espace de probabilité et A et B deux événe-
ments tels que P (A) ∈]0, 1[ et P (B) > 0. Alors :

P (B|A) × P (A)
P (A|B) = .
P (B|A)P (A) + P (B|Ac )P (Ac )

Démonstration. On applique la formule de Bayes 1 et , d’après la formule des probabilité totales, {A, Ac }
étant une partition de Ω avec P (A) > 0 et P (Ac ) > 0.
On a : P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ).

Exemple 1.12. En reprenant le contexte de l’exemple précédent, on a :


1
P (T |C)P (C) 0, 99 × 1000
P (C|T ) = = 1 999 ≈ 0, 09.
P (T |C)P (C) + P (T |C c )P (C c ) 0, 99 × 1000 + 0, 01 × 1000

1.5.3 Indépendance conditionnelle

Définition 1.5.6. Soient (Ω, P ) un espace de probabilité et A, B, C trois événements tels que P (A) > 0.
On dit que B et C sont indépendants conditionnellement à A si : P (B ∩ C|A) = P (B|A) × P (C|A).

Remarque 1.6. Cette définition équivaut à dire que B et C sont indépendants dans l’espace de probabilité
(Ω, PA ).

Exemple 1.13 (du cannabis). Pour i ∈ {1, 2}, on note : Ti = {conducteur dont le test i est positif}. T1
et T2 sont indépendants sachant C, et T1 et T2 sont indépendants sachant C c .
Ainsi, P (T1 ∩ T2 |C) = 0, 99 ≈ 0, 98 et P (T1 ∩ T2 |C c ) = 0, 012 = 0, 0001, d’où : P (C|T1 ∩ T2 ) = quelque
chose proche de 1.

15
CHAPITRE 1. ESPACES DE PROBABILITÉ

Remarque 1.7. Si B et C sont indépendants sachant A, alors B et C ne sont pas forcément indépendants
sachant Ac .

Exemple 1.14 (Contre-exemple). On a 3 pièces : une équilibrée, une qui tombe toujours sur pile, et une
qui tombe toujours sur face. On pose :
— A = « la pièce choisie est équilibrée » ;
— B = « pile au premier lancer » ;
— C = « face au deuxième lancer ».
B et C sont indépendants sachant A. En revanche, sachant Ac , B et C ne sont pas indépendants.

16
Chapitre 2
Variables aléatoires

2.1 Définitions
2.1.1 Variable aléatoire

Définition 2.1.1. Soit (Ω, P ) un espace de probabilité. Une variable aléatoire est une fonction Ω −→ R
(ou Rd , d ∈ N∗ ).

Exemple 2.1. On lance une pièce équilibrée : Ω = {0, 1}10 avec 0 : pile, 1 : face.
10
X
On compte le nombre de faces : X : ω ∈ Ω 7→ 1ωi =1 .
i=1
P (« obtenir 6 "face" ») = P (X = 6) = P ({ω ∈ Ω/X(ω) = 6}) = X −1 ({6}).

2.1.2 Loi

Définition 2.1.2. Soit (Ω, P ) un espace de probabilité, et soit X une variable aléatoire sur Ω.
p : X(Ω) −→ [0, 1]
On définit la fonction : X .
x 7→ P ({ω ∈ Ω/X(ω) = 1})
C’est un germe de probabilité. La mesure de probabilité associée PX est la loi de X.

Démonstration. pX est bien un germe :


 
X X [
pX (x) = P (X −1 ({x})) = P  X −1 ({x}) = 1.
x∈X(Ω) x∈X(Ω) x∈X(Ω)
| {z }

Remarque 2.1. (X(Ω), PX ) est un espace de probabilité.

Proposition 2.1.3. Soit (Ω, P ) un espace de probabilité. Si X et X 0 sont 2 variables aléatoires de même
loi (i.e. PX = PX 0 ) à valeurs dans Rd , alors : pour toute fonctions f : Rd −→ R, f (X) et f (X 0 ) ont
même loi.

17
CHAPITRE 2. VARIABLES ALÉATOIRES

Démonstration. ∀x ∈ R, P (f (x) = x) = P (X ∈ f −1 ({x})) = PX (f −1 ({x})), qui ne dépend que de PX


| {z }
⊂X(Ω)
et de x. Comme PX = PX 0 , on a bien le résultat.

2.1.3 Espérance

Définition 2.1.4. Soit (Ω, P ) un espace de probabilité et soit X : Ω −→ R une variable aléatoire.
L’espérance de X, notée E[X], est définie par :
X
E[X] = X(ω)p(ω).
ω∈Ω

où p est le germe associé à P .

Exemple 2.2. On considère 8 étudiant et leurs notes : 2, 8, 8, 10, 10, 10, 16, 16.
On pose : Ω = {étudiants} muni de P la mesure de probabilité uniforme. Soit X : ω ∈ Ω 7→
la note de ω.

1 1 1 1 1 1 1 1
E[X] = 2 × + 8 × + 8 × + 10 × + 10 × + 10 × + 16 × + 16 × = 10.
8 8 8 8 8 8 8 8

Proposition 2.1.5 (Deuxième formule pour l’espérance). Soient (Ω, P ) un espace de probabilité et
X : Ω −→ R une variable aléatoire. On a :
X
E[X] = xpX (x).
x∈X(Ω)

1 2 3 2
Exemple 2.3 (8 étudiants). X(Ω) = {2, 8, 10, 16}. pX : 2 7→ , 8 7→ , 10 7→ , 16 7→ .
8 8 8 8

Démonstration.
X
E[X] = X(ω)p(ω)
ω∈Ω
X X
= X(Ω) p(ω) car (X −1 ({x}))x∈X(Ω) est une partition de Ω
| {z }
x∈X(Ω) ω∈X −1 ({x}) x
X X X X
= x p(ω) = xP (X −1 ({x})) = xpX (x)
x∈X(Ω) ω∈X −1 ({x}) x∈X(Ω) x∈X(Ω)

Remarque 2.2 (Conséquence fondamentale). E[X] ne dépend pas de PX . Ainsi, si X et X 0 ont même
loi, alors E[X] = E[X 0 ] et : ∀f : Rd −→ R, E[f (X)] = E[f (X 0 )].

18
2.2. QUELQUES LOIS CLASSIQUES

2.1.4 Propriétés de l’espérance

Proposition 2.1.6. Soient (Ω, P ) un espace de probabilité, X : Ω −→ R une variable aléatoire et


f : Rd −→ R.
Alors f ◦ X = f (X) est une variable aléatoire et son espérance vaut :
X X
E[f (X)] = f (X(ω))p(ω) = f (x)pX (x) (Formule de transfert).
ω∈Ω x∈X(Ω)

1 2 3 2
Exemple 2.4 (8 étudiants). E[|X − 10|] = |2 − 10| + |8 − 10| + |10 − 10| + |16 − 10| = 3.
8 8 8 8
Démonstration.
X X X X
E[f (X)] = f (x)p(ω) = f (x)P (X −1 ({x})) = f (x)pX (x).
X(Ω) ω∈X −1 ({x}) x∈X(Ω) x∈X(ω)

Proposition 2.1.7. Soient (Ω, P ) un espace de probabilité, X, Y deux variables aléatoires.


— L’espérance est linéaire : ∀a ∈ R, E[aX] = aE[X] et E[X + Y ] = E[X] + E[Y ] ;
— L’espérance est positive : si ∀ω ∈ Ω, m ≤ X(ω) ≤ M (i.e. X est bornée), alors m ≤ E[X] ≤ M ;
— Si : ∀ω ∈ Ω, X(ω) = a, alors E[X] = a ;
— Si : X = 1A : ω 7→ 1A (ω), alors E[X] = P (A).
X X X
Démonstration. — E[X + Y ] = (X(ω) + Y (ω))p(ω) = X(ω)p(ω) + Y (ω)p(ω) = E[X] +
ω∈Ω ω∈Ω ω∈Ω
E[Y ].
X X
— Si m ≤ X(ω), pour tout ω ∈ Ω : E[X] = X(ω)p(ω) ≥ mp(ω) = m.
ω∈Ω ω∈Ω
On fait de même pour la majoration.
— X = a ⇒ a ≤ X ≤ a donc a ≤ E[X] ≤ a ⇒ E[X] = a.
X
— E[1A ] = 1A (ω)p(ω) = P (A).
ω∈Ω

2.2 Quelques lois classiques


Soit (Ω, P ) un espace de probabilité.

2.2.1 Loi uniforme sur {1, 2, · · · , n}

Définition 2.2.1. La loi uniforme sur {1, · · · , n} est la mesure de probabilité uniforme sur {1, · · · , n}.

Exemple 2.5. X : face sur laquelle s’arrête un dé équilibré. PX est la mesure de probabilité uniforme sur
{1, · · · , n}.

19
CHAPITRE 2. VARIABLES ALÉATOIRES

Notation : Si X sur la loi uniforme sur {1, · · · , n}, on note : X ∼ U({1, · · · , n}).

n+1
Proposition 2.2.2. Si X ∼ U({1, · · · , n}), alors : E[X] = .
2
n
X 1 1 n(n + 1) n+1
Démonstration. E[X] = k× = = .
n n 2 2
k=1

2.2.2 Loi de Bernoulli de paramètre p

Définition 2.2.3. X sur la loi de Bernoulli de paramètre p ∈ [0, 1], notée B(p), si : X(Ω) = {0, 1} et
P (X = 1) = p, P (X = 0) = 1 − p.

Proposition 2.2.4. Si X ∼ B(p), alors E[X] = p.

Exemple 2.6. Si A ⊂ Ω, 1A ∼ B(P (A)).

2.2.3 Loi binomiale de paramètres n et p

Définition 2.2.5. La loi binomiale de paramètres n ∈ N∗ et p ∈ [0, 1], notée B(n, p), est la loi du nombre
de succès dans une suite de n expériences de Bernoulli indépendantes et de même probabilité de succès p.

Proposition 2.2.6 (ou autre définition de la loi binomiale). Soit n ∈ N∗ et p ∈ [0, 1].
pX : {0, 1, · · · , n} −→   [0, 1]
La fonction : n est un germe de probabilité et la mesure
k 7→ × pk × (1 − p)n−k
k
de probabilité associée est la loi binomiale B(n, p).

Démonstration. Soit Ω = {0, 1}n muni de la mesure de probabilité P0⊗n où P0 est le germe de probabilité
sur Ω0 = {0, 1} associé au germe p0 : 0 7→ 1 − p, 1 7→ p.
La variable aléatoire qui compte le nombre de succès dans n expériences de Bernoulli indépendantes
modélisées par (Ω, P0⊗n ) est :

X : ω = (ω1 , · · · , ωn ) ∈ Ω 7→ ω1 + · · · + ωn .
D’après la définition, PX = B(n, p). Soit k ∈ {0, · · · , n}.
X
P (X = k) = q(ω) où q est le germe associé à P0⊗n
ω∈Ω
X(ω)=k
X X
= q(ω) = pω1 (1 − p)1−ω1 × · · · × pωn (1 − p)1−ωn
|{z}
ω∈Ω ω∈{0,1}n
ω1 +···+ωn =k q0 (ω1 )×···×q0 (ωn ) ω1 +···+ωn =k
 
X
ω1 +···+ωn n−(ω1 +···+ωn ) n k
= p (1 − p) = p (1 − p)k .
k
ω∈{0,1}n
ω1 +···+ωn =k

20
2.3. VARIABLES ALÉATOIRES INDÉPENDANTES

Proposition 2.2.7. Si X 0 ∼ B(n, p), alors E[X 0 ] = np.

Démonstration. Prenons X construite dans la démonstration précédente. X et X 0 ont même loi (donc
E[X] = E[X 0 ]). On a : X = X1 + · · · + Xn , où Xi : (ω1 , · · · , ωn ) 7→ ωi , et Xi 7→ B(p), donc : E[X] =
Xn n
X
E[Xi ] = p = np.
i=1 i=1

2.3 Variables aléatoires indépendantes


2.3.1 Définition

Définition 2.3.1. Soit (Ω, P ) un espace de probabilité, et soient X1 , ..., Xn des variables aléatoires. On
dit que X1 , ..., Xn sont indépendantes si :
n
Y
n
∀(α1 , · · · , αn ) ∈ R , P (X1 = α1 , · · · , Xn = αn ) = P (Xi = αi ).
i=1

Remarque 2.3. Ceci équivaut à dire que : P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn , où (X1 , · · · , Xn ) est la variable
aléatoire qui à ω associe (X1 (ω), · · · , Xn (ω)) ∈ Rn .

Proposition 2.3.2 (admise). Soit n ≥ 2 entier et m ∈ {1, · · · , n − 1}. Si X1 , ... Xn sont indépendantes,
alors f (X1 , · · · , Xm ) et g(Xm+1 , · · · , Xm ) sont indépendantes, pour toutes fonctions f et g.

2.3.2 Retour sur la loi binomiale

Proposition 2.3.3. Si Y1 , ..., Yn sont des variables aléatoires indépendantes de même loi B(p), alors :

Y = Y1 + · · · + Yn ∼ B(n, p).
Démonstration. P(Y1 ,··· ,Yn ) = PY1 ⊗ · · · ⊗ PYn = PX1 ⊗ · · · ⊗ PXn = P(X1 ,··· ,Xn ) où les Xi sont les variables
aléatoires définies dans la démonstration de la proposition 2.2.7.
Donc : PY1 + · · · + PYn = PX1 + · · · + PXn = PX = B(n, p).

Corollaire 2.3.4. Si X et Y sont deux variables aléatoires indépendantes, avec X ∼ B(n, p) et Y ∼


B(m, p). Alors : X + Y ∼ B(n + m, p).

2.4 Loi géométrique de paramètre p

Définition 2.4.1. La loi géométrique de paramètre p ∈]0, 1], notée G(p), est la loi du nombre de tentatives
jusqu’au premier succès dans une suite d’expériences de Bernoulli indépendantes de même probabilité de
succès p.

échec échec succès


z}|{ z}|{ z}|{
Formalisation : Résultat d’une expérience : ω de la forme : ( 0 , · · · , 0 , 1 ) = ωn .
| {z }
n échecs, n∈N

21
CHAPITRE 2. VARIABLES ALÉATOIRES

On pose : Ω = {ωn /n ∈ N}. Soit X : ωn ∈ Ω 7→ n + 1. C’est le nombre de tentatives jusqu’au premier


succès.
On cherche le germe de la loi de X : ∀k ∈ N∗ ,

pX (k) = P (X = k) = P ({ωk−1 }) = P ({ 0, · · · , 0 , 1}) = (1 − p) × · · · × (1 − p) × p car il y a indépendance.


| {z }
k−1 échecs

Proposition 2.4.2. Pour p ∈]0, 1], la loi géométrique de paramètre p est la mesure de probabilité sur
N∗ associée au germe : k ∈ N∗ 7→ (1 − p)k−1 × p.

Autrement dit : Si X 7→ G(p) : ∀k ∈ N∗ , P (X = k) = (1 − p)k−1 × p.


Remarque 2.4. pX est bien un germe car : ∀k ∈ N∗ , (1 − p)k−1 p ∈ [0, 1], et, comme : ∀x ∈] − 1, 1[,
+∞
X 1
xj = , donc :
1−x
j=0
+∞ +∞
X X 1 p
(1 − p)k−1 p = p (1 − p)j = × p = = 1.
1 − (1 − p) p
k=1 j=0

1
Proposition 2.4.3. Si X ∼ G(p), avec p ∈]0, 1], E[X] = .
p
Démonstration. Le calcul sera justifié rigoureusement au chapitre suivant :
+∞
1 X
∀x ∈] − 1, 1[, = xj , d’où :
1−x
j=0
 0 +∞
1 1 X
∀x ∈] − 1, 1[, = = jxj−1 .
1−x (1 − x)2
j=1

Ainsi, il vient :
+∞ +∞
X X 1 p 1
E[X] = kP (X = k) = k(1 − p)k−1 p = p × = 2 = .
(1 − (1 − p))2 p p
k=1 k=1

Remarque 2.5 (à redémontrer si on l’utilise). Si X ∼ G(p), avec p ∈]0, 1] et k ∈ N∗ :

P (X ≥ k) =
|{z} P (échec au 1er essai) × · · · × P (échec au (k − 1)e lancer) = (1 − p)k−1 .
indépendance

2.5 Loi hypergéométrique

Définition 2.5.1. On tire n éléments simultanément (uniformément) dans un ensemble de N éléments


parmi lesquels il y a G ∈ {0, · · · , N } "gagnants" (ou succès). La loi du nombre de gagnants tirés est la
loi hypergéométrique de paramètres (N, G, n), notée H(N, G, n).

22
2.5. LOI HYPERGÉOMÉTRIQUE

Remarque 2.6. Un tirage simultané (uniforme) de n éléments équivaut à n tirages successifs sans remise.

Proposition 2.5.2.
G N −G
  loi H(N, G, n) est la mesure de probabilité sur {0, · · · , min(G, n)} associée au
La
k n−k
germe : k 7→ N
 .
n

Démonstration. Soit Ω = {parties de n éléments de {1, · · · , n}}. Soit P la mesure de probabilité uni-
forme sur Ω. Soit : X : A ∈ Ω 7→ Card(A ∩ {1, · · · , G}). On a :
choix des choix des
k gagnants n−k perdants
z }|{
 z }| {
G N −G
×
k n−k
∀k ∈ {0, · · · , min(G, n)}, P (X = k) =   .
N
n
| {z }
Card Ω

Proposition 2.5.3.
G N −G
  loi H(N, G, n) est la mesure de probabilité sur {0, · · · , min(G, n)} associée au
La
k n−k
germe : k 7→ N
 .
n

Démonstration. Soit X de la démonstration précédente. On a :


G
X G
X
X(A) = 1j∈A donc E[X] = P (on a tiré j) par linéarité de l’espérance.
j=1 j=1

Ainsi, on a : E[X] = G × P (on a tiré 1). Or :


Card({parties à n éléments
de {1, · · · , N } contenant 1})
z }| {
N −1
n−1 n
P (tirer 1) = N
 = ,
n
N
n
d’où : E[X] = G × .
N

Proposition 2.5.4. Soit (GN )N ∈N∗ une suite d’entiers telle que :

— ∀N ∈ N∗ , 1 ≤ GN ≤ N ; — N − GN −→ +∞ ;
N →+∞
GN
— GN −→ +∞ ; — −→ p ∈ [0, 1].
N →+∞ N N →+∞

Soit n ∈ N∗ , et soit, pour tout N ∈ N∗ , une variable aléatoire de loi H(N, GN , n). Alors :
 
n k
∀k ∈ {0, · · · , n}, P (XN = k) −→ p (1 − p)n−k = P (Y = k) où Y ∼ B(n, p).
N →+∞ k

23
CHAPITRE 2. VARIABLES ALÉATOIRES

GN N −GN
 
k n−k GN !(N − GN )!n!(N − n)!
Démonstration. On a : P (XN = k) = N
= , d’où :
k!(GN − k)!(n − k)!(N − GN − n + k)!N !

n
n! GN ! (N − GN )! (N − n)!
P (XN = k) = × × ×
k!(n − k)! (GN − k)! (N − GN − n + k)! N!
  k−1 n−k−1 n−1
!−1
n Y Y Y
= × (GN − i) × (N − GN − i) × (N − i)
k
i=0 i=0 i=0
  k
n GN (N − GN )n−k
 
n k n−k 1
∼ GN (N − GN ) =
N →+∞ k Nn k Nk N n−k
 
n k
−→ p (1 − p)n−k
N →+∞ k

24
Chapitre 3
Espaces de probabilité dénombrables

3.1 Rappels sur les séries numériques


On dit
! que la série de terme général (un )n∈N converge si et seulement si la suite de terme général
n
X Xn
uk converge, i.e. lim uk existe et est finie.
n→+∞
k=0 n∈N k=0

X
Définition 3.1.1. Soit (uω )ω∈Ω une famille (dénombrable) de réels positifs ou nuls. La somme uω
ω∈Ω
est définie par :
( )
X X
uω = sup uω .
ω∈Ω I fini ω∈I
I⊆Ω

Proposition 3.1.2. Soit (uω )ω∈Ω une famille dénombrable de réels positifs. Si on a : Ω = {ωi /i ∈ N},
alors :
n
X X +∞
X
uωi −→ uω = uωi .
n→+∞
i=0 ω∈Ω n=0

n
!
X
Démonstration. Sn = uωi est une suite croissante donc elle admet une limite s ∈ R ∪ {+∞}.
i=0 n∈N
— Posons, pour tout n ∈ N, I = {ω0 , · · · , ωn }. I est fini donc : ∀n ∈ N,
X X X
Sn ≤ uω ⇒ lim Sn ≤ lim uω ⇒ s ≤ uω .
n→+∞ n→+∞
ω∈Ω ω∈Ω ω∈Ω

— Soit I ⊂ Ω fini. On écrit I = {ωi0 , · · · , ωi|I| }. (Sn )n∈N est croissante, d’où :

max(i1 ,··· ,i|I| ) n


X X X X X X
uω ≤ uωi ≤ s ⇒ sup uω ≤ sup s ⇒ uω ≤ s ⇒ lim uωi = uω
|{z} I fini ω∈I I fini n→+∞
ω∈I uω ≥0 i=0 I⊂Ω I⊂Ω ω∈Ω i=0 ω∈Ω

25
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES

3.2 Mesure de probabilité


3.2.1 Définition

Définition
X 3.2.1. Soit Ω un univers dénombrable. Soit p un germe de probabilité : p : Ω −→ [0, 1] tel
que p(ω) = 1.
ω∈Ω X
Soit P la mesure de probabilité associée : P : A ∈ P(A) 7→ p(ω) ∈ [0, 1].
ω∈A
On appelle (Ω, P ) espace de probabilité.

3.2.2 Propriétés
Soit (Ω, P ) un espace de probabilité.

Proposition 3.2.2. Si A et B sont deux événements de Ω disjoints, alors P (A ∪ B) = P (A) + P (B).

Proposition 3.2.3. Si (uω )ω∈Ω est une famille de réels positifs et (Ai )i∈I une partition de Ω (finie ou
dénombrable), alors :
X XX
uω = uω .
ω∈Ω i∈I ω∈Ai

Corollaire 3.2.4. Si (Ai )i∈I est une partition de Ω, alors :


X
P (Ω) = 1 = P (Ai ).
i∈I

Le reste du chapitre 1 s’étend-il à Ω dénombrable ?

— P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ; — P (Ac ) = 1 − P (A) ;


— Mesure de probabilité produit ; — Probabilité conditionnelle ;
— Formule de Bayes ; — Indépendance conditionnelle ;

— Mesure de probabilité uniforme.

3.3 Variables aléatoires sur Ω dénombrable


Soit (Ω, P ) un espace de probabilité.

3.3.1 Définition

Définition 3.3.1. Une variable aléatoire sur Ω est une fonction X : Ω −→ R. La loi de X, notée PX
est la mesure de probabilité sur X(Ω) associée au germe pX : x ∈ X(Ω) 7→ P ({ω ∈ Ω/X(ω) = x}).

Exemple 3.1. La loi géométrique de paramètre p.

26
3.3. VARIABLES ALÉATOIRES SUR Ω DÉNOMBRABLE

3.3.2 Espérance d’une variable aléatoire de signe constant

Définition 3.3.2. Soit X : Ω −→ R une variable aléatoire de signe constant. L’espérance de X est
définie par :
X
E[X] = X(ω)p(ω).
ω∈Ω

Si : ∀ω ∈ Ω, X(ω) ≥ 0, alors la somme


X est à termes positifs donc bien définie. Sinon : ∀ω ∈ Ω, X(ω) ≤ 0,
on pose : E[X] = −E[−X] = − −X(ω)p(ω).
ω∈ω

Remarque 3.1. Attention ! E[X] ∈ R ∪ {+∞, −∞}.

Proposition 3.3.3. Si X est une variable aléatoire sur Ω de signe constant, on a :


X
E[X] = xpX (x)
x∈X(Ω)

Remarque 3.2. Si X est de signe quelconque avec X(Ω) fini, ceci permet de définir E[X].

1
Exemple 3.2. Si X ∼ G(p), alors E[X] = (les calculs du chapitre précédent sont justifiés).
p

3.3.3 Familles sommables

X
Définition 3.3.4. Une famille de réels (uω )ω∈Ω est dite sommable lorsque |uω | < +∞.
ω∈Ω
On définit alors :
X X X
uω = u+
ω − u−
ω,
ω∈Ω ω∈Ω ω∈Ω
+ −
où, pour x ∈ R, x = max(x, 0) et x = max(−x, 0).

Remarque 3.3. Cela est bien défini car, pour x ∈ R : x = x+ − x− et |x| = x+ + x− , donc :
X X X X X
|uω | = u+
ω + u−
ω < +∞ ⇒ u+
ω ∈ [0, +∞[ et u−
ω ∈ [0, +∞[.
ω∈Ω ω∈Ω ω∈Ω ω∈Ω ω∈Ω
| {z } | {z }
≥0 ≥0

Xn X
Proposition 3.3.5. Si (uω )ω∈Ω est sommable et que Ω = {ωi /i ∈ N}, alors : uωi −→ uω .
n→+∞
  i=0 ω∈Ω
X X XX
Si, de plus, (Ai )i∈I est une partition de Ω, alors  uω  est sommable et : uω = uω .
ω∈Ai ω∈Ω i∈I ω∈Ai
i∈I

27
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES

3.3.4 Espérance pour des variables aléatoires de signe quelconque

Définition 3.3.6. Soit X : Ω −→ R une variable aléatoire. Les 3 affirmations suivantes sont équiva-
lentes :
(1) (X(ω)p(ω))ω∈Ω est sommable ;
(2) (xpX (x))ω∈X(Ω) est sommable ;
(3) E[|X|] < +∞.
Lorsqu’elle sont vérifiées, on définit l’espérance de X par :
X X
E[X] = X(ω)p(ω) = xpX (x) = E[X + ] − E[X − ].
ω∈Ω x∈X(Ω)

c
Exemple 3.3. Soit X : Z∗ −→ Z∗ donc le germe de sa loi est donné par : pX : n ∈ Z∗ 7→ .
|n|3
C’est bien un germe si c ≥ 0 et :
+∞
X 1 X 1 1
c 3
= 2c =1⇒c= .
|n| n3 +∞
P 1
n∈Z∗ n=1 2 n3
n=1
 
cn
(npX (n))n∈Z∗ = est sommable car :
|n|3 n∈Z∗
X cn +∞ +∞ +∞ +∞
X 1 X c(−1) X 1 X 1
3
=c 2
+ 2
=c 2
−c = 0.

|n| n n n n2
n∈Z n=1 n=1 n=1 n=1

3.3.5 Bilan sur la définition de l’espérance


E[X] est bien définie si :
— Ω est fini ;
— X est de signe constant et Ω dénombrable : alors E[X] ∈ R ∪ {+∞, −∞} ;
— X est de signe quelconque et Ω dénombrable avec E[|X|] < +∞ : alors E[X] ∈ R.

Remarque 3.4. Si X ≥ m ∈ R, alors X − m ≥ 0 et on peut définir : E[X] = m + E[X − m]. De même


si X ≤ M ∈ R.

3.3.6 Propriétés de l’espérance

Proposition 3.3.7. Soit Ω fini ou dénombrable.


{X : Ω −→ R/E[|X|] < +∞} est un espace vectoriel et X 7→ E[X] est linéaire. Autrement dit, pour X
et Y deux variables aléatoires sur Ω telles que E[|X|] < +∞ et E[|Y |] < +∞, on a :
— E[|X + Y |] < +∞ et E[X + Y ] = E[X] + E[Y ] ;
— ∀a ∈ R, E[aX] = aE[X].

Démonstration. |X + Y | ≤ |X| + |Y | donc E[|X + Y |] ≤ E[|X|] + E[|Y |] < +∞. Le reste de la


démonstration est similaire au cas Ω fini.

28
3.4. LOI DE POISSON, OU LOI DES ÉVÉNEMENTS RARES

Proposition 3.3.8. Soient X et Y deux variables aléatoires sur Ω.


Si on a : 0 ≤ X ≤ Y , i.e. ∀ω ∈ Ω, 0 ≤ X(ω) ≤ Y (ω), alors 0 ≤ E[X] ≤ E[Y ].

Remarque 3.5. Si E[|X|] < +∞ et E[|Y |] < +∞ avec X ≤ Y , alors E[X] ≤ E[Y ].

Propriété 3.3.9. Si X est bornée, c’est-à-dire X(Ω) ⊆ [m, M ], (m, M ) ∈ R2 , alors E[X] est bien définie
et E[X] ∈ [m, M ].

Démonstration. m ≤ X ≤ M ⇒ 0 ≤ X − m ≤ M − m.

3.4 Loi de Poisson, ou loi des événements rares


Exemple 3.4. On compte le nombre d’accidents qui ont lieu à un carrefour de la ville d’Orsay en un an.
En moyenne, il y en a 3,1. Pendant une heure, la probabilité d’avoir un accident à un carrefour est très
3, 1
faible, c’est p = (8760 est le nombre d’heures dans un an).
8760
En supposant que ce qui se passe à des heures différentes est indépendant, la variable X qui compte le
nombre d’accident en un an à ce carrefour est égale au nombre de "succès" (il y a un accident) dans une
suite de 8760 expériences de Bernoulli (l’observation de ce qui se passe à ce carrefour pendant l’une des
heures de l’année considérée) indépendants
 (parhypothèse) et de même probabilité de succès p. Donc, X
3, 1
suit la loi binomiale de paramètres 8760, .
8760
Le nombre n = 8760 d’heures  en unan étant "grand", on va approcher cette loi par la "limite" (en
3, 1
un sens à préciser) de la loi B n, quand n → +∞. Cette loi limite s’appelle la loi de Poisson
n
de paramètre 3,1. On parle de "loi des événements rares" car chaque heure, l’événement "observer un
accident" à très peu de chance de se produire, mais en observant longtemps, la probabilité d’observer un
ou plusieurs accidents devient relativement grande.

Autre exemple : nombre d’appels reçus par un plombier qui a n = 104 clients, chacun ayant une petite
5
probabilité p ≈ d’appeler sur une journée donnée.
n

3.4.1 Définition

Proposition
 3.4.1.
 1) Soit λ ∈ R∗+ , et pour tout n ∈ N∗ , Xn une variable aléatoire de la loi binomiale
λ
B n, . Alors, pour tout k ∈ N,
n
λk
P (Xn = k) −→ e−λ .
n→+∞ k!
λk
2) Pour tout λ ∈ R∗+ , la fonction pλ : k ∈ N 7→ e−λ est un germe de probabilité. La mesure de
k!
probabilité associée est appelée loi de Poisson de paramètre λ, notée Poisson(λ).
 
λ
Remarque 3.6. Autrement dit, la loi binomiale n, "tend vers" la loi Poisson(λ) lorsque n → +∞.
n

Démonstration. 1) Pour tout n ≥ k,

29
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES

   k 
λ n−k

n λ
P (Xn = k) = × × 1−
k n n
!k
λ
λ n
 
n(n − 1) · · · (n − k + 1) n
= × × 1−
k! 1 − nλ n
k 
λ n
 
n(n − 1) · · · (n − k + 1) λ
= × × 1− .
| k!
{z } | n− λ
{z } | {z }
n
k
∼ nk! ∼ (λ)
k ∼ e−λ
n→+∞ n→+∞ n n→+∞

 k
nk λ λk
Donc : P (Xn = k) ∼ × × e−λ , d’où : P (Xn = k) −→ e−λ .
n→+∞ k! n n→+∞ k!
2) pλ est-il un germe ? (Attention ! Ce n’est pas évident a priori, le point 1) ne suffit pas à conclure.
Exemple : si Xn = n, on a : ∀k ∈ N, P (Xn = k) −→ 0, mais la fonction nulle n’est pas un germe.)
n→+∞
Ici, oui car :

— pλ est bien une fonction à valeurs dans [0, 1] car : ∀k ∈ N, ∀n ∈ N, P (Xn = k) ∈ [0, 1] donc sa
limite quand n → +∞ appartient à [0, 1].
+∞ +∞ k
X X λ
— pλ (k) = e−λ = e−λ eλ = e0 = 1.
k!
k=0 k=0

3.4.2 Espérance de la loi de Poisson


Exemple 3.5. Combien y’a-t-il d’accidents en moyenne par an ? (Comment la relier à valeur du paramètre
de la loi de Poisson ?)

Proposition 3.4.2. Soit λ ∈ R∗+ et X ∼ Poisson(λ). On a : E[X] = λ.

Démonstration. E[X] est bien définie car X est de signe constant.


+∞ +∞
X X ke−λ λk
E[X] = kP (X = k) =
k!
k=0 k=0
+∞ +∞
X ke−λ λk X λk−1
= = × e−λ × λ
k! (k − 1)!
k=1 k=1
+∞ k
X λ
= λe−λ = λe−λ eλ = λ.
k!
k=0

 
λ λ
Remarque 3.7. Si Xn ∼ B n, , pour tout n ∈ N∗ , E[Xn ] = n × = λ.
n n
Cela ne suffit pas, il reste à justifier que l’espérance de la "limite des Xn " est égale à la limite de E[Xn ]
quand n → +∞.

30
3.4. LOI DE POISSON, OU LOI DES ÉVÉNEMENTS RARES

3.4.3 Loi d’une somme de deux variables de Poisson indépendantes


Exemple 3.6. On observe les accidents pendant un an à deux carrefours de la ville d’Orsay. Pour le
premier, on observe environ 3,1 accidents par an ; pour le deuxième, environ 1,5 accidents par an.
Quelle sera la loi du nombre total d’accidents en un an sur ces deux carrefours ? On a envie d’écrire :
X1 ∼ Poisson(3, 1) (pour le premier carrefour) et X2 ∼ Poisson(1,  5) (pour
 le deuxième
 carrefour).
3, 1 1, 5
X1 (resp. X2 ) est à peu près la somme de 8760 variables de loi B (resp. B ) indépen-
8760  8760

3, 1 + 1, 5
dantes, et donc X1 + X2 est à peu près la somme de 8760 variables de loi B indépendantes.
  8760
3, 1 + 1, 5
B est environ le nombre d’accidents à l’un des deux carrefours, en négligeant la possibilité
8760
d’avoir simultanément deux accidents, d’où : X1 + X2 ∼ Poisson(3, 1 + 1, 5) = Poisson(4, 6).

Problème : Comment rendre ce raisonnement rigoureux ?

Proposition 3.4.3. Soit (λ1 , λ2 ) ∈ (R∗+ )2 , Y1 une variable de loi Poisson(λ1 ) et Y2 une variable de loi
Poisson(λ2 ).
Si Y1 et Y2 sont indépendantes, alors Y1 + Y2 est de loi Poisson(λ1 + λ2 ).

Démonstration. Y1 et Y2 étant à valeurs dans N, Y1 + Y2 est à valeurs dans N.


Reste à déterminer le germe de la loi Y1 + Y2 : ∀k ∈ N,
k
X
P (Y1 + Y2 = k) = P (Y1 = l et Y2 = k − l)
l=0
Xk
= P (Y1 = l)P (Y2 = k − l) par indépendance
l=0
k
X λl1 e−λ1 λk−l
2 e
−λ2
= d’après les lois de Y1 et Y2
l! (k − l)!
l=0
k 
λ1 l λk

−(λ1 +λ2 )
X k!
=e × 2
λ2 l!(k − l)! k!
l=0
k  
λ1 l k−l λk2

−(λ1 +λ2 )
X k
=e 1 ×
l λ2 k!
l=0
 k k
λ1 λ2
= e−(λ1 +λ2 ) +1 par la formule du binôme de Newton
λ2 k!
(λ1 + λ2 )k
= e−(λ1 +λ2 ) × ,
k!
qui est bien le germe de la loi de Poisson de paramètre λ1 + λ2 .

3.4.4 Utilisation de la loi de Poisson


On peut utiliser la loi de Poisson pour approcher la loi binomiale B(n, p).
Lorsque n est "grand" et np est de l’ordre d’une constante strictement positive (c’est-à-dire, np ni très
petit ni très grand). Par exemple, n = 1000 et np ∈ [0.2, 5]. On a alors : "B(n, p)" ≈ "Poisson(np)".
Ces deux lois ont même espérance, et la loi de Poisson est plus facile dans les calculs.

31
32
Chapitre 4
Variance et loi des grands nombres

4.0 Introduction
Si on lance une pièce une fois, le nombre de "pile" obtenu vaut 0 ou 1, c’est une loi B(p).
Si on lance une pièce n = 1000 fois, le nombre Xn de "pile" obtenu est dans {0, 1, · · · , n}, de loi
B(n, p), est une variable aléatoire qui fluctue autour de son espérance np. La notion de variance permet
de quantifier ces variations.

Xn
En revanche, si l’on regarde , la fréquence empirique des lancers où l’on obtient "pile", alors on
n
obtient un résultat quasi déterministe, égal à la probabilité p d’obtenir pile sur un lancer (lorsque n est
"grand").
C’est intuitif, et cela permet d’évaluer p par l’expérience (et donc de faire des statistiques, par exemple :
les sondages).
Comment le formaliser ? Par la loi des grands nombres.

4.1 Variance
4.1.1 Définition

Définition 4.1.1. Soit X une variable aléatoire d’espérance finie (c’est-à-dire E[|X|] < +∞).
2
 
Alors Var(X) := E (X − E[X]) est appelée la variance de X (parfois notée V (X)).
p
On note également σ(X) = Var(X) l’écart-type de X.

Remarque 4.1. 1) Variance et écart-type sont des outils pour mesurer la variabilité d’une expérience
aléatoire (à quel point son résultat X(ω) peut être différent d’un ω à l’autre), ou bien l’erreur
commise (dans le cas d’un sondage).
2) E (X − E[X])2 existe toujours car (X − E[X])2 est une variable aléatoire à valeurs positives. Mais
 

Var(X) et σ(X) peuvent valoir +∞ : Var(X) ∈ [0, +∞] et σ(X) ∈ [0, +∞].
3) Interprétation de l’écart-type σ(X). C’est l’erreur moyenne commise quand on remplace X par
E[X] (en moyenne quadratique), l’ordre de grandeur typique de l’écart entre X et E[X], ou encore
l’amplitude des variations "habituelles" de X.
4) La variance est le carré de l’écart-type. Elle est très utile car plus facile à manipuler dans les calculs.
5) Variance et écart-type ne dépendent que de X via sa loi.

33
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES

4.1.2 Propriétés de la variance


Dans tout ce chapitre, on suppose donné un espace de probabilité (Ω, P ) et toutes les variables aléatoires
considérées sont définies sur Ω. On note p le germe de probabilité associé à P .

Proposition 4.1.2. Soit X une variable aléatoire d’espérance finie. On a :


1) Var(X) = 0 ⇔ P (X = E[X]) = 1, i.e. X est une variable aléatoire constante.
2) ∀a ∈ R, Var(aX) = a2 Var(X).
3) Var(X) = E X 2 − E[X]2 .
 

Remarque 4.2. — 2) illustre que Var n’est pas linéaire. Par exemple, Var(2X) = 4 Var(X).
— 3) montre que Var(X) < +∞ ⇔ E[X 2 ] < +∞.
  X
Démonstration. 1) Si Var(X) = 0, alors E[Y 2 ] = 0, avec Y = X−E[X]. Or : E Y 2 = Y (ω)2 p(ω)
| {z } |{z}
ω∈Ω ≥0 ≥0
est une somme de termes positifs qui est nulle si et seulement si tous les termes nuls. On a donc :
∀ω ∈ Ω, Y (ω) = 0 ou p(ω) = 0, donc :
X
P (X = E[X]) = P (Y = 0) = 1 − P (Y 6= 0) = 1 − p(ω) = 1.
|{z}
ω∈Ω
Y (ω)6=0 =0 puisque
Y (ω)=0

Réciproquement, si P (X = E[X]) = 1 :
 X
Var(X) = E (X − E[X])2 = (X(ω) − E[X])2 p(ω) = 0.

| {z }
ω∈Ω
=0 sauf pour
ω∈Ω tels que p(ω)=0

2) On a :

Var(aX) = E (aX − E[aX])2 = E a2 (X − E[X])2 par linéarité de l’espérance


   

= a2 E (X − E[X])2 par linéarité de l’espérance


 

= a2 Var(X).

3) On a :

Var(X) = E (X − E[X])2 = E X 2 − 2E[X]X + E[X]2


   

= E X 2 − 2E[X]E[X] + E[X]2 par linéarité de l’espérance


 

= E X 2 − E[X]2 .
 

4.1.3 Variance et indépendance

Proposition 4.1.3. Si X et Y sont des variables indépendantes aléatoires indépendantes telles que
E[|X|] < +∞ et E[|Y |] < +∞, alors : E[XY ] = E[X] × E[Y ].

Démonstration. Supposons d’abord X et Y à valeurs positives si bien que E[XY ] a toujours un sens
et :

34
4.1. VARIANCE

X X X X
E[XY ] = X(ω)Y (ω)p(ω) = [x × y × p(ω)],
ω∈Ω x∈X(Ω) y∈Y (Ω) ω∈Ω
X(ω)=x et Y (ω)=y

puisque ({ω ∈ Ω/X(ω) = x et Y (ω) = y})x∈X(Ω) est une partition de Ω.


y∈Y (Ω)
 
X X
E[XY ] = x [yP (X = x et Y = y)]
x∈X(Ω) y∈Y (Ω)
 
X X
= x [yP (X = x)P (Y = y)] car X et Y sont indépendants
x∈X(Ω) y∈Y (Ω)
 
X X
= xP (X = x) [yP (Y = y)]
x∈X(Ω) y∈Y (Ω)
X
= E[Y ] × xP (X = x)
x∈X(Ω)
= E[X] × E[Y ].

Ensuite, si X et Y sont de signes quelconques, le résultat ci-dessus s’applique à |X| et |Y | (qui sont
× |Y |] = E[|X|] × E[|Y |] < +∞ et l’espérance de XY est bien
à valeurs positives), si bien que : E[|X|X
définies. On peut alors écrire E[XY ] = X(ω)Y (ω)p(ω) et tout le raisonnement précédent s’applique.
ω∈Ω

Définition 4.1.4. Si X et Y sont deux variables aléatoires telles que E[|XY |] < +∞, E[|X|] < +∞ et
E[|Y |] < +∞, on définit la covariance de X et Y par :

Cov(X, Y ) := E[XY ] − E[X] × E[Y ] = E [(X − E[X])(Y − E[Y ])] .

Remarque 4.3 (justification). — Les hypothèses permettent de définir E[XY ] ∈ R, E[X] ∈ R et


E[Y ] ∈ R, et donc la première formule a un sens.
— |(X −E[X])(Y −E[Y ])| ≤ (|X|+|E[X]|)(|Y |+|E[Y ]|) = |XY |+|Y ||E[X]|+|X||E[Y ]|+|E[X]E[Y ]|
qui est une somme de termes positifs d’espérance finie, donc E [|(X − E[X])(Y − E[Y ])|] < +∞, ce
qui permet de définir E [(X − E[X])(Y − E[Y ])] ∈ R.

1) Si E X 2 < +∞, alors E[|X|] < +∞ et Cov(X, X) = Var(X).


 
Propriétés 4.1.5.
2) Si E X 2 < +∞ et E Y 2 < +∞, alors E[|XY |] < +∞ et :
   

Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).

1) ∀x ∈ R, |x| ≤ x2 + 1, donc : E X 2 < +∞ ⇒ E[|X|] ≤ E X 2 + 1 < +∞.


   
Démonstration.
On peut alors écrire : Cov(X, X) = E [(X − E[X])(X − E[X])] = Var(X).
2) ∀(x, y) ∈ R2 , (x + y)2 ≤ 2(x2 + y 2 ) et |xy| ≤ x2 + y 2 , donc :
E[|XY |] ≤ E X 2 + Y 2 = E X 2 + E Y 2 < +∞ et : E (X + Y )2 ≤ 2(E X 2 + E Y 2 ) < +∞.
           

On a donc : Cov(X, Y ) ∈ R et (Var(X), Var(Y ), Var(X + Y )) ∈ R3 . Par conséquent :

35
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES

Var(X + Y ) = E (X + Y − E[X + Y ])2 = E (X − E[X] + Y − E[Y ])2


   

= E (X − E[X])2 + E (Y − E[Y ])2 + 2E [(X − E[X])(Y − E[Y ])] car espérance linéaire
   

= Var(X) + Var(Y ) + 2 Cov(X, Y )

Remarque 4.4. Puisque E X 2 < +∞ ⇒ E[|X|] < +∞, pour


 
 2justifier
 que Var(X) est bien définie, on
peut soit démontrer que E[|X|] < +∞, soit démontrer que E X < +∞.
Lorsque E X 2 < +∞, cela montre aussi que Var(X) ∈ R.
 

En combinant les deux propositions, on obtient :

Proposition 4.1.6. Si X et Y sont deux variables aléatoires indépendantes et telles que E[|X|] < +∞,
E[|Y |] < +∞, alors on a que : E[|XY |] < +∞, Cov(X, Y ) = 0 et Var(X + Y ) = Var(X) + Var(Y ).

De même, on a, par une récurrence immédiate :

Proposition 4.1.7. Si X1 , ..., Xn sont des variables aléatoires indépendantes et d’espérances finies,
alors on a :
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1

4.1.4 Variance de lois classiques

Proposition 4.1.8. Si X est une variable aléatoire de loi B(n, p), avec n ∈ N et p ∈ [0, 1], alors :
Var(X) = np(1 − p).

Démonstration.
 2 Remarquons d’abord que Var(X) ne dépend que de la loi de X, puisque c’est vrai pour
2
E X et E[X] .
Soient X1 , ..., Xn des variables indépendantes de même loi B(p). Alors X1 + · · · + Xn a même loi que
X (proposition du cours), donc, comme les variables aléatoires Xi sont indépendantes :

Var(X) = Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ) = n Var(X1 ).


2
Or : E X1 = E[X1 ] = p car X1 ∈ {0, 1} et E[X1 ]2 = p2 .
 

Donc : Var(X1 ) = p − p2 = p(1 − p) et donc : Var(X) = np(1 − p).

Proposition 4.1.9 (admise). Si X ∼ H(N, S, n) avec N ∈ N, S ∈ {0, · · · , N } et n ∈ {1, · · · , N }, alors :


    
S S S
Var(X) ≤ n × × 1− = Var B n, .
N N N

Remarque 4.5 (intuition de ce résultat). Ce résultat signifie que le nombre de "succès" obtenus lors de
S
n tirages sans remise, au sein d’une population de taille N contenant initialement une proportion de
N
"succès", est moins variable que le nombre de succès obtenus en procédant à n tirages avec remise au sein
de la même population.

36
4.2. INÉGALITÉ DE BIENAYMÉ-TCHEBYCHEV

C’est intuitif car, si l’on commence à s’écarter de la moyenne du nombre de succès après quelques
tirages, dans le cas sans remise, la proportion de succès encore présents diminue, donc on a tendance à
S
revenir vers la moyenne ( × nombre de tirages), alors que dans le cas avec remise, ceci ne se produit pas.
N
Donc les tirages sans remise (hypergéométrique) conduisant à des résultats "plutôt plus proches" de
S
la moyenne n × que les tirages avec remise (binomiale), ce qui se traduit mathématiquement par cette
N
proposition.

1−p
Proposition 4.1.10 (admise). Si X ∼ G(p), avec p ∈]0, 1], alors Var(X) = .
p2

Proposition 4.1.11 (admise). Si X ∼ Poisson(λ), avec λ∗+ , alors Var(X) = λ.


 
λ
Remarque 4.6. On a vu que la loi de Poisson(λ) "ressemble" à la loi B n, avec n grand, dont la
  n
λ λ
variance est : n × × 1 − −→ λ.
n n n→+∞
Ce résultat n’est donc pas surprenant.

4.2 Inégalité de Bienaymé-Tchebychev


L’objectif de cette section est de contrôler l’écart entre une variable aléatoire X est sa valeur moyenne.
Par exemple, si X compte le nombre de "pile" obtenus en lançant n fois une pièce (donc X ∼ B(n, p) où
p est la probabilité d’obtenir "pile" sur un lancer), on observe X(ω) pour un ω ∈ Ω, comment "contrôler"
l’écart |X(ω) − E[X]| = |X(ω) − np| ?
C’est-à-dire montrer que cet écart a une "grande" probabilité d’être inférieur à un réel ∆(n, p).

Proposition 4.2.1 (Inégalité de Bienaymé-Tchebychev). Si X est une variable aléatoire d’espérance


finie, alors, pour tout ε > 0, on a :

Var(X)
P (|X − E[X]| ≥ ε) ≤ .
ε2

Remarque 4.7. — Si E[X 2 ] = +∞, le majorant est infini et n’a aucun intérêt. Mais formellement, il
suffit d’avoir E[|X|] < +∞ pour donner un sens mathématique à cette inégalité.
— Ce résultat, appelé "inégalité de Bienaymé-Tchebychev", a été formulé en première par Irénée-Jules
Bienaymé, et démontré ensuite par Pafnouti Tchebychev.

Démonstration. Soit Y = |X − E[X]| (bien définie puisque E[|X|] < +∞ donc E[X] ∈ R). On a alors :

P (|X − E[X]| ≥ ε) = P (Y ≥ ε) = P |Y |2 ≥ ε2 = E 1|Y |2 ≥ε2 .


  

Y (ω)2
Or, pour tout ω ∈ Ω, 1|Y (ω)|2 ≥ε2 ≤ , puisque :
ε2
Y (ω)2
— soit : Y (ω)2 ≥ ε2 et on a bien 1 ≤ ;
ε2
Y (ω)2
— soit : Y (ω)2 < ε2 et on a bien 0 ≤ .
ε2

37
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES

Y2
Ces deux variables aléatoires 1|Y |2 ≥ε2 et 2 étant positives, par positivité de l’espérance, on obtient
ε
que :
 2
Y 1   Var(X)
E 1|Y |2 ≥ε2 ≤ E 2 = 2 E Y 2 =
 
.
ε ε ε2
Var(X)
par linéarité de l’espérance, et d’où : P (|X − E[X] ≥ ε) ≤ .
ε2

Exemple 4.1 (Application). On  lance 20 fois une pièce équilibrée, et on note X le nombre
 de "pile"
1 1 1 1
obtenus. Alors, X suite la loi B 20, et : E[X] = 20 × = 10, et Var(X) = 20 × × 1 − = 5.
2 2 2 2
X est d’espérance finie, donc on peut appliquer l’inégalité de Bienaymé-Tchebychev :
5 5 1
∀ε > 0, P (|X − 10| ≥ ε) ≤ ⇒ P (|X − 10| ≥ 5) ≤ 2 = pour ε = 5,
ε2 5 5
4
donc, en passant au complémentaire : P (X ∈ [6, 14]) ≥ = 80%.
5
Sur 20 lancers, on a 80% de chances, au moins, d’obtenir un nombre de "pile" compris entre 6 et 14
(au sens large).
Remarque 4.8 (signification de l’écart-type). Appliquons l’inégalité de Bienaymé-Tchebychey à X de
variance finie, avec ε = δ × σ(X), où δ > 0 est fixé.
Var(X) 1
On a alors : P (|X − E[X]| ≥ δ × σ(X)) ≤ = 2.
(δ × σ(X))2 δ
Par exemple :
1
— Si δ = 2, X a une probabilité inférieure ou égale à d’être à plus de deux écarts-types de sa moyenne.
4
1
— Si δ = 10, X a une probabilité inférieure ou égale à d’être à plus de 10 écarts-types de sa
100
moyenne.
Ceci illustre que l’on peut interpréter l’écart-type σ(X) comme l’ordre de grandeur des fluctuations
’habituelles" de X autour de sa moyenne E[X].

4.3 Loi faible des grands nombres


Principe : On s’intéresse à une quantité m inconnue (par exemple, la taille moyenne des étudiant(e)s
inscrit(e)s à l’Université Paris-Saclay).
On prend 1 étudiant(e) au hasard, on note X sa taille. On a E[X] = m, mais X est "trop variable"
pour bien estimer m.

On procède donc à plusieurs mesures X1 , ..., Xn indépendantes et de même loi que X (en choisissant
n fois 1 étudiant(e) au hasard).
X1 + · · · + Xn
Il est naturel d’estimer m (taille moyenne de tou(te)s les étudiant(e)s) par Sn = (taille
n
moyenne sur l’échantillon des n étudiant(e)s mesuré(e)s).

Question : Est-ce-que Sn est proche de m ?


L’inégalité de Bienaymé-Tchebychev peut donner une partie de la réponse de n fixé, si Var(Xi ) < +∞
est connue.
Sous certaines condition, on peut démontrer que Sn est "proche" de m pour n "grand", c’est la loi des
grands nombres.

38
4.3. LOI FAIBLE DES GRANDS NOMBRES

Formalisation : Il faut tout d’abord préciser ce que l’on entend par une suite infinie de variables
indépendantes.

Définition 4.3.1. (Xi )i∈N est une suite de variables aléatoires indépendantes si, pour tout n ∈ N∗ , pour
tout (i1 , · · · , in ) ∈ Nn des entiers distincts, les variables Xi1 , ..., Xin sont indépendantes.

Exemple 4.2. On lance une pièce et on note le résultat du i-ème lancer avec : Xi = 1{on a obtenu pile au i-ème lancer} .
Alors : (Xi )i∈N est une suite de variables aléatoires indépendantes.

Remarque 4.9. Si X1 , ..., Xn sont indépendantes, alors : pour tout (i1 , · · · , ik ) ∈ {1, · · · , n}k , les variables
Xi1 , ..., Xik sont indépendantes.
La définition de l’indépendance pour une suite infinie est donc cohérente avec le cas des ensembles finis
de variables aléatoires.

Théorème 4.3.2 (Loi faible des grands nombres). Si (Xi )i∈N est une suite de variables aléatoires
2

indépendantes et de même loi, telles que E X1 < +∞, alors, en notant : Sn = X1 + · · · + Xn , on a :
 
Sn
∀ε > 0, lim P − E [X1 ] > ε = 0.
n→+∞ n

Sn
Remarque 4.10. — Interprétation 1 : "tend vers" E[X1 ] quand n tend vers +∞.
n
— Interprétation 2 : Si on fait un grand nombre de mesures (les Xi ) indépendantes et identiques (c’est-à-
X1 + · · · + Xn
dire, correspondant au même phénomène aléatoire), alors, en moyenne (en regardant ),
n
on obtient quelque chose de très proche de l’espérance.

Démonstration. E[|X1 |] < +∞ donc E[X1 ] est bien définie et E[X1 ] ∈ R. L’énoncé a donc un sens.
Sn
On applique l’inégalité de Bienaymé-Tchebychev à , qui est d’espérance finie (par la proposition sur
n
la linéarité de l’espérance, puisque E[|Xi |] = E[|X1 |] pour tout i ∈ N, les Xi étant de même loi).
Commençons par calculer son espérance et sa variance :
 
Sn 1 n
E = (E[X1 ] + · · · + E[Xn ]) = (E[X1 ]) = E[X1 ],
n n n
puisque les Xi , i ∈ N, sont de même loi.
Puisque X1 , ..., Xn sont indépendantes,
 
Sn 1 1
Var = 2 Var(Sn ) = 2 Var(X1 + · · · + Xn )
n n n
1
= 2 (Var(X1 ) + · · · + Var(Xn )) par indépendance des Xi
n
Var(X1 )
= car les Xi sont de même loi
n
Donc, pour tout ε > 0,

Var Snn
      
Sn Sn Sn Var(X1 )
P −E ≥ε =P − E[X1 ] ≥ ε ≤ = −→ 0.
n n n ε2 ε2 n n→+∞

39
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES

 
Sn
Remarque 4.11. La démonstration ci-dessus donne aussi une bonne information sur P − E[X1 ] ≥ ε
n
à n fixé.
La démonstration est donc à retenir, car elle est utile dans de nombreux exercices.

40
Chapitre 5
Statistique

Problématique : On lance une pièce déséquilibrée, on pose p = P (obtenir pile), et on voudrait une idée
de ce que vaut p.
On la lance n = 100, 200, 1000 fois, et on observe Xn = nombre de "pile" obtenus avec n lancers.
On se pose plusieurs questions :

— Peut-on avoir une valeur p̂ estimant p ? (estimation ponctuelle)


— Peut-on avoir un intervalle Iˆ contenant p avec une probabilité supérieure ou égale à 95% ? (estimation
par intervalle/intervalle de confiance)
— La pièce est-elle équilibrée ? oui/non (test d’hypothèse)

Par rapport à ce qui précède, le point de vue est inversé.


En probabilités : on part de la loi du phénomène d’intérêt (loi de Xn , qui dépend de n et p) et on
cherche à décrire ce qui va se passer (probabilité d’obtenir 500 "pile" sur 1000 lancers ? nombre moyen de
"pile" ? variance ? valeur limite de la fréquence des "pile" quand le nombre de lancers tend vers +∞ ?)
En statistique : on part de l’observation de Xn (ω), pour un ω ∈ Ω, et on cherche à dire des choses sur
1
sa loi (ici, sur p). On l’a déjà un peu vu en exercice, en comparant "P (Xn ≥ · · · ) pour p = " à une
2
1
valeur seuil (95%), pour remettre en cause (ou pas) l’hypothèse p = .
2

On va formaliser ce type de raisonnement (avec les tests d’hypothèse), et voir comment faire d’autres
choses (estimation).

Remarque 5.1. Dans tout ce chapitre, on suppose donné un espace de probabilité (Ω, P ), et toutes les
variables aléatoires sont définies sur Ω.

5.1 Estimation ponctuelle


Exemple 5.1 (du sondage). On veut savoir quel pourcentage des électeurs veut voter pour A. On fait
un sondage : on interroge n personnes (pas tous les électeurs), on note : Xi = 1 si la i-ème personne vote
pour A et Xi = 0 sinon.

Modèle : X1 , ..., Xn sont indépendantes et de même loi B(p), où p est la proportion d’électeurs qui
veulent voter pour A.

41
CHAPITRE 5. STATISTIQUE

X1 + · · · + Xn
Solution : p̂n = est un estimateur naturel de p, appelé "estimateur empirique de la
n
moyenne" ou "moyenne empirique". C’est la proportion des gens interrogés qui veulent voter pour A, qui
estime la proportion p des électeurs de la population entière qui veulent votre pour A.
Remarque 5.2. On a noté p̂n . En statistique, les estimateurs sont souvent notés avec un chapeau. De
plus, on a mis un indice n, car cet estimateur dépend de X1 , ..., Xn et en particulier de n.

Définition 5.1.1. Soit θ ∈ R une quantité inconnue et X1 , ..., Xn des variables aléatoires dont la loi est
reliée à θ. On suppose qu’on observe une réalisation X1 (ω), ..., Xn (ω) de ces variables aléatoires (pour
un ω ∈ Ω).
Un estimateur θ̂ de θ est une fonction des observations qui vise à s’approcher de la valeur de θ. Formel-
lement, θ̂(ω) = f (X1 (ω), · · · , Xn (ω)) pour une fonction f : Rn −→ R. La fonction ω ∈ Ω 7→ θ̂(ω) ∈ R
est donc une variable aléatoire.
Pour un ω ∈ Ω donné, θ̂(ω) est une estimation de Ω.

Remarque 5.3. Lorsqu’il n’y a pas de confusion, on écrit θ̂ au lieu de θ̂(ω), de la même façon qu’on
a souvent écrit P (X = 1) pour P ({ω ∈ Ω/X(ω) = 1}) dans les chapitres précédents. En toute rigueur,
θ̂(ω) ∈ R et θ̂, qui est une fonction de Ω dans R, sont des objets mathématiques bien distincts.
Exemple 5.2. Soient X1 , ..., Xn des variables aléatoires de même loi et admettant une espérance notée
1
θ = E[X1 ] = · · · = E[Xn ]. Un estimateur naturel de θ est la moyenne empirique θ̂n = (X1 + · · · + Xn ),
n
parfois notée Xn .

h i
Définition 5.1.2. Un estimateur θ̂ de θ est dit sans biais lorsque E θ̂ = θ.

Proposition 5.1.3. Si X1 , ..., Xn sont des variables aléatoires de même loi et d’espérance finie, la
1
moyenne empirique (X1 + · · · + Xn ) est un estimateur sans biais de E[X1 ].
n
Démonstration.
 
1 1
E (X1 + · · · + Xn ) = (E[X1 ] + · · · + E[Xn ]) par linéarité de l’espérance
n n
1
= × nE[X1 ] = E[X1 ] car les Xi sont de même loi
n

Définition 5.1.4. On suppose donnée (Xi )i∈N une suite de variables aléatoires indépendantes et de même
loi, et θ ∈ R un paramètre de leur loi commune.
Un estimateur θ̂n = θ̂n (X1 , · · · , Xn ) (ceci signifie que : ∀ω ∈ Ω, θ̂n (ω) = fn (X1 (ω), · · · , Xn (ω)) pour
une fonction fn : Rn −→ R) de θ est dit consistant si :
 
∀ε > 0, P θ̂n − θ > ε −→ 0.
n→+∞

Proposition 5.1.5. Si (Xi )i∈N est une suite de variables aléatoires indépendantes et de même loi et
1
si E X12 < +∞, alors la moyenne empirique θ̂n = (X1 + · · · + Xn ) est un estimateur consistant de
 
n
θ = E[X1 ].

42
5.1. ESTIMATION PONCTUELLE

Démonstration. Il s’agit de la loi des grands nombres (et les hypothèses correspondantes).

Applications :

— Estimation de p = P (obtenir pile) avec une pièce déséquilibrée, avec la fréquence (empirique) des
"pile" obtenu après n lancers : c’est un estimateur sans biais et consistant (moyenne empirique).
— Sondage, estimation de p la proportion des électeurs voulant voter pour 1 parmi n personnes : c’est
aussi un estimateur sans biais et consistant.
— Pour un dé (déséquilibré), on peut estimer P (obtenir un résultat X plus petit que 2) par la moyenne
empirique des 1Xi ≤2 (où Xi est le résultat du i-ème lancer) : c’est également un estimateur sans
biais et consistant.

Exemple 5.3. Estimation du nombre de participants au marathon de Paris, noté N . On se déplace parmi
les participants et on note des numéros de dossards "au hasard" : X1 , ..., Xn .

Modèle : X1 , ..., Xn indépendant de même loi U({1, · · · , N }) (les dossards étant numérotés de 1 à N ).

Deux idées possibles :


N +1 Sn 1 2Sn
1) Estimer E[X1 ] = par la moyenne empirique = (X1 + · · · + Xn ) et poser N̂n = − 1.
2 n n n
2) Considérer N̂n(max) = max{X1 , · · · , Xn } le plus grand numéro de dossard observé, et éventuellement
le corriger un peu.
On va étudier ici la première piste N̂n .

Biais ?
h i 2
E N̂n = E[Sn ] − 1 par linéarité de l’espérance
n
2 N +1 N +1
= ×n× − 1 = N + 1 − N = 1 car l’espérance est linéaire et E[Xi ] =
n 2 2

donc N̂n est un estimateur sans biais de N .

Consistance ? Pour tout ε > 0,

2Sn Sn N + 1 ε
N̂n − N > ε ⇔ −1−N >ε⇔ − > .
n n 2 2

Sn N +1
Or, est un estimateur consistant de = E[X1 ] par la loi des grands nombres (les Xi étant
n  2 2
2
indépendantes de même loi, et car E X1 ≤ N < +∞ puisque 1 ≤ Xi ≤ N ).
ε
Donc : pour tout ε > 0, > 0, on a donc :
2
 
  Sn N + 1 ε
P N̂n − N > ε = P − > −→ 0.
n 2 2 n→+∞

Conclusion : N̂n est un estimateur consistant de N .

43
CHAPITRE 5. STATISTIQUE

Précision de l’estimation ? Combien de numéros (n) faut-il noter pour avoir une estimation précise
à 10% près, avec probabilité au moins 95%. On cherche à majorer :
   
N Sn N + 1 N Var(X1 )
P N̂n − N > =P − > ≤  ,
10 n 2 20 N 2
n × 20

par l’inégalité de Bienaymé-Tchebychev.


Or, on a :

N N
 2 X 2 1 X 2 1 N (N + 1)(2N + 1) (N + 1)(2N + 1) N +1
E X1 = k P (X = k) = k = = et E[X1 ] = ,
N N 6 6 2
k=1 k=1

N2 − 1
donc : Var(X1 ) = E X12 − E[X1 ]2 =
 
.
12
2
 
N 100 N −1 1 100
Ainsi : P N̂n − N > ≤ × 2
× ≤ . Ce majorant est plus petit que 5% si et
10 3 N n 3n
1000
seulement si n ≥ ≈ 666, 7.
3 × 0.05  
N
Conclusion : Lorsque n ≥ 667, P N̂n − N ≤ ≥ 95%. Cependant, attention ! L’inégalité de
10
Bienaymé-Tchebychev n’est pas toujours très précise, il se peut que prendre n plus petit soit suffisant.

5.2 Test d’hypothèses


5.2.1 Exemple : procès d’un casino
Problème : Un casino fait de la publicité pour ses nouvelles machines à sous avec lesquelles "on gagne
une fois sur 3". Après quelques semaines d’ouverture, des clients se plaignent et estiment que la probabilité
1
de gagner est en réalité beaucoup plus faible, environ égale à . Ils décident de faire un procès au casino
10
pour demander des dommages et intérêts (et la condamnation des gérants du casino pour escroquerie). Le
juge décide de procéder à une expérience : essayer les machines à sous incriminées n fois et noter le nombre
de parties gagnantes. Sur la base de ce résultat, il va devoir décider entre condamner ou l’acquitter.
Comment doit-il prendre sa décisions ?

Modèle mathématique : On pose Ω = {0, 1}n . Pour un ω = (ω1 , · · · , ωn ) ∈ Ω, ωi = 1 signifie que la


i-ème partie gagnants et ωi = 0 signifie que la i-ème partir est perdante.
On note, pour tout ω = (ω1 , · · · , ωn ) ∈ Ω, et pour i ∈ {1, · · · , n}, Xi (ω) = ωi .

On munit Ω de la mesure de probabilité Pθ = B(θ)⊗n avec θ ∈ [0, 1] inconnue.


1
Le casino prétend que θ = θ0 = (hypothèse H0 ).
3
1
Les clients prétendent que θ = θ1 = (hypothèse H1 ).
10

1
Estimateur ponctuel de θ : On prend θ̂ = (X1 +· · ·+Xn ) la moyenne empirique. C’est un estimateur
n
sans biais et consistant.

44
5.2. TEST D’HYPOTHÈSES

Test naïf (à ne pas faire !) Comparer θ̂ à θ0 :


1
— Si θ̂ < θ0 = , on condamne le casino ;
3
1
— Si θ̂ ≥ θ0 = , on acquitte le casino.
3

1
Pθ0 (θ̂ < θ0 ) est la probabilité de condamner un innocent, on a, si n = 100 et θ0 = , que cette
  3
probabilité est grande : Pθ0 θ̂ < θ0 = P (B(n, θ0 ) < θ0 ) = 0.52.

Deux types d’erreur : I) θ = θ0 mais le juge condamne le casino (et donc des innocents sont envoyés
en prison).
II) θ = θ1 mais le juge acquitte le casino (et donc des coupables sont en liberté).

L’erreur I est plus grave que l’erreur II (on ne veut pas d’innocents en prison ; en tout cas, très peu).

Comment faire mieux que le test naïf et contrôler la probabilité d’envoyer des innocents en prison
(l’erreur de type I) ? L’idée est de prendre un peu de marge et comparer θ̂ à un seuil θlim tel que
 
Pθ0 θ̂ ≤ θlim ≤ α
|{z}
|{z}
mesure de probabilité
| {z } seuil petit à
sous l’hypothèse H0 erreur de type I choisir avant d’avoir
vu les données

Souvent, on choisit α = 5%. Ici, on a envie de prendre moins (5% d’innocents en prison, c’est beau-
coup !).

Application numérique : On cherche θlim tel que : Pθ0 (θ̂ ≤ θlim ) = P (B(n, θ0 ) ≤ nθlim ) avec n = 100,
1
et θ0 = . On fait le tableau suivant :
3

k 18 19 20 21
P (B(n, θ0 ) ≤ k) 5 × 10−4 1.1 × 10−3 2 × 10−3 5 × 10−3
k 22 23 24 25 26
P (B(n, θ0 ) ≤ k) 9 × 10−3 0,016 0,03 0,046 0,07

45
CHAPITRE 5. STATISTIQUE

Si on prend α ≤ 5%, nθlim = 25 convient (θlim = 0.25). Mais ici, on a envie de prend α plus petit, par
exemple α = 10−3 , dans ce cas nθlim = 18, et donc θlim = 0.18 convient.

Une fois la procédure choisie (rejeter H0 revient à condamner le casino si et seulement si nθ̂n ≤ 18), le
juge peut collecter les données et prendre une décision.

Application concrète : 20 parties gagnées sur 100 tentatives, alors on conserve H0 . (Ce n’est pas assez
1
différent de 100 × pour exclure l’hypothèse que le casino est innocent.)
3

5.2.2 Vocabulaire et définitions (tests)


Dans l’exemple du procès d’un casino (test sur θ) :
1
— « θ = θ0 = » : H0 : hypothèse nulle (l’hypothèse par défaut, celle qu’on fait en l’absence d’obser-
3
vations) ;
1
— « θ = θ0 = » : H1 : hypothèse alternative (disjointe de H0 ) ;
10
— θ̂ : statistique de test (la fonction des observations utilisée pour prendre une décision) ;
— Zone de rejet : Rn =] − ∞; θlim ]. C’est l’ensemble des valeurs de θ̂ qui conduisent à rejeter H0 ,
c’est-à-dire que l’on prend la procédure de test :

— si θ̂ ∈ Rn , on rejette H0 ;
— si θ̂ ∈
/ Rn , on conserve H0 .

C’est la procédure de test de H0 contre H1 .

Définition 5.2.1 (niveau). Le test est de niveau α ∈ [0, 1] si, lorsque H0 est vérifiée (pour θ = θ0 ) :
 
Pθ (on rejette H0 ) ≤ α ⇔ P θ̂ ∈ Rn ≤ α.

 
Remarque 5.4. — Pθ θ̂ ∈ Rn est la probabilité d’une erreur de type I.
— Souvent, on prend α = 5%.

46
5.2. TEST D’HYPOTHÈSES

Définition 5.2.2 (puissance). La puissance du test est : inf Pθ (on rejette H0 ).


θ
H1 est vérifiée

   
  1
Exemple 5.4 (du casino). Pθ1 θ̂n ∈ Rn = P B n, ≤ 18 ≈ 0.995. C’est une bonne nouvelle, le
10
résultat est proche de 1.

5.2.3 Formalisation : vocabulaire et démarche de construction d’un test


Problème : On a une quantité inconnue θ ∈ Θ dont dépend la loi des observations (c’est-à-dire que
l’univers Ω est muni d’une mesure de probabilité Pθ qui dépend de θ), et on veut répondre à une question
fermée sur θ (à laquelle on doit répondre par oui ou par non). En général : Θ ⊆ R.
1 1
Exemple 5.5. — θ= ou θ = ? (procès d’un casino).
3 10
1 1
— θ = ou θ 6= ? (on considère une pièce de monnaie, on note θ la probabilité d’obtenir "face"
2 2
1
quand on la lance ; cette question correspond à se demander si la pièce est équilibrée (θ = ) ou non
2
1
(θ 6= )), voir section 2.4.
2
— θ > 20 ou θ ≤ 20 ? (On s’intéresse à la quantité moyenne de glyphosate contenue dans des céréales
pour le petit déjeuner, exprimée en mg/kg de céréales, et on la note θ ; la norme maximale acceptée
(LMR) est de 20 mg de glyphosate par kg de céréales.)

Solution générale : Procéder à un test d’hypothèse. La démarche (à peu près toujours la même, à
retenir !) est la suivante.

5.2.3.1 Définir une hypothèse nulle


On définit une hypothèse a priori, notée H0 , toujours de la forme « θ ∈ Θ0 », où Θ0 ⊆ Θ est un
ensemble de valeurs possibles pour θ.
 
1 1
Exemple 5.6 (du procès d’un casino). H0 = « θ = θ0 = » ; Θ0 = .
3 3

Difficulté : Identifier H0 en fonction de la question posée, et de comment elle est posée. En général,
H0 est l’hypothèse "par défaut", celle que l’on tolère d’accepter à tort de temps en temps (car choisir H0
par erreur n’est pas trop grave), c’est celle que l’on choisirait en l’absence d’observations.

Exemple 5.7 (du procès). H0 = l’accusé est innocent. (En absence de preuve, on ne met personne en
prison.)

Pour bien identifier H0 , il faut s’entraîner sur des exemples.

5.2.3.2 Définir une hypothèse alternative


On définit une contre-hypothèse, notée H1 , toujours de la forme « θ ∈ Θ1 »avec Θ1 ⊆ Θ et Θ1 ∩ Θ0 = ∅
(H1 est disjointe de H0 ).
Souvent, H1 = « θ ∈ / Θ0 »(c’est-à-dire Θ1 = Θ\Θ0 ) et donc H1 =« H0 fausse », mais pas toujours.

47
CHAPITRE 5. STATISTIQUE

  
1 1
Exemple 5.8 (du procès d’un casino). On a pris H1 = « θ = θ1 = » Θ1 = car les clients
10 10
1 1
affirment connaître la vraie valeur de θ, mais on aurait pu prendre H1 = « θ 6= », ou H1 = « θ < »(et
3 3
cela aurait changé la suite de la constitution du test).

5.2.3.3 Choisir une statistique de test


On doit choisir une statistique de test, c’est-à-dire la fonction des observations sur laquelle va se fonder
la décision. En général (dans ce cours), on prend un estimateur ponctuel de θ. Par exemple, lorsque c’est
possible, une moyenne empirique.
1
Exemple 5.9. Statistique de test : θ̂n = (X1 + · · · + Xn ).
n
On notera ici θ̂n la statistique de test.

5.2.3.4 Définir la zone de rejet


On définit la zone de rejet, notée Rn , l’ensemble des valeurs de la statistique de test pour lesquelles on
va décider de rejeter H0 .
Ceci définira la procédure de test :
— lorsque θ̂n (ω) ∈ Rn , on rejette H0 (c’est-à-dire on affirme que H0 est fausse) ;
— lorsque θ̂n (ω) ∈
/ Rn , on conserve H0 (c’est-à-dire on affirme ne pas avoir d’éléments pour contredire
H0 ).

Intuitivement, Rn est un ensemble de valeurs que θ̂n a peu de chances de prendre lorsque H0 est vraie,
et que θ̂n a (un peu) de chances de prendre lorsque H1 est vraie. Ainsi, le choix de la forme de Rn dépend
de H0 et de H1 .

a) Choix de la forme de la zone de rejet En général, on prend un intervalle ou une réunion


d’intervalles.
1 1
Exemple 5.10 (du procès d’un casino). H0 = « θ = » vs. H1 = « θ = ».
3 10
Les petites valeurs de θ̂n (qui estime θ) sont moins probables sous H0 que sous H1 , et donc il est
naturel de prendre Rn de la forme ] − ∞, A] avec A ∈ R (en section 2.1, on a noté A = θlim ). On parle
alors de test unilatère.
1 1
Exemple 5.11 (de la pièce de monnaie). H0 = « θ = » vs. H1 = « θ 6= ».
2 2
1
Les valeurs de θ̂n "loin de " sont moins probables sous H0 que sous H1 , donc il est naturel de prendre
2
1
Rn de la forme ] − ∞, A] ∪ [B, +∞[, avec (A, B) ∈ R2 . On rejette H0 si θ̂n (ω) est "loin" de . On parle
2
de test bilatère.

Exemple 5.12 (du glyphosate dans les céréales). H0 = « θ > 20 » vs. H1 = « θ ≤ 20 ».


On prend Rn =] − ∞, A] avec A ∈ R.

Exemple 5.13 (de la section 2.6). H0 = « θ ≤ θ0 » vs. H1 = « θ > θ0 ».


On prend Rn = [A, +∞[, avec A ∈ R (test unilatère), c’est-à-dire qu’on rejette H0 lorsque θ̂n (ω) est
"grand".

48
5.2. TEST D’HYPOTHÈSES

b) Choix du niveau du test On rappelle la définition du niveau d’un test :

Définition 5.2.3. Un test est de niveau α si, lorsque H0 est vérifiée, la probabilité de commettre une
erreur (c’est-à-dire, rejeter H0 , c’est commettre une erreur de type I, puisque H0 est vérifiée) est toujours
inférieure ou égale à α).  
Formellement : ∀θ ∈ Θ0 , Pθ θ̂n ∈ Rn ≤ α.
| {z } | {z }
H est vraie
0
on rejette H0

1
Souvent, on prend α = 5%. Parfois, il faut prendre α plus petite (1%, , voire moins), si une erreur
1000
de type I (envoyer un innocent en prison, emprisonner les consommateurs de céréales, ...).

c) Détermination du/des seuils définissant Rn On veut Rn :


— la plus grande possible (pour avoir une chance de rejeter H0 si elle est fausse) ;
 
— telle que : ∀θ ∈ Θ0 , Pθ θ̂ ∈ Rn ≤ α.
Exemple 5.14 (du procès d’un casino). Rn =] − ∞, θlim ]. On veut θlim le plus grand possible tel que :
   
Pθ0 θ̂n ≤ θlim = Pθ0 nθ̂n ≤ nθlim ≤ α et on a : nθ̂n ∼ B(n, θ0 )

Pθ0 (nθ̂n ≤ nθlim ) est la valeur en nθlim de la fonction de répartition de la loi B(n, θ0 ).

 
Définition 5.2.4. Le risque de première espèce du test ainsi construit est : sup Pθ θ̂n ∈ Rn . C’est la
θ∈Θ0
probabilité maximale
  erreur de type I sous H0 .
d’une
On a : sup Pθ θ̂n ∈ Rn ≤ α (par définition du niveau).
θ∈Θ0

Exemple 5.15 (du procès d’un casino). Le risque de première espèce :


   
    1
Pθ0 θ̂n ≤ θlim = Pθ0 nθ̂n ≤ 18 = Pθ0 B n, ≤ 18 ≈ 5 × 10−4 .
3
Il est bien inférieur au niveau 10−3 .

5.2.3.5 On regarde les données


On regarde que vaut θ̂n (ω) et on exécute le test :
— soit θ̂n (ω) ∈ Rn et on rejette H0 ;
— soit θ̂n (ω) ∈
/ Rn et on conserve H0 .

5.2.3.6 Interprétation du résultat


— Si on rejette H0 : on peut dire, avec un risque α (où α est le niveau du test) que H0 n’est pas
vérifiée. La conclusion n’est jamais certaine, mais on sait que si H0 est vraie, une erreur se produit
avec probabilité plus petite ou égale à α, ce qui est acceptable (si α bien choisi).
— Si on conserve H0 : on ne peut rien dire ne général ! Soit H0 est vraie, soit H0 est fausse mais on n’a
pas assez d’éléments pour remettre en cause H0 (par exemple, par manque d’observations).
Exemple 5.16. Si on a aucune observation, alors on conserve H0 (alors qu’on a rien en faveur de H0 ).
Remarque 5.5. Le seul cas où conserver H0 permet de dire quelque chose si le risque de deuxième espèce
est très petit (voir section 2.5).

49
CHAPITRE 5. STATISTIQUE

5.2.4 Exemple 2 : une pièce est-elle équilibrée ?


On se propose de répondre à la question au vue du résultat de n lancers de la pièce considérée.

Modèle : On pose Ω = {0, 1}n . Pour un ω = (ωi )1≤i≤n ∈ Ω, ωi = 1 si on a obtenu face au i-ème lancer,
ωi = 0 sinon). On munit Ω de Pθ = B(θ)⊗n (où θ est la probabilité d’obtenir face, identique pour tous les
lancers ; on prend une mesure produit car les lancers sont indépendantes).
Pour i ∈ {1, · · · , n}, on pose : X : ω = (ωi )1≤i≤n ∈ Ω 7→ ωi ∈ R la variable aléatoire naturellement
associée au i-ème lancer. On observe Xi (ω) pour i ∈ {1, · · · , n}.

1
Construction du test : 1) H0 : θ = θ0 = (par défaut, on peut supposer la pièce équilibrée).
2
1 1
2) H1 : θ 6= (pas d’information sur θ si θ 6= ).
2 2

X1 + · · · + Xn
3) Statistique de test : θ̂n = (moyenne empirique, qui est l’estimateur naturel de θ ici
n
puisque, pour tout i ∈ {1, · · · , n}, E[Xi ] = θ).

1
4) a) On prend Rn de la forme ] − ∞, A] ∪ [B, +∞[, avec A ≤ ≤ B (rejet lorsque θ̂n (ω) est loin de
 2   
1 1 1 1
), et il est naturel de la prendre symétrique autour de : Rn = −∞, − ε ∪ + ε, +∞ avec ε > 0
2 2 2 2
1
(rejet lorsque θ̂n (ω) est éloigné de au plus de ε).
2

b) Niveau : on peut prendre α = 5% (valeur classique du niveau), en absence de précisions sur le


contexte (procès ? jeu d’argent ? expérience scientifique ? ...)
 
1
c) Détermination du seuil : on cherhce ε ≥ 0 le plus petit possible, tel que Pθ0 θ̂n − ≥ε ≤ α,
2
i.e.
   
 n  1 n
Pθ0 nθ̂n − ≥ nε = Pθ0 B n, − ≥ nε ≤ α.
2 2 2
On pourrait utiliser le fait que la loi de θ̂n est connue pour déterminer
h i ε (via la fonction de répartition)
si n était donné. Ici, on va utiliser une autre méthode : puisque E nθ̂n < +∞, par l’inégalité de Bienaymé-
n h i
Tchebychev (et comme = E nθ̂n ) :
2
 
 Var nθ̂
n × 12 × 1 − 12
   
1 n n 1
Pθ0 B n, − ≥ nε ≤ 2
= 2 2
= .
2 2 (nε) n ε 4nε2
1 1
Ce majorant est plus petit que α = 5% lorsque : ε ≥ √ =√ . En prenant ε minimal, on
    4n × 0.05 0.2n
1 1 1 1
obtient : Rn = −∞, − √ ∪ +√ , +∞ .
2 0.2n 2 0.2n

5) Application numérique : On fait n = 10000 lancers ; on observe nθ̂n (ω) = 4700 "face", donc
1 1
/ Rn (puisque − √
θ̂n (ω) = 0.47 ∈ ≈ 0.478), donc on rejette H0 . Avec un risque inférieur à 5%, on
2 0.2n
peut dire que la pièce est déséquilibrée.

50
5.2. TEST D’HYPOTHÈSES

5 bis) Autre application numérique : n = 10000 et nθ̂n = 4800 "face", donc θ̂n (ω) ∈
/ Rn , on conserve
H0 .
Conclusion : on ne peut rien dire. Soit H0 est vraie, soit H0 est fausse mais on n’a pas assez d’éléments
pour remettre en cause H0 (par exemple, n est trop petit). Comment essayer de savoir ? Avec un calcul de
puissance, c’est ce que l’on verra à la section suivante.

5.2.5 Puissance d’un test

 
Définition 5.2.5. Le risque de deuxième espère est : sup Pθ θ̂n ∈ Rn .
θ∈Θ1
| {z } | {z }
on rejette H0
H1 est vraie "à tort"
C’est la probabilité maximale sur H1 de commettre une erreur de type II.
On définit alors la puissance (du même test) par :
 
Puissance = 1 − (Risque de deuxième espèce) = inf Pθ θ̂n ∈ Rn .
θ∈Θ1
| {z }
rejet de H0

C’est la probabilité maximale sous H1 de rejeter H0 (avec raison).

1
Exemple 5.17 (du procès d’un casino). Ici, le calcul est facile car H1 = « θ = » correspond à une
10
seule loi possible.
La puissance est égale à P 1 (θ̂n ∈ Rn ) = P 1 (nθ̂ ≤ 18), avec les valeurs numériques de la section 2.1
10 10
et α = 5%.  
1
Comme, sous H1 , nθ̂n ∼ B n, , avec n = 100, on obtient une puissance environ égale à 0.995.
10
C’est une très bonne nouvelle, le test est très puissant (car θ0 et θ1 sont bien séparées ici) : si le casino est
coupable, on a de très fortes chances de le détecter.
De manière équivalent, on peut calculer l’erreur de deuxième espèces : 1 − puissance ≈ 0.005 qui est
très faible : un coupable a peu de chances d’être acquitté. Si on conserve H0 , on peut donc affirmer (avec
un risque 0.005) que le casino est innocent.

Interprétation de la puissance :
— Un test (de niveau α fixé) est bon si sa puissance est grande (proche de 1), ce qui équivaut à ce que
son risque de deuxième espèce est très petit.
— Si on a le choix entre deux tests de même niveau α, on choisit le plus puissant.
Remarque 5.6. C’est pour cela qu’à l’étape 4c, on a pris une région de rejet Rn la plus grande possible
(prendre Rn plus grande augmente la puissance).
Exemple 5.18 (suite de la section 2.4, une pièce est-elle équilibrée ?). La puissance vaut :
   n  1
inf Pθ θ̂n ∈ Rn = inf Pθ nθ̂n − ≥ nε avec ε = √ et nθ̂n ∼ B(n, θ)
θ∈Θ1 1
θ6= 2 2 0.2n
 
 n  1
=P Y − ≥ nε où Y ∼ B n,
2 2
1  n 
Cette dernière égalité est admise (intuition : le pire cas correspond à θ proche de , et θ →
7 Pθ nθ̂n − ≥ nε
2 2
1
est continue en ).
2

51
CHAPITRE 5. STATISTIQUE

Ici, la puissance coïncide avec le risque de première espèce, et elle est donc forcément très petite ! Avec
n = 104 , on obtient que la puissance vaut 8 × 10−6 .

1
Cause de cette difficulté : H1 peut être très proche de H0 . Comment distinguer θ = − 10−10 de
2
1 4
θ = ? C’est impossible si n = 10 .
2

1
Que se passe-t-il dans cet exemple 2 si l’on prend H1 = « θ − ≥ 0.03 » (hypothèse alternative "un
2
peu écartée" de H0 ) ?
Le test ne change pas (on garde celui de la section 2.4) car H0 est inchangée. Sa puissance vaut alors :
 
  n n
inf Pθ θ̂n ∈ Rn = inf Pθ nθ̂n − ≥√ et nθ̂n ∼ B(n, θ)
|θ− 12 |≥0.03 |θ− 12 |≥0.03 2 0.2n
 
n n
=P Z− ≥√ où Z ∼ B(n, 0.47)
2 0.2n
= P (Z ∈ / [4777, 5223]) ≈ 0.94 si n = 104 .
1
Encore une fois, l’avant-dernière égalité est admise. Intuition : l’inf est atteint pour le cas où θ = +0.03
2
1
ou θ = − 0.03 (ce sont les "pires cas", et ces deux cas donnent la même valeur par symétrie).
2
Cette valeur de puissance (94%) est "grande" (proche de 1), ce qui signifie que notre test avise bien à
1 1
faire la différence entre H0 : « θ = » et H1 : « θ − ≥ 0.03 ».
2 2

5.2.6 Procès d’un anesthésiste


En 20 ans, un anesthésiste a réalisé n = 20000 anesthésies (mille par an). Suite à plusieurs plaintes,
il est accusé d’homicide. On doit juger si les observations démontrant qu’il y a une trop grand mortalité
parmi les patients de cet anesthésiste.
Information : en moyenne, on constate un décès lié (directement ou indirectement) à l’anesthésie pour
20000 interventions.

Modèle : On pose Ω = {0, 1}n . Un ω = (ω1 , · · · , ωn ) ∈ Ω signifie que le i-ème patient anesthésié par
l’accusé :
— est mort suite à l’intervention lorsque ωi = 1 ;
— a survécu à l’intervention lorsque ωi = 0.
On munit Ω de Pθ = B(θ)⊗n où θ est la probabilité de décès pour un patient de l’accusé (mesure
produit car on suppose les résultats des n anesthésies indépendantes).
On observe, pour un i ∈ {1, · · · , n}, Xi (ω) = ωi .

1
Construction du test : 1) On choisit H0 : « θ ≤ θ0 = » (l’anesthésiste est innocent/compétent).
20000
1
2) On choisit H1 : « θ > θ0 = » (l’anesthésiste est coupable/incompétent).
20000
1
3) Statistique de test : θ̂n = (X1 + · · · + Xn ) qui est un estimateur de θ (c’est la moyenne empirique
n
des Xi ).

52
5.2. TEST D’HYPOTHÈSES

4) a) On prend Rn de la forme [A, +∞[ (on rejette H0 si θ̂n est trop grand).

b) Choisir un niveau α = 5% ne conviendrait pas : on ne va pas mettre ne prison (ou au chômage) 5%


des 10000 anesthésistes en France, soit 500 personnes, juste "par erreur". Prendre α = 10−5 semble bien
plus raisonnable.
 
c) On cherche A tel que : ∀θ ≤ θ0 , Pθ θ̂n ≥ A ≤ α.
   
Or : Pθ θ̂n ≥ A = Pθ nθ̂n ≥ nA (nθ̂ ∼ B(n, θ)) est une fonction croissante de θ.
Ce résultat est admis : augmenter θ rend cet événement nθ̂n ≥ nA plus probable, car cela tend à
augmenter le nombre de "succès" (décès des patients) selon la terminologie utilisée pour définie la loi
binomiale. Donc :
 
sup Pθ θ̂n ≥ A = P (Y ≥ nA) où Y ∼ B(n, θ0 ).
θ≤θ0

Ici, il suffit de se placer dans le cas "extrême" θ = θ0 pour contrôler le risque de première espèce pour
tout θ ≤ θ0 . Attention, ce n’est pas toujours vrai !
 
1
Application numérique : Y ∼ B 20000, (que l’on peut approcher par la loi Poisson(1)).
20000
On détermine A à l’aide du tableau suivant :

k 0 1 2 3 4
P (B(n, θ0 ) ≤ k) 0.368 0.736 0.920 0.981 1 − 3, 6 × 10−4
k 5 6 7 8
P (B(n, θ0 ) ≤ k) 1 − 5.9 × 10−4 1 − 8.3 × 10−4 1 − 1.0 × 10−5 1 − 1.1 × 10−6

9
Ainsi, si α = 10−5 , A = et Rn = [4.5 × 10−4 , +∞[.
n

5) Confrontation aux données : on recense sept décès parmi les patients de l’accusé, on a donc :
nθ̂n = 7 < 9, donc on conserve H0 . On acquitte l’accusé au bénéfice du doute.

6) Calcul de puissance : Le risque de deuxième espèce est :

 
sup Pθ θ̂n < 4.5 × 10−4 = sup P (B(n, θ) < θ) = sup P (B(n, θ) ≤ 8) = P (B(n, θ0 ) ≤ 8) ≈ 1−1.1×10−6 .
θ>θ0 θ>θ0 θ>θ0

Ainsi, le risque de deuxième espèce est très proche de 1, et la puissance environ égale à 1.1 × 10−6 est
ridiculement petite ! Les causes sont que α est très petit et H1 est "collée" à H0 .

1
6 bis) Puissance sous une autre alternative : si H1 = « θ ≥ 20 × θ0 = », par un raisonnement
1000
similaire, on obtient que le risque de deuxième espèce vaut :

 
sup Pθ θ̂n < 4.5 × 10−4 = sup P (B(n, θ) ≤ 8) = P (B(n, 20θ0 ) ≤ 8) ≈ 2 × 10−3 = 0.002.
θ≥20×θ0 θ≥20×θ0

La puissance vaut donc environ 1 − 2 × 10−3 = 99.8%, c’est une très bonne valeur. Ceci signifie que,
si l’on conserve H0 , on peut affirmer (avec un risque 0.002) que θ < 20θ0 .

53
CHAPITRE 5. STATISTIQUE

5.3 Estimation par intervalles


On a vu les limites d’un estimateur ponctuel θ̂ pour répondre à une question sur un paramètre θ ∈ R
inconnu. Mais on n’a pas toujours une question précise à poser sur θ.

Exemple 5.19 (sondage). Plutôt que de donner une estimation p̂ de la proportion p d’électeurs votant
pour A, il serait utile de donner un intervalle de valeurs "probables" pour p (une "fourchette"). En principe,
il faudrait toujours procéder ainsi.

Définition 5.3.1. Si l’on observe X1 , ..., Xn des variables aléatoires de même loi et si θ ∈ Θ est un
paramètre de cette loi (inconnu, on sait seulement que θ ∈ Θ ⊆ R), alors un intervalle de confiance pour
θ est un intervalle Iˆn , fonction des observations X1 , ..., Xn uniquement, tel que :
 
∀θ ∈ Θ, P θ ∈ Iˆn (X1 , · · · , Xn ) ≥ 1 − α.

On appelle 1 − α la probabilité de couverture de Iˆn , et on dit que Iˆn est un intervalle de confiance à
"100(1 − α)%" pour θ. On parle aussi de "niveau de confiance α", ou de "risque α".

Remarque 5.7. — Si Iˆn = [ân , b̂n ], ou [ân , b̂n [, ou ]ân , b̂n ], ou ]ân , b̂n [, avec ân = ân (X1 , · · · , Xn ) ∈ R
et b̂n = b̂n (X1 , · · · , Xn ) ∈ R, on parle d’intervalle de confiance bilatère.
— Lorsque Iˆn = [ân , +∞[ ou ] − ∞, b̂n ], on parle d’intervalle de confiance unilatère.
— Souvent, on prend ân et b̂n des fonctions de θ̂n un estimateur ponctuel de θ.
Par exemple : ân = θ̂n − tα,n et b̂n = θ̂n + tα,n , avec tα,n ∈ R bien choisi.

Exemple 5.20 (du sondage). Soit p la proportion d’électeurs votant pour A (dans la population entière).
On interroge n personnes. On obtient alors n variables aléatoires X1 , ..., Xn indépendantes de même loi
B(p) (et donc : ∀i ∈ {1, · · · , n}, E[Xi ] = p).

X1 + · · · + Xn
Estimateur ponctuel : On prend la moyenne empirique p̂n = . C’est un estimateur sans
n
biais et consistant.

Intervalle de confiance : On le prend de la forme [p̂n − tα,n , p̂n + tα,n ] avec tα,n ∈ R choisi de manière
à ce que sa probabilité de couverture soit plus grande que 1 − α, avec α ∈]0, 1] fixé. On veut donc :

P (p ∈ [p̂n − tα,n , p̂n + tα,n ]) ≥ 1 − α ⇔ P (|p − p̂n | > tα,n ) ≤ α.

Or, par l’inégalité de Bienaymé-Tchebychev appliquée à p̂n (qui est d’espérance finie p, et de variance
1 1 1
Var (p̂n ) = 2 Var(X1 + · · · + Xn ) = 2 n Var(X1 ) = p(1 − p)), on a :
n n n
p(1 − p) 1 1
P (|p − p̂n | > tα,n ) ≤ 2
≤ 2
car : ∀p ∈ [0, 1], p(1 − p) ≤ .
ntα,n 4ntα,n 4
1 1 1
Donc on veut : 2
= α ⇔ 1 = 4αnt2α,n ⇔ tα,n = √ . Il suffit donc de prendre tα,n = √ .
4ntα,n 2 nα 2 nα

 
1 1
Conclusion : p̂n − √ , p̂n + √ est un intervalle de confiance pour p, de probabilité de cou-
2 nα 2 nα
verture (au moins) α.

54
5.3. ESTIMATION PAR INTERVALLES

Application numérique : On prend α = 5%, et n = 1000 sondés, et que la fréquence empirique de


503
sondés votant pour A est = p̂n . On a alors tα,n ≈ 7.1%, et donc Iˆn = [0.432, 0.574].
1000
1 1 1
L’intervalle recoupe , ceci ne permet pas de savoir si p > ou p < .
2 2 2

6123
Deuxième application numérique : On prend α = 5%, n = 10000 et p̂n = . Alors tα,n ≈ 0.022%
10000
et Iˆn = [0.590, 0.635].
1
L’intervalle ne contient que des valeurs strictement plus grandes que , donc on peut conclure que
2
1
p > "avec un risque 5%" (c’est-à-dire avec une probabilité de couverture 95% pour Iˆn ).
2
Ceci signifie que si on refait ce sondage de nombreuses fois, on donnera une conclusion fausse au
1
maximum 5 fois sur 100. En revanche, la "probabilité de se tromper" en affirmant "p > " vaut soit 0 (si
2
1 1
p > ), soit 1 (si p < ), car p est déterministe (mais inconnu : on ne sait donc pas dans quel cas on est).
2 2

55

Vous aimerez peut-être aussi