Académique Documents
Professionnel Documents
Culture Documents
Semestre 4
Université Paris-Saclay
Probabilités et Statistique
Math207
Notes de cours
1 Espaces de probabilité 3
1.1 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Fonction indicatrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.3 Propriétés du cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Ensemble de référence (et leurs cardinaux) . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 Bilan sur le dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Espaces de probabilité : définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 L’univers Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Les événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Mesure de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.4 Espaces de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.5 Mesure de probabilité uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Mesure de probabilité produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Mesure de probabilité produit et mesure de probabilité uniforme . . . . . . . . . . 12
1.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Indépendance et probabilité produit . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Indépendance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Variables aléatoires 17
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.3 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Quelques lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Loi uniforme sur {1, 2, · · · , n} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Loi de Bernoulli de paramètre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Loi binomiale de paramètres n et p . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1
TABLE DES MATIÈRES
2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Retour sur la loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Loi géométrique de paramètre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Statistique 41
5.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.1 Exemple : procès d’un casino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.2 Vocabulaire et définitions (tests) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.3 Formalisation : vocabulaire et démarche de construction d’un test . . . . . . . . . . 47
5.2.4 Exemple 2 : une pièce est-elle équilibrée ? . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.5 Puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.6 Procès d’un anesthésiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2
Chapitre 1
Espaces de probabilité
1.1 Dénombrement
1.1.1 Cardinal
Définition 1.1.1. Soit Ω un ensemble fini. Card(Ω) est le nombre d’éléments de Ω. Si n = Card(Ω), on
peut écrire : Ω = {ω1 , · · · , ωn }.
Propriété 1.1.2 (admise). Soient A et B deux ensembles finis. On a : Card A = Card B si et seulement
s’il existe une bijection f : A −→ B.
— surjective si : ∀z ∈ B, ∃ x ∈ A, f (x) = z ;
Définition 1.1.3. Soient A et Ω deux ensembles tels que A ⊆ Ω. La fonction indicatrice de A dans Ω
est :
1A : Ω −→ R
1 si x ∈ A
x 7→
0 sinon
3
CHAPITRE 1. ESPACES DE PROBABILITÉ
(i) 1Ac (x) = 1 − 1A (x) ; (iii) 1A∪B (x) = 1A (x) + 1B (x) − 1A∩B (x) ;
(ii) 1A∩B (x) = 1A (x) × 1B (x) ; (iv) 1A×B (x, y) = 1A (x) × 1B (y) ;
p
X
(v) Si (Ai )1≤i≤p est une partition de A, alors : 1A (x) = 1Ai (x).
i=1
4
1.1. DÉNOMBREMENT
[
(iv) ({a} × B)a∈A forment une partition de A × B, car : {a} × B = {(a, b)/a ∈ A et b ∈ B}, et pour
a∈A
(a, a0 ) ∈ A2 , a 6= a0 ⇒ ({a} × B) ∩ ({a0 } × B) = ∅.
X
On a : Card(A × B) = Card({a} × B) = Card A × Card B.
a∈A
p p−1
(v) A = A × A pour p ≥ 2 donc : Card Ap = Card A × Card(Ap−1 ).
Si p = 1 : A = A ⇒ Card Ap = Card A. Par récurrence, on obtient que : Card Ap = (Card A)p .
p
Définition 1.1.6. Pour tout p ∈ N∗ , {1, 2, · · · , n}p = {(x1 , · · · , xp )/x1 ∈ J1, nK, · · · , xp ∈ J1, nK}.
On a Card({1, 2, · · · , n}p ) = np .
Proposition 1.1.7. Si A et B sont deux ensembles finis tels que Card A = p et Card B = n. L’ensemble
des fonctions f : A −→ B est en bijection avec {1, 2, · · · , n}p , il est donc aussi de cardinal np .
g((x1 , · · · , xp ))(i0 ) = xi0 6= x0i0 = g((x01 , · · · , x0p ))(i0 ) ⇒ g(x1 , · · · , xp ) 6= g(x01 , · · · , x0p ).
5
CHAPITRE 1. ESPACES DE PROBABILITÉ
Définition 1.1.8. L’ensemble des parties de {1, 2, · · · , n}, noté P({1, 2, · · · , n}) est :
Proposition 1.1.9. P({1, · · · , n}) est en bijection avec {0, 1}n . Il est donc de cardinal 2n .
Proposition 1.1.11. On a : Card S(n) = n! = Card({g : E −→ F/g bijective}), pour tous ensembles
E et F de cardinal n.
Démonstration. On a n choix pour g(1), puis, sachant g(1), on a n − 1 pour g(2). Ensuite, sachant g(1)
et g(2), on a n − 2 choix pour g(3) et ainsi de suite. Enfin, sachant g(1), g(2), jusqu’à g(n − 1), il nous
reste un seul choix pour g(n).
En tout, on a : n(n − 1)(n − 2) × · · · × 2 × 1 = n! choix.
6
1.1. DÉNOMBREMENT
[
{arrangements de p éléments de {1, · · · , n}} = {(x1 , · · · , xp )/{x1 , · · · , xp } = 1}.
A∈P({1,··· ,n})
Card A=p
C’est une partition de {arrangements de p éléments de {1, · · · , n}} : soit A 6= A0 deux parties à p
éléments de {1, · · · , n}. On a : {(x1 , · · · , xp )/{x1 , · · · , xp } = A} ∩ {(x1 , · · · , xp } = A0 } = ∅, donc :
p
X n
An = Card({(x1 , · · · , xp )/{x1 , · · · , xp } = A} = p! .
p
A∈P({1,··· ,n})
Card A=p
7
CHAPITRE 1. ESPACES DE PROBABILITÉ
n!
Apn
n (n−p)! n!
d’où : = = = .
p p! p! p!(n − p)!
(a + b)n = (a + b) × (a + b) × · · · × (a + b)
X
= aε1 b1−ε1 aε2 b1−ε2 · · · aεn b1−εn
(ε1 ,··· ,ε2 )∈{0,1}n
X
= aε1 +···+εn bn−(ε1 +···+εn )
(ε1 ,··· ,ε2 )∈{0,1}n
X n X
= ak bn−k
k=0 (ε1 ,··· ,ε2 )∈{0,1}n
ε1 +···+εn =k
n
X n
k n−k
= a b
k
k=0
8
1.2. ESPACES DE PROBABILITÉ : DÉFINITIONS
Définition 1.2.1. L’univers Ω est un ensemble non vide qui rassemble au moins tous les résultats
possibles de l’expérience considérée.
Exemple 1.1. — Lancer d’un dé à 6 faces : Ω = {1, · · · , 6}, ou Ω = {1, · · · , 10}, même si c’est moins
naturel.
— Lancer d’une pièce (pile ou face) une fois : Ω = {0, 1}, Ω = {1, 2}, ou Ω = {P, F }.
— Lancer d’une pièce n fois : Ω = {0, 1}n .
— Tirages du loto : Ω = {1, · · · , 49}5 , ou Ω = {arrangements de 5 éléments de {1, · · · , 49}}, ou encore
Ω = {parties à 5 éléments de {1, · · · , 49}}.
— Nombre d’accidents de la route en 2020 à Orsay : Ω = N.
Pour le moment, on va toujours supposer que Ω est fini.
Définition 1.2.4. Des événements (Ai )1≤i≤n forment une partition de Ω lorsque :
n
[
— Ai = Ω.
i=1
— ∀(i, j) ∈ J1, nK2 , i ≤ j ⇒ Ai ∩ Aj = ∅.
On dit aussi que (Ai )1≤i≤n est un système complet d’événements.
9
CHAPITRE 1. ESPACES DE PROBABILITÉ
Exemple 1.4 (lancer d’un dé). {1}, {2, 4, 6} et {3, 5} forment une partition de Ω. « Tirage pair » et
« Tirage impair » aussi.
Une mesure de probabilité est une mesure de probabilité associée à un germe p (non précisé).
−→ [0, 1]
p:Ω
Exemple 1.5 (lancer d’un dé). Ω = {1, · · · , 6}. 1 est un germe de probabilité.
ω 7→
6
1
Soit P la mesure de probabilité associée. On a : P ({2, 4, 6}) = .
2
10
1.3. MESURE DE PROBABILITÉ PRODUIT
n
X
— Conséquence de 1A = 1Ai ;
i=1
— Évident sur la définition.
Définition 1.2.8. Un espace de probabilité est la donnée de Ω un univers et P une mesure de probabilité
sur Ω.
Définition 1.2.9. Si Ω est fini, la mesure de probabilité uniforme sur Ω est la mesure de probabilité
associée au germe p défini par :
1
∀ω ∈ Ω, p(ω) = .
Card Ω
X 1
Remarque 1.2. — p est bien un germe : il est bien à valeurs dans [0, 1] et = 1.
Card Ω
ω∈Ω
— p est l’unique germe constant.
Exemple 1.6. — dé équilibré : Ω = {1, · · · , 6} ;
— pièce équilibrée : Ω = {0, 1} ;
— choix "au hasard" (uniforme) dans une population Ω.
Card A
∀A ⊂ Ω, P (A) = .
Card Ω
X 1 Card A
Démonstration. P (A) = = .
Card Ω Card Ω
ω∈A
11
CHAPITRE 1. ESPACES DE PROBABILITÉ
Notation : On note : P = P1 ⊗ P2 et p = p1 ⊗ p2 .
Remarque 1.3. — Si (Ω1 , P1 ), ..., (Ωn , Pn ) sont des espaces de probabilité, on définit de même l’espace
de probabilité produit (Ω1 × · · · × Ωn , P1 ⊗ · · · ⊗ Pn ) via le germe :
p : Ω1 × · · · × Ωn −→ [0, 1]
(ω1 , · · · , ωn ) 7→ p1 (ω1 ) × · · · × pn (ωn )
Proposition 1.3.2. Si Ω1 est muni de sa mesure de probabilité uniforme P1 , Ω2 est muni de sa mesure
de probabilité uniforme P2 , alors la mesure de probabilité produit P1 ⊗ P2 est la mesure de probabilité
uniforme sur Ω1 × Ω2 .
1.4 Indépendance
1.4.1 Définitions
Définition 1.4.1. Soit (Ω, P ) un espace de probabilité. Deux événements A et B sont indépendants si :
P (A ∩ B) = P (A) × P (B).
Remarque 1.4. « pas de lien » ⇒ indépendants mais la réciproque est fausse.
Exemple 1.8. 2 lancers successifs d’un dé équilibré : Ω = {1, · · · , 6}2 muni de P la mesure de probabilité
uniforme.
On considère : A = « résultat pair au premier lancer » et B = « résultat pair au deuxième lancer ».
1 1 1
« sans lien » ⇒ A et B indépendants : P (A ∩ B) = P (A) × P (B) = × = .
2 2 4
C = « résultats de parités différentes aux 2 lancers ». C = (A ∩ B c ) ∪ (Ac ∩ B) et l’union est disjointe.
1 1 1 1 1
P (C) = P (A ∩ B c ) + P (Ac ∩ B) = P (A)P (B c ) + P (Ac )P (B) = × + × = .
2 2 2 2 2
1 1 1
P (A) × P (C) = × = = P (A ∩ C), donc A et C sont indépendants.
2 2 4
Définition 1.4.2. Soit (Ω, P ) un espace de probabilité. Trois événements A, B et C sont dits indépen-
dants si :
12
1.5. PROBABILITÉ CONDITIONNELLE
Exemple 1.10 (les 2 lancers d’un dé). A et B sont indépendants, A et C aussi et B et C également.
1
A ∩ B ∩ C = ∅ donc P (A ∩ B ∩ C) = 0 6= P (A) × P (B) × P (C) = , donc A, B et C ne sont pas
8
indépendants.
Exercice. Soit n ≥ 2 entier. On regarde les familles à n enfants. On fait l’hypothèse que toutes les
configurations fille/garçon (avec ordre de naissance en mémoire) sont équiprobables.
On considère les événements A = « avoir au moins une fille et un garçon » et B = « avoir au plus
une fille ». A et B sont-ils indépendants ?
On se place dans l’espace de probabilité (Ω, P ) avec Ω = {F, G}n et P la mesure de probabilité
uniforme sur Ω.
On a : Ac = {(F, F, · · · , F ), (G, · · · , G)} et B = {(G, · · · , G), (F, G, · · · , G), · · · , (G, · · · , G, F )}, d’où :
Card Ac = 2 et Card B = n + 1.
2 1 n+1 n
Ainsi : P (A) = 1 − P (Ac ) = 1 − n = 1 − n−1 et P (B) = n
et P (A ∩ B) = n .
2 2 2 2
n n+1 1 n−1
A et B sont indépendants ⇔ n = 1 − n−1 ⇔ n + 1 = 2 ⇔ n = 3.
2 2n 2
Conclusion : A et B sont indépendants si n = 3, et A et B ne sont pas indépendants si n 6= 3.
1.4.3 Propriétés
Définition 1.5.1. Soit (Ω, P ) un espace de probabilité. Soient A et B deux événements tels que P (A) > 0.
On appelle probabilité conditionnelle de B sachant A la quantité :
P (B ∩ A)
P (B|A) = .
P (A)
13
CHAPITRE 1. ESPACES DE PROBABILITÉ
Proposition 1.5.2. Soient (Ω, P ) un espace de probabilité, A et B deux événements tels que P (A) > 0.
On définit :
PA : B ∈ P(Ω) 7→ P (B|A).
C’est une mesure de probabilité sur Ω, appelée mesure de probabilité conditionnelle sachant A.
P (A ∩ B) 1 X 1 X X
PA (B) = = p(ω) = p(ω) 1A (ω) = pA (ω).
P (A) P (A) P (A)
ω∈A∩B ω∈B ω∈B
Proposition 1.5.3. Soient (Ω, P ) un espace de probabilité et A et B deux événements tels que P (A) > 0.
— P (B c |A) = 1 − P (B|A) ;
— Formule des probabilités totales : si (Ai )1≤i≤n est une partition de Ω avec : ∀i ∈ {1, · · · , n},
P (Ai ) > 0, alors :
n
X n
X
P (B) = P (B ∩ Ai ) = P (Ai ) × P (B|Ai ).
i=1 i=1
14
1.5. PROBABILITÉ CONDITIONNELLE
Proposition 1.5.4 (Formule de Bayes 1). Soient (Ω, P ) un espace de probabilité, A et B deux événements
tels que P (A) > 0 et P (B) > 0. Alors :
P (B|A) × P (A)
P (A|B) = .
P (B)
Proposition 1.5.5 (Formule de Bayes 2). Soient (Ω, P ) un espace de probabilité et A et B deux événe-
ments tels que P (A) ∈]0, 1[ et P (B) > 0. Alors :
P (B|A) × P (A)
P (A|B) = .
P (B|A)P (A) + P (B|Ac )P (Ac )
Démonstration. On applique la formule de Bayes 1 et , d’après la formule des probabilité totales, {A, Ac }
étant une partition de Ω avec P (A) > 0 et P (Ac ) > 0.
On a : P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ).
Définition 1.5.6. Soient (Ω, P ) un espace de probabilité et A, B, C trois événements tels que P (A) > 0.
On dit que B et C sont indépendants conditionnellement à A si : P (B ∩ C|A) = P (B|A) × P (C|A).
Remarque 1.6. Cette définition équivaut à dire que B et C sont indépendants dans l’espace de probabilité
(Ω, PA ).
Exemple 1.13 (du cannabis). Pour i ∈ {1, 2}, on note : Ti = {conducteur dont le test i est positif}. T1
et T2 sont indépendants sachant C, et T1 et T2 sont indépendants sachant C c .
Ainsi, P (T1 ∩ T2 |C) = 0, 99 ≈ 0, 98 et P (T1 ∩ T2 |C c ) = 0, 012 = 0, 0001, d’où : P (C|T1 ∩ T2 ) = quelque
chose proche de 1.
15
CHAPITRE 1. ESPACES DE PROBABILITÉ
Remarque 1.7. Si B et C sont indépendants sachant A, alors B et C ne sont pas forcément indépendants
sachant Ac .
Exemple 1.14 (Contre-exemple). On a 3 pièces : une équilibrée, une qui tombe toujours sur pile, et une
qui tombe toujours sur face. On pose :
— A = « la pièce choisie est équilibrée » ;
— B = « pile au premier lancer » ;
— C = « face au deuxième lancer ».
B et C sont indépendants sachant A. En revanche, sachant Ac , B et C ne sont pas indépendants.
16
Chapitre 2
Variables aléatoires
2.1 Définitions
2.1.1 Variable aléatoire
Définition 2.1.1. Soit (Ω, P ) un espace de probabilité. Une variable aléatoire est une fonction Ω −→ R
(ou Rd , d ∈ N∗ ).
Exemple 2.1. On lance une pièce équilibrée : Ω = {0, 1}10 avec 0 : pile, 1 : face.
10
X
On compte le nombre de faces : X : ω ∈ Ω 7→ 1ωi =1 .
i=1
P (« obtenir 6 "face" ») = P (X = 6) = P ({ω ∈ Ω/X(ω) = 6}) = X −1 ({6}).
2.1.2 Loi
Définition 2.1.2. Soit (Ω, P ) un espace de probabilité, et soit X une variable aléatoire sur Ω.
p : X(Ω) −→ [0, 1]
On définit la fonction : X .
x 7→ P ({ω ∈ Ω/X(ω) = 1})
C’est un germe de probabilité. La mesure de probabilité associée PX est la loi de X.
Proposition 2.1.3. Soit (Ω, P ) un espace de probabilité. Si X et X 0 sont 2 variables aléatoires de même
loi (i.e. PX = PX 0 ) à valeurs dans Rd , alors : pour toute fonctions f : Rd −→ R, f (X) et f (X 0 ) ont
même loi.
17
CHAPITRE 2. VARIABLES ALÉATOIRES
2.1.3 Espérance
Définition 2.1.4. Soit (Ω, P ) un espace de probabilité et soit X : Ω −→ R une variable aléatoire.
L’espérance de X, notée E[X], est définie par :
X
E[X] = X(ω)p(ω).
ω∈Ω
Exemple 2.2. On considère 8 étudiant et leurs notes : 2, 8, 8, 10, 10, 10, 16, 16.
On pose : Ω = {étudiants} muni de P la mesure de probabilité uniforme. Soit X : ω ∈ Ω 7→
la note de ω.
1 1 1 1 1 1 1 1
E[X] = 2 × + 8 × + 8 × + 10 × + 10 × + 10 × + 16 × + 16 × = 10.
8 8 8 8 8 8 8 8
Proposition 2.1.5 (Deuxième formule pour l’espérance). Soient (Ω, P ) un espace de probabilité et
X : Ω −→ R une variable aléatoire. On a :
X
E[X] = xpX (x).
x∈X(Ω)
1 2 3 2
Exemple 2.3 (8 étudiants). X(Ω) = {2, 8, 10, 16}. pX : 2 7→ , 8 7→ , 10 7→ , 16 7→ .
8 8 8 8
Démonstration.
X
E[X] = X(ω)p(ω)
ω∈Ω
X X
= X(Ω) p(ω) car (X −1 ({x}))x∈X(Ω) est une partition de Ω
| {z }
x∈X(Ω) ω∈X −1 ({x}) x
X X X X
= x p(ω) = xP (X −1 ({x})) = xpX (x)
x∈X(Ω) ω∈X −1 ({x}) x∈X(Ω) x∈X(Ω)
Remarque 2.2 (Conséquence fondamentale). E[X] ne dépend pas de PX . Ainsi, si X et X 0 ont même
loi, alors E[X] = E[X 0 ] et : ∀f : Rd −→ R, E[f (X)] = E[f (X 0 )].
18
2.2. QUELQUES LOIS CLASSIQUES
1 2 3 2
Exemple 2.4 (8 étudiants). E[|X − 10|] = |2 − 10| + |8 − 10| + |10 − 10| + |16 − 10| = 3.
8 8 8 8
Démonstration.
X X X X
E[f (X)] = f (x)p(ω) = f (x)P (X −1 ({x})) = f (x)pX (x).
X(Ω) ω∈X −1 ({x}) x∈X(Ω) x∈X(ω)
Définition 2.2.1. La loi uniforme sur {1, · · · , n} est la mesure de probabilité uniforme sur {1, · · · , n}.
Exemple 2.5. X : face sur laquelle s’arrête un dé équilibré. PX est la mesure de probabilité uniforme sur
{1, · · · , n}.
19
CHAPITRE 2. VARIABLES ALÉATOIRES
Notation : Si X sur la loi uniforme sur {1, · · · , n}, on note : X ∼ U({1, · · · , n}).
n+1
Proposition 2.2.2. Si X ∼ U({1, · · · , n}), alors : E[X] = .
2
n
X 1 1 n(n + 1) n+1
Démonstration. E[X] = k× = = .
n n 2 2
k=1
Définition 2.2.3. X sur la loi de Bernoulli de paramètre p ∈ [0, 1], notée B(p), si : X(Ω) = {0, 1} et
P (X = 1) = p, P (X = 0) = 1 − p.
Définition 2.2.5. La loi binomiale de paramètres n ∈ N∗ et p ∈ [0, 1], notée B(n, p), est la loi du nombre
de succès dans une suite de n expériences de Bernoulli indépendantes et de même probabilité de succès p.
Proposition 2.2.6 (ou autre définition de la loi binomiale). Soit n ∈ N∗ et p ∈ [0, 1].
pX : {0, 1, · · · , n} −→ [0, 1]
La fonction : n est un germe de probabilité et la mesure
k 7→ × pk × (1 − p)n−k
k
de probabilité associée est la loi binomiale B(n, p).
Démonstration. Soit Ω = {0, 1}n muni de la mesure de probabilité P0⊗n où P0 est le germe de probabilité
sur Ω0 = {0, 1} associé au germe p0 : 0 7→ 1 − p, 1 7→ p.
La variable aléatoire qui compte le nombre de succès dans n expériences de Bernoulli indépendantes
modélisées par (Ω, P0⊗n ) est :
X : ω = (ω1 , · · · , ωn ) ∈ Ω 7→ ω1 + · · · + ωn .
D’après la définition, PX = B(n, p). Soit k ∈ {0, · · · , n}.
X
P (X = k) = q(ω) où q est le germe associé à P0⊗n
ω∈Ω
X(ω)=k
X X
= q(ω) = pω1 (1 − p)1−ω1 × · · · × pωn (1 − p)1−ωn
|{z}
ω∈Ω ω∈{0,1}n
ω1 +···+ωn =k q0 (ω1 )×···×q0 (ωn ) ω1 +···+ωn =k
X
ω1 +···+ωn n−(ω1 +···+ωn ) n k
= p (1 − p) = p (1 − p)k .
k
ω∈{0,1}n
ω1 +···+ωn =k
20
2.3. VARIABLES ALÉATOIRES INDÉPENDANTES
Démonstration. Prenons X construite dans la démonstration précédente. X et X 0 ont même loi (donc
E[X] = E[X 0 ]). On a : X = X1 + · · · + Xn , où Xi : (ω1 , · · · , ωn ) 7→ ωi , et Xi 7→ B(p), donc : E[X] =
Xn n
X
E[Xi ] = p = np.
i=1 i=1
Définition 2.3.1. Soit (Ω, P ) un espace de probabilité, et soient X1 , ..., Xn des variables aléatoires. On
dit que X1 , ..., Xn sont indépendantes si :
n
Y
n
∀(α1 , · · · , αn ) ∈ R , P (X1 = α1 , · · · , Xn = αn ) = P (Xi = αi ).
i=1
Remarque 2.3. Ceci équivaut à dire que : P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn , où (X1 , · · · , Xn ) est la variable
aléatoire qui à ω associe (X1 (ω), · · · , Xn (ω)) ∈ Rn .
Proposition 2.3.2 (admise). Soit n ≥ 2 entier et m ∈ {1, · · · , n − 1}. Si X1 , ... Xn sont indépendantes,
alors f (X1 , · · · , Xm ) et g(Xm+1 , · · · , Xm ) sont indépendantes, pour toutes fonctions f et g.
Proposition 2.3.3. Si Y1 , ..., Yn sont des variables aléatoires indépendantes de même loi B(p), alors :
Y = Y1 + · · · + Yn ∼ B(n, p).
Démonstration. P(Y1 ,··· ,Yn ) = PY1 ⊗ · · · ⊗ PYn = PX1 ⊗ · · · ⊗ PXn = P(X1 ,··· ,Xn ) où les Xi sont les variables
aléatoires définies dans la démonstration de la proposition 2.2.7.
Donc : PY1 + · · · + PYn = PX1 + · · · + PXn = PX = B(n, p).
Définition 2.4.1. La loi géométrique de paramètre p ∈]0, 1], notée G(p), est la loi du nombre de tentatives
jusqu’au premier succès dans une suite d’expériences de Bernoulli indépendantes de même probabilité de
succès p.
21
CHAPITRE 2. VARIABLES ALÉATOIRES
Proposition 2.4.2. Pour p ∈]0, 1], la loi géométrique de paramètre p est la mesure de probabilité sur
N∗ associée au germe : k ∈ N∗ 7→ (1 − p)k−1 × p.
1
Proposition 2.4.3. Si X ∼ G(p), avec p ∈]0, 1], E[X] = .
p
Démonstration. Le calcul sera justifié rigoureusement au chapitre suivant :
+∞
1 X
∀x ∈] − 1, 1[, = xj , d’où :
1−x
j=0
0 +∞
1 1 X
∀x ∈] − 1, 1[, = = jxj−1 .
1−x (1 − x)2
j=1
Ainsi, il vient :
+∞ +∞
X X 1 p 1
E[X] = kP (X = k) = k(1 − p)k−1 p = p × = 2 = .
(1 − (1 − p))2 p p
k=1 k=1
P (X ≥ k) =
|{z} P (échec au 1er essai) × · · · × P (échec au (k − 1)e lancer) = (1 − p)k−1 .
indépendance
22
2.5. LOI HYPERGÉOMÉTRIQUE
Remarque 2.6. Un tirage simultané (uniforme) de n éléments équivaut à n tirages successifs sans remise.
Proposition 2.5.2.
G N −G
loi H(N, G, n) est la mesure de probabilité sur {0, · · · , min(G, n)} associée au
La
k n−k
germe : k 7→ N
.
n
Démonstration. Soit Ω = {parties de n éléments de {1, · · · , n}}. Soit P la mesure de probabilité uni-
forme sur Ω. Soit : X : A ∈ Ω 7→ Card(A ∩ {1, · · · , G}). On a :
choix des choix des
k gagnants n−k perdants
z }|{
z }| {
G N −G
×
k n−k
∀k ∈ {0, · · · , min(G, n)}, P (X = k) = .
N
n
| {z }
Card Ω
Proposition 2.5.3.
G N −G
loi H(N, G, n) est la mesure de probabilité sur {0, · · · , min(G, n)} associée au
La
k n−k
germe : k 7→ N
.
n
Proposition 2.5.4. Soit (GN )N ∈N∗ une suite d’entiers telle que :
— ∀N ∈ N∗ , 1 ≤ GN ≤ N ; — N − GN −→ +∞ ;
N →+∞
GN
— GN −→ +∞ ; — −→ p ∈ [0, 1].
N →+∞ N N →+∞
Soit n ∈ N∗ , et soit, pour tout N ∈ N∗ , une variable aléatoire de loi H(N, GN , n). Alors :
n k
∀k ∈ {0, · · · , n}, P (XN = k) −→ p (1 − p)n−k = P (Y = k) où Y ∼ B(n, p).
N →+∞ k
23
CHAPITRE 2. VARIABLES ALÉATOIRES
GN N −GN
k n−k GN !(N − GN )!n!(N − n)!
Démonstration. On a : P (XN = k) = N
= , d’où :
k!(GN − k)!(n − k)!(N − GN − n + k)!N !
n
n! GN ! (N − GN )! (N − n)!
P (XN = k) = × × ×
k!(n − k)! (GN − k)! (N − GN − n + k)! N!
k−1 n−k−1 n−1
!−1
n Y Y Y
= × (GN − i) × (N − GN − i) × (N − i)
k
i=0 i=0 i=0
k
n GN (N − GN )n−k
n k n−k 1
∼ GN (N − GN ) =
N →+∞ k Nn k Nk N n−k
n k
−→ p (1 − p)n−k
N →+∞ k
24
Chapitre 3
Espaces de probabilité dénombrables
X
Définition 3.1.1. Soit (uω )ω∈Ω une famille (dénombrable) de réels positifs ou nuls. La somme uω
ω∈Ω
est définie par :
( )
X X
uω = sup uω .
ω∈Ω I fini ω∈I
I⊆Ω
Proposition 3.1.2. Soit (uω )ω∈Ω une famille dénombrable de réels positifs. Si on a : Ω = {ωi /i ∈ N},
alors :
n
X X +∞
X
uωi −→ uω = uωi .
n→+∞
i=0 ω∈Ω n=0
n
!
X
Démonstration. Sn = uωi est une suite croissante donc elle admet une limite s ∈ R ∪ {+∞}.
i=0 n∈N
— Posons, pour tout n ∈ N, I = {ω0 , · · · , ωn }. I est fini donc : ∀n ∈ N,
X X X
Sn ≤ uω ⇒ lim Sn ≤ lim uω ⇒ s ≤ uω .
n→+∞ n→+∞
ω∈Ω ω∈Ω ω∈Ω
— Soit I ⊂ Ω fini. On écrit I = {ωi0 , · · · , ωi|I| }. (Sn )n∈N est croissante, d’où :
25
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES
Définition
X 3.2.1. Soit Ω un univers dénombrable. Soit p un germe de probabilité : p : Ω −→ [0, 1] tel
que p(ω) = 1.
ω∈Ω X
Soit P la mesure de probabilité associée : P : A ∈ P(A) 7→ p(ω) ∈ [0, 1].
ω∈A
On appelle (Ω, P ) espace de probabilité.
3.2.2 Propriétés
Soit (Ω, P ) un espace de probabilité.
Proposition 3.2.3. Si (uω )ω∈Ω est une famille de réels positifs et (Ai )i∈I une partition de Ω (finie ou
dénombrable), alors :
X XX
uω = uω .
ω∈Ω i∈I ω∈Ai
3.3.1 Définition
Définition 3.3.1. Une variable aléatoire sur Ω est une fonction X : Ω −→ R. La loi de X, notée PX
est la mesure de probabilité sur X(Ω) associée au germe pX : x ∈ X(Ω) 7→ P ({ω ∈ Ω/X(ω) = x}).
26
3.3. VARIABLES ALÉATOIRES SUR Ω DÉNOMBRABLE
Définition 3.3.2. Soit X : Ω −→ R une variable aléatoire de signe constant. L’espérance de X est
définie par :
X
E[X] = X(ω)p(ω).
ω∈Ω
Remarque 3.2. Si X est de signe quelconque avec X(Ω) fini, ceci permet de définir E[X].
1
Exemple 3.2. Si X ∼ G(p), alors E[X] = (les calculs du chapitre précédent sont justifiés).
p
X
Définition 3.3.4. Une famille de réels (uω )ω∈Ω est dite sommable lorsque |uω | < +∞.
ω∈Ω
On définit alors :
X X X
uω = u+
ω − u−
ω,
ω∈Ω ω∈Ω ω∈Ω
+ −
où, pour x ∈ R, x = max(x, 0) et x = max(−x, 0).
Remarque 3.3. Cela est bien défini car, pour x ∈ R : x = x+ − x− et |x| = x+ + x− , donc :
X X X X X
|uω | = u+
ω + u−
ω < +∞ ⇒ u+
ω ∈ [0, +∞[ et u−
ω ∈ [0, +∞[.
ω∈Ω ω∈Ω ω∈Ω ω∈Ω ω∈Ω
| {z } | {z }
≥0 ≥0
Xn X
Proposition 3.3.5. Si (uω )ω∈Ω est sommable et que Ω = {ωi /i ∈ N}, alors : uωi −→ uω .
n→+∞
i=0 ω∈Ω
X X XX
Si, de plus, (Ai )i∈I est une partition de Ω, alors uω est sommable et : uω = uω .
ω∈Ai ω∈Ω i∈I ω∈Ai
i∈I
27
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES
Définition 3.3.6. Soit X : Ω −→ R une variable aléatoire. Les 3 affirmations suivantes sont équiva-
lentes :
(1) (X(ω)p(ω))ω∈Ω est sommable ;
(2) (xpX (x))ω∈X(Ω) est sommable ;
(3) E[|X|] < +∞.
Lorsqu’elle sont vérifiées, on définit l’espérance de X par :
X X
E[X] = X(ω)p(ω) = xpX (x) = E[X + ] − E[X − ].
ω∈Ω x∈X(Ω)
c
Exemple 3.3. Soit X : Z∗ −→ Z∗ donc le germe de sa loi est donné par : pX : n ∈ Z∗ 7→ .
|n|3
C’est bien un germe si c ≥ 0 et :
+∞
X 1 X 1 1
c 3
= 2c =1⇒c= .
|n| n3 +∞
P 1
n∈Z∗ n=1 2 n3
n=1
cn
(npX (n))n∈Z∗ = est sommable car :
|n|3 n∈Z∗
X cn +∞ +∞ +∞ +∞
X 1 X c(−1) X 1 X 1
3
=c 2
+ 2
=c 2
−c = 0.
∗
|n| n n n n2
n∈Z n=1 n=1 n=1 n=1
28
3.4. LOI DE POISSON, OU LOI DES ÉVÉNEMENTS RARES
Remarque 3.5. Si E[|X|] < +∞ et E[|Y |] < +∞ avec X ≤ Y , alors E[X] ≤ E[Y ].
Propriété 3.3.9. Si X est bornée, c’est-à-dire X(Ω) ⊆ [m, M ], (m, M ) ∈ R2 , alors E[X] est bien définie
et E[X] ∈ [m, M ].
Démonstration. m ≤ X ≤ M ⇒ 0 ≤ X − m ≤ M − m.
Autre exemple : nombre d’appels reçus par un plombier qui a n = 104 clients, chacun ayant une petite
5
probabilité p ≈ d’appeler sur une journée donnée.
n
3.4.1 Définition
Proposition
3.4.1.
1) Soit λ ∈ R∗+ , et pour tout n ∈ N∗ , Xn une variable aléatoire de la loi binomiale
λ
B n, . Alors, pour tout k ∈ N,
n
λk
P (Xn = k) −→ e−λ .
n→+∞ k!
λk
2) Pour tout λ ∈ R∗+ , la fonction pλ : k ∈ N 7→ e−λ est un germe de probabilité. La mesure de
k!
probabilité associée est appelée loi de Poisson de paramètre λ, notée Poisson(λ).
λ
Remarque 3.6. Autrement dit, la loi binomiale n, "tend vers" la loi Poisson(λ) lorsque n → +∞.
n
29
CHAPITRE 3. ESPACES DE PROBABILITÉ DÉNOMBRABLES
k
λ n−k
n λ
P (Xn = k) = × × 1−
k n n
!k
λ
λ n
n(n − 1) · · · (n − k + 1) n
= × × 1−
k! 1 − nλ n
k
λ n
n(n − 1) · · · (n − k + 1) λ
= × × 1− .
| k!
{z } | n− λ
{z } | {z }
n
k
∼ nk! ∼ (λ)
k ∼ e−λ
n→+∞ n→+∞ n n→+∞
k
nk λ λk
Donc : P (Xn = k) ∼ × × e−λ , d’où : P (Xn = k) −→ e−λ .
n→+∞ k! n n→+∞ k!
2) pλ est-il un germe ? (Attention ! Ce n’est pas évident a priori, le point 1) ne suffit pas à conclure.
Exemple : si Xn = n, on a : ∀k ∈ N, P (Xn = k) −→ 0, mais la fonction nulle n’est pas un germe.)
n→+∞
Ici, oui car :
— pλ est bien une fonction à valeurs dans [0, 1] car : ∀k ∈ N, ∀n ∈ N, P (Xn = k) ∈ [0, 1] donc sa
limite quand n → +∞ appartient à [0, 1].
+∞ +∞ k
X X λ
— pλ (k) = e−λ = e−λ eλ = e0 = 1.
k!
k=0 k=0
λ λ
Remarque 3.7. Si Xn ∼ B n, , pour tout n ∈ N∗ , E[Xn ] = n × = λ.
n n
Cela ne suffit pas, il reste à justifier que l’espérance de la "limite des Xn " est égale à la limite de E[Xn ]
quand n → +∞.
30
3.4. LOI DE POISSON, OU LOI DES ÉVÉNEMENTS RARES
Proposition 3.4.3. Soit (λ1 , λ2 ) ∈ (R∗+ )2 , Y1 une variable de loi Poisson(λ1 ) et Y2 une variable de loi
Poisson(λ2 ).
Si Y1 et Y2 sont indépendantes, alors Y1 + Y2 est de loi Poisson(λ1 + λ2 ).
31
32
Chapitre 4
Variance et loi des grands nombres
4.0 Introduction
Si on lance une pièce une fois, le nombre de "pile" obtenu vaut 0 ou 1, c’est une loi B(p).
Si on lance une pièce n = 1000 fois, le nombre Xn de "pile" obtenu est dans {0, 1, · · · , n}, de loi
B(n, p), est une variable aléatoire qui fluctue autour de son espérance np. La notion de variance permet
de quantifier ces variations.
Xn
En revanche, si l’on regarde , la fréquence empirique des lancers où l’on obtient "pile", alors on
n
obtient un résultat quasi déterministe, égal à la probabilité p d’obtenir pile sur un lancer (lorsque n est
"grand").
C’est intuitif, et cela permet d’évaluer p par l’expérience (et donc de faire des statistiques, par exemple :
les sondages).
Comment le formaliser ? Par la loi des grands nombres.
4.1 Variance
4.1.1 Définition
Définition 4.1.1. Soit X une variable aléatoire d’espérance finie (c’est-à-dire E[|X|] < +∞).
2
Alors Var(X) := E (X − E[X]) est appelée la variance de X (parfois notée V (X)).
p
On note également σ(X) = Var(X) l’écart-type de X.
Remarque 4.1. 1) Variance et écart-type sont des outils pour mesurer la variabilité d’une expérience
aléatoire (à quel point son résultat X(ω) peut être différent d’un ω à l’autre), ou bien l’erreur
commise (dans le cas d’un sondage).
2) E (X − E[X])2 existe toujours car (X − E[X])2 est une variable aléatoire à valeurs positives. Mais
Var(X) et σ(X) peuvent valoir +∞ : Var(X) ∈ [0, +∞] et σ(X) ∈ [0, +∞].
3) Interprétation de l’écart-type σ(X). C’est l’erreur moyenne commise quand on remplace X par
E[X] (en moyenne quadratique), l’ordre de grandeur typique de l’écart entre X et E[X], ou encore
l’amplitude des variations "habituelles" de X.
4) La variance est le carré de l’écart-type. Elle est très utile car plus facile à manipuler dans les calculs.
5) Variance et écart-type ne dépendent que de X via sa loi.
33
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES
Remarque 4.2. — 2) illustre que Var n’est pas linéaire. Par exemple, Var(2X) = 4 Var(X).
— 3) montre que Var(X) < +∞ ⇔ E[X 2 ] < +∞.
X
Démonstration. 1) Si Var(X) = 0, alors E[Y 2 ] = 0, avec Y = X−E[X]. Or : E Y 2 = Y (ω)2 p(ω)
| {z } |{z}
ω∈Ω ≥0 ≥0
est une somme de termes positifs qui est nulle si et seulement si tous les termes nuls. On a donc :
∀ω ∈ Ω, Y (ω) = 0 ou p(ω) = 0, donc :
X
P (X = E[X]) = P (Y = 0) = 1 − P (Y 6= 0) = 1 − p(ω) = 1.
|{z}
ω∈Ω
Y (ω)6=0 =0 puisque
Y (ω)=0
Réciproquement, si P (X = E[X]) = 1 :
X
Var(X) = E (X − E[X])2 = (X(ω) − E[X])2 p(ω) = 0.
| {z }
ω∈Ω
=0 sauf pour
ω∈Ω tels que p(ω)=0
2) On a :
= a2 Var(X).
3) On a :
= E X 2 − E[X]2 .
Proposition 4.1.3. Si X et Y sont des variables indépendantes aléatoires indépendantes telles que
E[|X|] < +∞ et E[|Y |] < +∞, alors : E[XY ] = E[X] × E[Y ].
Démonstration. Supposons d’abord X et Y à valeurs positives si bien que E[XY ] a toujours un sens
et :
34
4.1. VARIANCE
X X X X
E[XY ] = X(ω)Y (ω)p(ω) = [x × y × p(ω)],
ω∈Ω x∈X(Ω) y∈Y (Ω) ω∈Ω
X(ω)=x et Y (ω)=y
Ensuite, si X et Y sont de signes quelconques, le résultat ci-dessus s’applique à |X| et |Y | (qui sont
× |Y |] = E[|X|] × E[|Y |] < +∞ et l’espérance de XY est bien
à valeurs positives), si bien que : E[|X|X
définies. On peut alors écrire E[XY ] = X(ω)Y (ω)p(ω) et tout le raisonnement précédent s’applique.
ω∈Ω
Définition 4.1.4. Si X et Y sont deux variables aléatoires telles que E[|XY |] < +∞, E[|X|] < +∞ et
E[|Y |] < +∞, on définit la covariance de X et Y par :
35
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES
= E (X − E[X])2 + E (Y − E[Y ])2 + 2E [(X − E[X])(Y − E[Y ])] car espérance linéaire
Proposition 4.1.6. Si X et Y sont deux variables aléatoires indépendantes et telles que E[|X|] < +∞,
E[|Y |] < +∞, alors on a que : E[|XY |] < +∞, Cov(X, Y ) = 0 et Var(X + Y ) = Var(X) + Var(Y ).
Proposition 4.1.7. Si X1 , ..., Xn sont des variables aléatoires indépendantes et d’espérances finies,
alors on a :
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1
Proposition 4.1.8. Si X est une variable aléatoire de loi B(n, p), avec n ∈ N et p ∈ [0, 1], alors :
Var(X) = np(1 − p).
Démonstration.
2 Remarquons d’abord que Var(X) ne dépend que de la loi de X, puisque c’est vrai pour
2
E X et E[X] .
Soient X1 , ..., Xn des variables indépendantes de même loi B(p). Alors X1 + · · · + Xn a même loi que
X (proposition du cours), donc, comme les variables aléatoires Xi sont indépendantes :
Remarque 4.5 (intuition de ce résultat). Ce résultat signifie que le nombre de "succès" obtenus lors de
S
n tirages sans remise, au sein d’une population de taille N contenant initialement une proportion de
N
"succès", est moins variable que le nombre de succès obtenus en procédant à n tirages avec remise au sein
de la même population.
36
4.2. INÉGALITÉ DE BIENAYMÉ-TCHEBYCHEV
C’est intuitif car, si l’on commence à s’écarter de la moyenne du nombre de succès après quelques
tirages, dans le cas sans remise, la proportion de succès encore présents diminue, donc on a tendance à
S
revenir vers la moyenne ( × nombre de tirages), alors que dans le cas avec remise, ceci ne se produit pas.
N
Donc les tirages sans remise (hypergéométrique) conduisant à des résultats "plutôt plus proches" de
S
la moyenne n × que les tirages avec remise (binomiale), ce qui se traduit mathématiquement par cette
N
proposition.
1−p
Proposition 4.1.10 (admise). Si X ∼ G(p), avec p ∈]0, 1], alors Var(X) = .
p2
Var(X)
P (|X − E[X]| ≥ ε) ≤ .
ε2
Remarque 4.7. — Si E[X 2 ] = +∞, le majorant est infini et n’a aucun intérêt. Mais formellement, il
suffit d’avoir E[|X|] < +∞ pour donner un sens mathématique à cette inégalité.
— Ce résultat, appelé "inégalité de Bienaymé-Tchebychev", a été formulé en première par Irénée-Jules
Bienaymé, et démontré ensuite par Pafnouti Tchebychev.
Démonstration. Soit Y = |X − E[X]| (bien définie puisque E[|X|] < +∞ donc E[X] ∈ R). On a alors :
Y (ω)2
Or, pour tout ω ∈ Ω, 1|Y (ω)|2 ≥ε2 ≤ , puisque :
ε2
Y (ω)2
— soit : Y (ω)2 ≥ ε2 et on a bien 1 ≤ ;
ε2
Y (ω)2
— soit : Y (ω)2 < ε2 et on a bien 0 ≤ .
ε2
37
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES
Y2
Ces deux variables aléatoires 1|Y |2 ≥ε2 et 2 étant positives, par positivité de l’espérance, on obtient
ε
que :
2
Y 1 Var(X)
E 1|Y |2 ≥ε2 ≤ E 2 = 2 E Y 2 =
.
ε ε ε2
Var(X)
par linéarité de l’espérance, et d’où : P (|X − E[X] ≥ ε) ≤ .
ε2
Exemple 4.1 (Application). On lance 20 fois une pièce équilibrée, et on note X le nombre
de "pile"
1 1 1 1
obtenus. Alors, X suite la loi B 20, et : E[X] = 20 × = 10, et Var(X) = 20 × × 1 − = 5.
2 2 2 2
X est d’espérance finie, donc on peut appliquer l’inégalité de Bienaymé-Tchebychev :
5 5 1
∀ε > 0, P (|X − 10| ≥ ε) ≤ ⇒ P (|X − 10| ≥ 5) ≤ 2 = pour ε = 5,
ε2 5 5
4
donc, en passant au complémentaire : P (X ∈ [6, 14]) ≥ = 80%.
5
Sur 20 lancers, on a 80% de chances, au moins, d’obtenir un nombre de "pile" compris entre 6 et 14
(au sens large).
Remarque 4.8 (signification de l’écart-type). Appliquons l’inégalité de Bienaymé-Tchebychey à X de
variance finie, avec ε = δ × σ(X), où δ > 0 est fixé.
Var(X) 1
On a alors : P (|X − E[X]| ≥ δ × σ(X)) ≤ = 2.
(δ × σ(X))2 δ
Par exemple :
1
— Si δ = 2, X a une probabilité inférieure ou égale à d’être à plus de deux écarts-types de sa moyenne.
4
1
— Si δ = 10, X a une probabilité inférieure ou égale à d’être à plus de 10 écarts-types de sa
100
moyenne.
Ceci illustre que l’on peut interpréter l’écart-type σ(X) comme l’ordre de grandeur des fluctuations
’habituelles" de X autour de sa moyenne E[X].
On procède donc à plusieurs mesures X1 , ..., Xn indépendantes et de même loi que X (en choisissant
n fois 1 étudiant(e) au hasard).
X1 + · · · + Xn
Il est naturel d’estimer m (taille moyenne de tou(te)s les étudiant(e)s) par Sn = (taille
n
moyenne sur l’échantillon des n étudiant(e)s mesuré(e)s).
38
4.3. LOI FAIBLE DES GRANDS NOMBRES
Formalisation : Il faut tout d’abord préciser ce que l’on entend par une suite infinie de variables
indépendantes.
Définition 4.3.1. (Xi )i∈N est une suite de variables aléatoires indépendantes si, pour tout n ∈ N∗ , pour
tout (i1 , · · · , in ) ∈ Nn des entiers distincts, les variables Xi1 , ..., Xin sont indépendantes.
Exemple 4.2. On lance une pièce et on note le résultat du i-ème lancer avec : Xi = 1{on a obtenu pile au i-ème lancer} .
Alors : (Xi )i∈N est une suite de variables aléatoires indépendantes.
Remarque 4.9. Si X1 , ..., Xn sont indépendantes, alors : pour tout (i1 , · · · , ik ) ∈ {1, · · · , n}k , les variables
Xi1 , ..., Xik sont indépendantes.
La définition de l’indépendance pour une suite infinie est donc cohérente avec le cas des ensembles finis
de variables aléatoires.
Théorème 4.3.2 (Loi faible des grands nombres). Si (Xi )i∈N est une suite de variables aléatoires
2
indépendantes et de même loi, telles que E X1 < +∞, alors, en notant : Sn = X1 + · · · + Xn , on a :
Sn
∀ε > 0, lim P − E [X1 ] > ε = 0.
n→+∞ n
Sn
Remarque 4.10. — Interprétation 1 : "tend vers" E[X1 ] quand n tend vers +∞.
n
— Interprétation 2 : Si on fait un grand nombre de mesures (les Xi ) indépendantes et identiques (c’est-à-
X1 + · · · + Xn
dire, correspondant au même phénomène aléatoire), alors, en moyenne (en regardant ),
n
on obtient quelque chose de très proche de l’espérance.
Démonstration. E[|X1 |] < +∞ donc E[X1 ] est bien définie et E[X1 ] ∈ R. L’énoncé a donc un sens.
Sn
On applique l’inégalité de Bienaymé-Tchebychev à , qui est d’espérance finie (par la proposition sur
n
la linéarité de l’espérance, puisque E[|Xi |] = E[|X1 |] pour tout i ∈ N, les Xi étant de même loi).
Commençons par calculer son espérance et sa variance :
Sn 1 n
E = (E[X1 ] + · · · + E[Xn ]) = (E[X1 ]) = E[X1 ],
n n n
puisque les Xi , i ∈ N, sont de même loi.
Puisque X1 , ..., Xn sont indépendantes,
Sn 1 1
Var = 2 Var(Sn ) = 2 Var(X1 + · · · + Xn )
n n n
1
= 2 (Var(X1 ) + · · · + Var(Xn )) par indépendance des Xi
n
Var(X1 )
= car les Xi sont de même loi
n
Donc, pour tout ε > 0,
Var Snn
Sn Sn Sn Var(X1 )
P −E ≥ε =P − E[X1 ] ≥ ε ≤ = −→ 0.
n n n ε2 ε2 n n→+∞
39
CHAPITRE 4. VARIANCE ET LOI DES GRANDS NOMBRES
Sn
Remarque 4.11. La démonstration ci-dessus donne aussi une bonne information sur P − E[X1 ] ≥ ε
n
à n fixé.
La démonstration est donc à retenir, car elle est utile dans de nombreux exercices.
40
Chapitre 5
Statistique
Problématique : On lance une pièce déséquilibrée, on pose p = P (obtenir pile), et on voudrait une idée
de ce que vaut p.
On la lance n = 100, 200, 1000 fois, et on observe Xn = nombre de "pile" obtenus avec n lancers.
On se pose plusieurs questions :
On va formaliser ce type de raisonnement (avec les tests d’hypothèse), et voir comment faire d’autres
choses (estimation).
Remarque 5.1. Dans tout ce chapitre, on suppose donné un espace de probabilité (Ω, P ), et toutes les
variables aléatoires sont définies sur Ω.
Modèle : X1 , ..., Xn sont indépendantes et de même loi B(p), où p est la proportion d’électeurs qui
veulent voter pour A.
41
CHAPITRE 5. STATISTIQUE
X1 + · · · + Xn
Solution : p̂n = est un estimateur naturel de p, appelé "estimateur empirique de la
n
moyenne" ou "moyenne empirique". C’est la proportion des gens interrogés qui veulent voter pour A, qui
estime la proportion p des électeurs de la population entière qui veulent votre pour A.
Remarque 5.2. On a noté p̂n . En statistique, les estimateurs sont souvent notés avec un chapeau. De
plus, on a mis un indice n, car cet estimateur dépend de X1 , ..., Xn et en particulier de n.
Définition 5.1.1. Soit θ ∈ R une quantité inconnue et X1 , ..., Xn des variables aléatoires dont la loi est
reliée à θ. On suppose qu’on observe une réalisation X1 (ω), ..., Xn (ω) de ces variables aléatoires (pour
un ω ∈ Ω).
Un estimateur θ̂ de θ est une fonction des observations qui vise à s’approcher de la valeur de θ. Formel-
lement, θ̂(ω) = f (X1 (ω), · · · , Xn (ω)) pour une fonction f : Rn −→ R. La fonction ω ∈ Ω 7→ θ̂(ω) ∈ R
est donc une variable aléatoire.
Pour un ω ∈ Ω donné, θ̂(ω) est une estimation de Ω.
Remarque 5.3. Lorsqu’il n’y a pas de confusion, on écrit θ̂ au lieu de θ̂(ω), de la même façon qu’on
a souvent écrit P (X = 1) pour P ({ω ∈ Ω/X(ω) = 1}) dans les chapitres précédents. En toute rigueur,
θ̂(ω) ∈ R et θ̂, qui est une fonction de Ω dans R, sont des objets mathématiques bien distincts.
Exemple 5.2. Soient X1 , ..., Xn des variables aléatoires de même loi et admettant une espérance notée
1
θ = E[X1 ] = · · · = E[Xn ]. Un estimateur naturel de θ est la moyenne empirique θ̂n = (X1 + · · · + Xn ),
n
parfois notée Xn .
h i
Définition 5.1.2. Un estimateur θ̂ de θ est dit sans biais lorsque E θ̂ = θ.
Proposition 5.1.3. Si X1 , ..., Xn sont des variables aléatoires de même loi et d’espérance finie, la
1
moyenne empirique (X1 + · · · + Xn ) est un estimateur sans biais de E[X1 ].
n
Démonstration.
1 1
E (X1 + · · · + Xn ) = (E[X1 ] + · · · + E[Xn ]) par linéarité de l’espérance
n n
1
= × nE[X1 ] = E[X1 ] car les Xi sont de même loi
n
Définition 5.1.4. On suppose donnée (Xi )i∈N une suite de variables aléatoires indépendantes et de même
loi, et θ ∈ R un paramètre de leur loi commune.
Un estimateur θ̂n = θ̂n (X1 , · · · , Xn ) (ceci signifie que : ∀ω ∈ Ω, θ̂n (ω) = fn (X1 (ω), · · · , Xn (ω)) pour
une fonction fn : Rn −→ R) de θ est dit consistant si :
∀ε > 0, P θ̂n − θ > ε −→ 0.
n→+∞
Proposition 5.1.5. Si (Xi )i∈N est une suite de variables aléatoires indépendantes et de même loi et
1
si E X12 < +∞, alors la moyenne empirique θ̂n = (X1 + · · · + Xn ) est un estimateur consistant de
n
θ = E[X1 ].
42
5.1. ESTIMATION PONCTUELLE
Démonstration. Il s’agit de la loi des grands nombres (et les hypothèses correspondantes).
Applications :
— Estimation de p = P (obtenir pile) avec une pièce déséquilibrée, avec la fréquence (empirique) des
"pile" obtenu après n lancers : c’est un estimateur sans biais et consistant (moyenne empirique).
— Sondage, estimation de p la proportion des électeurs voulant voter pour 1 parmi n personnes : c’est
aussi un estimateur sans biais et consistant.
— Pour un dé (déséquilibré), on peut estimer P (obtenir un résultat X plus petit que 2) par la moyenne
empirique des 1Xi ≤2 (où Xi est le résultat du i-ème lancer) : c’est également un estimateur sans
biais et consistant.
Exemple 5.3. Estimation du nombre de participants au marathon de Paris, noté N . On se déplace parmi
les participants et on note des numéros de dossards "au hasard" : X1 , ..., Xn .
Modèle : X1 , ..., Xn indépendant de même loi U({1, · · · , N }) (les dossards étant numérotés de 1 à N ).
Biais ?
h i 2
E N̂n = E[Sn ] − 1 par linéarité de l’espérance
n
2 N +1 N +1
= ×n× − 1 = N + 1 − N = 1 car l’espérance est linéaire et E[Xi ] =
n 2 2
2Sn Sn N + 1 ε
N̂n − N > ε ⇔ −1−N >ε⇔ − > .
n n 2 2
Sn N +1
Or, est un estimateur consistant de = E[X1 ] par la loi des grands nombres (les Xi étant
n 2 2
2
indépendantes de même loi, et car E X1 ≤ N < +∞ puisque 1 ≤ Xi ≤ N ).
ε
Donc : pour tout ε > 0, > 0, on a donc :
2
Sn N + 1 ε
P N̂n − N > ε = P − > −→ 0.
n 2 2 n→+∞
43
CHAPITRE 5. STATISTIQUE
Précision de l’estimation ? Combien de numéros (n) faut-il noter pour avoir une estimation précise
à 10% près, avec probabilité au moins 95%. On cherche à majorer :
N Sn N + 1 N Var(X1 )
P N̂n − N > =P − > ≤ ,
10 n 2 20 N 2
n × 20
N N
2 X 2 1 X 2 1 N (N + 1)(2N + 1) (N + 1)(2N + 1) N +1
E X1 = k P (X = k) = k = = et E[X1 ] = ,
N N 6 6 2
k=1 k=1
N2 − 1
donc : Var(X1 ) = E X12 − E[X1 ]2 =
.
12
2
N 100 N −1 1 100
Ainsi : P N̂n − N > ≤ × 2
× ≤ . Ce majorant est plus petit que 5% si et
10 3 N n 3n
1000
seulement si n ≥ ≈ 666, 7.
3 × 0.05
N
Conclusion : Lorsque n ≥ 667, P N̂n − N ≤ ≥ 95%. Cependant, attention ! L’inégalité de
10
Bienaymé-Tchebychev n’est pas toujours très précise, il se peut que prendre n plus petit soit suffisant.
1
Estimateur ponctuel de θ : On prend θ̂ = (X1 +· · ·+Xn ) la moyenne empirique. C’est un estimateur
n
sans biais et consistant.
44
5.2. TEST D’HYPOTHÈSES
1
Pθ0 (θ̂ < θ0 ) est la probabilité de condamner un innocent, on a, si n = 100 et θ0 = , que cette
3
probabilité est grande : Pθ0 θ̂ < θ0 = P (B(n, θ0 ) < θ0 ) = 0.52.
Deux types d’erreur : I) θ = θ0 mais le juge condamne le casino (et donc des innocents sont envoyés
en prison).
II) θ = θ1 mais le juge acquitte le casino (et donc des coupables sont en liberté).
L’erreur I est plus grave que l’erreur II (on ne veut pas d’innocents en prison ; en tout cas, très peu).
Comment faire mieux que le test naïf et contrôler la probabilité d’envoyer des innocents en prison
(l’erreur de type I) ? L’idée est de prendre un peu de marge et comparer θ̂ à un seuil θlim tel que
Pθ0 θ̂ ≤ θlim ≤ α
|{z}
|{z}
mesure de probabilité
| {z } seuil petit à
sous l’hypothèse H0 erreur de type I choisir avant d’avoir
vu les données
Souvent, on choisit α = 5%. Ici, on a envie de prendre moins (5% d’innocents en prison, c’est beau-
coup !).
Application numérique : On cherche θlim tel que : Pθ0 (θ̂ ≤ θlim ) = P (B(n, θ0 ) ≤ nθlim ) avec n = 100,
1
et θ0 = . On fait le tableau suivant :
3
k 18 19 20 21
P (B(n, θ0 ) ≤ k) 5 × 10−4 1.1 × 10−3 2 × 10−3 5 × 10−3
k 22 23 24 25 26
P (B(n, θ0 ) ≤ k) 9 × 10−3 0,016 0,03 0,046 0,07
45
CHAPITRE 5. STATISTIQUE
Si on prend α ≤ 5%, nθlim = 25 convient (θlim = 0.25). Mais ici, on a envie de prend α plus petit, par
exemple α = 10−3 , dans ce cas nθlim = 18, et donc θlim = 0.18 convient.
Une fois la procédure choisie (rejeter H0 revient à condamner le casino si et seulement si nθ̂n ≤ 18), le
juge peut collecter les données et prendre une décision.
Application concrète : 20 parties gagnées sur 100 tentatives, alors on conserve H0 . (Ce n’est pas assez
1
différent de 100 × pour exclure l’hypothèse que le casino est innocent.)
3
— si θ̂ ∈ Rn , on rejette H0 ;
— si θ̂ ∈
/ Rn , on conserve H0 .
Définition 5.2.1 (niveau). Le test est de niveau α ∈ [0, 1] si, lorsque H0 est vérifiée (pour θ = θ0 ) :
Pθ (on rejette H0 ) ≤ α ⇔ P θ̂ ∈ Rn ≤ α.
Remarque 5.4. — Pθ θ̂ ∈ Rn est la probabilité d’une erreur de type I.
— Souvent, on prend α = 5%.
46
5.2. TEST D’HYPOTHÈSES
1
Exemple 5.4 (du casino). Pθ1 θ̂n ∈ Rn = P B n, ≤ 18 ≈ 0.995. C’est une bonne nouvelle, le
10
résultat est proche de 1.
Solution générale : Procéder à un test d’hypothèse. La démarche (à peu près toujours la même, à
retenir !) est la suivante.
Difficulté : Identifier H0 en fonction de la question posée, et de comment elle est posée. En général,
H0 est l’hypothèse "par défaut", celle que l’on tolère d’accepter à tort de temps en temps (car choisir H0
par erreur n’est pas trop grave), c’est celle que l’on choisirait en l’absence d’observations.
Exemple 5.7 (du procès). H0 = l’accusé est innocent. (En absence de preuve, on ne met personne en
prison.)
47
CHAPITRE 5. STATISTIQUE
1 1
Exemple 5.8 (du procès d’un casino). On a pris H1 = « θ = θ1 = » Θ1 = car les clients
10 10
1 1
affirment connaître la vraie valeur de θ, mais on aurait pu prendre H1 = « θ 6= », ou H1 = « θ < »(et
3 3
cela aurait changé la suite de la constitution du test).
Intuitivement, Rn est un ensemble de valeurs que θ̂n a peu de chances de prendre lorsque H0 est vraie,
et que θ̂n a (un peu) de chances de prendre lorsque H1 est vraie. Ainsi, le choix de la forme de Rn dépend
de H0 et de H1 .
48
5.2. TEST D’HYPOTHÈSES
Définition 5.2.3. Un test est de niveau α si, lorsque H0 est vérifiée, la probabilité de commettre une
erreur (c’est-à-dire, rejeter H0 , c’est commettre une erreur de type I, puisque H0 est vérifiée) est toujours
inférieure ou égale à α).
Formellement : ∀θ ∈ Θ0 , Pθ θ̂n ∈ Rn ≤ α.
| {z } | {z }
H est vraie
0
on rejette H0
1
Souvent, on prend α = 5%. Parfois, il faut prendre α plus petite (1%, , voire moins), si une erreur
1000
de type I (envoyer un innocent en prison, emprisonner les consommateurs de céréales, ...).
Pθ0 (nθ̂n ≤ nθlim ) est la valeur en nθlim de la fonction de répartition de la loi B(n, θ0 ).
Définition 5.2.4. Le risque de première espèce du test ainsi construit est : sup Pθ θ̂n ∈ Rn . C’est la
θ∈Θ0
probabilité maximale
erreur de type I sous H0 .
d’une
On a : sup Pθ θ̂n ∈ Rn ≤ α (par définition du niveau).
θ∈Θ0
49
CHAPITRE 5. STATISTIQUE
Modèle : On pose Ω = {0, 1}n . Pour un ω = (ωi )1≤i≤n ∈ Ω, ωi = 1 si on a obtenu face au i-ème lancer,
ωi = 0 sinon). On munit Ω de Pθ = B(θ)⊗n (où θ est la probabilité d’obtenir face, identique pour tous les
lancers ; on prend une mesure produit car les lancers sont indépendantes).
Pour i ∈ {1, · · · , n}, on pose : X : ω = (ωi )1≤i≤n ∈ Ω 7→ ωi ∈ R la variable aléatoire naturellement
associée au i-ème lancer. On observe Xi (ω) pour i ∈ {1, · · · , n}.
1
Construction du test : 1) H0 : θ = θ0 = (par défaut, on peut supposer la pièce équilibrée).
2
1 1
2) H1 : θ 6= (pas d’information sur θ si θ 6= ).
2 2
X1 + · · · + Xn
3) Statistique de test : θ̂n = (moyenne empirique, qui est l’estimateur naturel de θ ici
n
puisque, pour tout i ∈ {1, · · · , n}, E[Xi ] = θ).
1
4) a) On prend Rn de la forme ] − ∞, A] ∪ [B, +∞[, avec A ≤ ≤ B (rejet lorsque θ̂n (ω) est loin de
2
1 1 1 1
), et il est naturel de la prendre symétrique autour de : Rn = −∞, − ε ∪ + ε, +∞ avec ε > 0
2 2 2 2
1
(rejet lorsque θ̂n (ω) est éloigné de au plus de ε).
2
5) Application numérique : On fait n = 10000 lancers ; on observe nθ̂n (ω) = 4700 "face", donc
1 1
/ Rn (puisque − √
θ̂n (ω) = 0.47 ∈ ≈ 0.478), donc on rejette H0 . Avec un risque inférieur à 5%, on
2 0.2n
peut dire que la pièce est déséquilibrée.
50
5.2. TEST D’HYPOTHÈSES
5 bis) Autre application numérique : n = 10000 et nθ̂n = 4800 "face", donc θ̂n (ω) ∈
/ Rn , on conserve
H0 .
Conclusion : on ne peut rien dire. Soit H0 est vraie, soit H0 est fausse mais on n’a pas assez d’éléments
pour remettre en cause H0 (par exemple, n est trop petit). Comment essayer de savoir ? Avec un calcul de
puissance, c’est ce que l’on verra à la section suivante.
Définition 5.2.5. Le risque de deuxième espère est : sup Pθ θ̂n ∈ Rn .
θ∈Θ1
| {z } | {z }
on rejette H0
H1 est vraie "à tort"
C’est la probabilité maximale sur H1 de commettre une erreur de type II.
On définit alors la puissance (du même test) par :
Puissance = 1 − (Risque de deuxième espèce) = inf Pθ θ̂n ∈ Rn .
θ∈Θ1
| {z }
rejet de H0
1
Exemple 5.17 (du procès d’un casino). Ici, le calcul est facile car H1 = « θ = » correspond à une
10
seule loi possible.
La puissance est égale à P 1 (θ̂n ∈ Rn ) = P 1 (nθ̂ ≤ 18), avec les valeurs numériques de la section 2.1
10 10
et α = 5%.
1
Comme, sous H1 , nθ̂n ∼ B n, , avec n = 100, on obtient une puissance environ égale à 0.995.
10
C’est une très bonne nouvelle, le test est très puissant (car θ0 et θ1 sont bien séparées ici) : si le casino est
coupable, on a de très fortes chances de le détecter.
De manière équivalent, on peut calculer l’erreur de deuxième espèces : 1 − puissance ≈ 0.005 qui est
très faible : un coupable a peu de chances d’être acquitté. Si on conserve H0 , on peut donc affirmer (avec
un risque 0.005) que le casino est innocent.
Interprétation de la puissance :
— Un test (de niveau α fixé) est bon si sa puissance est grande (proche de 1), ce qui équivaut à ce que
son risque de deuxième espèce est très petit.
— Si on a le choix entre deux tests de même niveau α, on choisit le plus puissant.
Remarque 5.6. C’est pour cela qu’à l’étape 4c, on a pris une région de rejet Rn la plus grande possible
(prendre Rn plus grande augmente la puissance).
Exemple 5.18 (suite de la section 2.4, une pièce est-elle équilibrée ?). La puissance vaut :
n 1
inf Pθ θ̂n ∈ Rn = inf Pθ nθ̂n − ≥ nε avec ε = √ et nθ̂n ∼ B(n, θ)
θ∈Θ1 1
θ6= 2 2 0.2n
n 1
=P Y − ≥ nε où Y ∼ B n,
2 2
1 n
Cette dernière égalité est admise (intuition : le pire cas correspond à θ proche de , et θ →
7 Pθ nθ̂n − ≥ nε
2 2
1
est continue en ).
2
51
CHAPITRE 5. STATISTIQUE
Ici, la puissance coïncide avec le risque de première espèce, et elle est donc forcément très petite ! Avec
n = 104 , on obtient que la puissance vaut 8 × 10−6 .
1
Cause de cette difficulté : H1 peut être très proche de H0 . Comment distinguer θ = − 10−10 de
2
1 4
θ = ? C’est impossible si n = 10 .
2
1
Que se passe-t-il dans cet exemple 2 si l’on prend H1 = « θ − ≥ 0.03 » (hypothèse alternative "un
2
peu écartée" de H0 ) ?
Le test ne change pas (on garde celui de la section 2.4) car H0 est inchangée. Sa puissance vaut alors :
n n
inf Pθ θ̂n ∈ Rn = inf Pθ nθ̂n − ≥√ et nθ̂n ∼ B(n, θ)
|θ− 12 |≥0.03 |θ− 12 |≥0.03 2 0.2n
n n
=P Z− ≥√ où Z ∼ B(n, 0.47)
2 0.2n
= P (Z ∈ / [4777, 5223]) ≈ 0.94 si n = 104 .
1
Encore une fois, l’avant-dernière égalité est admise. Intuition : l’inf est atteint pour le cas où θ = +0.03
2
1
ou θ = − 0.03 (ce sont les "pires cas", et ces deux cas donnent la même valeur par symétrie).
2
Cette valeur de puissance (94%) est "grande" (proche de 1), ce qui signifie que notre test avise bien à
1 1
faire la différence entre H0 : « θ = » et H1 : « θ − ≥ 0.03 ».
2 2
Modèle : On pose Ω = {0, 1}n . Un ω = (ω1 , · · · , ωn ) ∈ Ω signifie que le i-ème patient anesthésié par
l’accusé :
— est mort suite à l’intervention lorsque ωi = 1 ;
— a survécu à l’intervention lorsque ωi = 0.
On munit Ω de Pθ = B(θ)⊗n où θ est la probabilité de décès pour un patient de l’accusé (mesure
produit car on suppose les résultats des n anesthésies indépendantes).
On observe, pour un i ∈ {1, · · · , n}, Xi (ω) = ωi .
1
Construction du test : 1) On choisit H0 : « θ ≤ θ0 = » (l’anesthésiste est innocent/compétent).
20000
1
2) On choisit H1 : « θ > θ0 = » (l’anesthésiste est coupable/incompétent).
20000
1
3) Statistique de test : θ̂n = (X1 + · · · + Xn ) qui est un estimateur de θ (c’est la moyenne empirique
n
des Xi ).
52
5.2. TEST D’HYPOTHÈSES
4) a) On prend Rn de la forme [A, +∞[ (on rejette H0 si θ̂n est trop grand).
Ici, il suffit de se placer dans le cas "extrême" θ = θ0 pour contrôler le risque de première espèce pour
tout θ ≤ θ0 . Attention, ce n’est pas toujours vrai !
1
Application numérique : Y ∼ B 20000, (que l’on peut approcher par la loi Poisson(1)).
20000
On détermine A à l’aide du tableau suivant :
k 0 1 2 3 4
P (B(n, θ0 ) ≤ k) 0.368 0.736 0.920 0.981 1 − 3, 6 × 10−4
k 5 6 7 8
P (B(n, θ0 ) ≤ k) 1 − 5.9 × 10−4 1 − 8.3 × 10−4 1 − 1.0 × 10−5 1 − 1.1 × 10−6
9
Ainsi, si α = 10−5 , A = et Rn = [4.5 × 10−4 , +∞[.
n
5) Confrontation aux données : on recense sept décès parmi les patients de l’accusé, on a donc :
nθ̂n = 7 < 9, donc on conserve H0 . On acquitte l’accusé au bénéfice du doute.
sup Pθ θ̂n < 4.5 × 10−4 = sup P (B(n, θ) < θ) = sup P (B(n, θ) ≤ 8) = P (B(n, θ0 ) ≤ 8) ≈ 1−1.1×10−6 .
θ>θ0 θ>θ0 θ>θ0
Ainsi, le risque de deuxième espèce est très proche de 1, et la puissance environ égale à 1.1 × 10−6 est
ridiculement petite ! Les causes sont que α est très petit et H1 est "collée" à H0 .
1
6 bis) Puissance sous une autre alternative : si H1 = « θ ≥ 20 × θ0 = », par un raisonnement
1000
similaire, on obtient que le risque de deuxième espèce vaut :
sup Pθ θ̂n < 4.5 × 10−4 = sup P (B(n, θ) ≤ 8) = P (B(n, 20θ0 ) ≤ 8) ≈ 2 × 10−3 = 0.002.
θ≥20×θ0 θ≥20×θ0
La puissance vaut donc environ 1 − 2 × 10−3 = 99.8%, c’est une très bonne valeur. Ceci signifie que,
si l’on conserve H0 , on peut affirmer (avec un risque 0.002) que θ < 20θ0 .
53
CHAPITRE 5. STATISTIQUE
Exemple 5.19 (sondage). Plutôt que de donner une estimation p̂ de la proportion p d’électeurs votant
pour A, il serait utile de donner un intervalle de valeurs "probables" pour p (une "fourchette"). En principe,
il faudrait toujours procéder ainsi.
Définition 5.3.1. Si l’on observe X1 , ..., Xn des variables aléatoires de même loi et si θ ∈ Θ est un
paramètre de cette loi (inconnu, on sait seulement que θ ∈ Θ ⊆ R), alors un intervalle de confiance pour
θ est un intervalle Iˆn , fonction des observations X1 , ..., Xn uniquement, tel que :
∀θ ∈ Θ, P θ ∈ Iˆn (X1 , · · · , Xn ) ≥ 1 − α.
On appelle 1 − α la probabilité de couverture de Iˆn , et on dit que Iˆn est un intervalle de confiance à
"100(1 − α)%" pour θ. On parle aussi de "niveau de confiance α", ou de "risque α".
Remarque 5.7. — Si Iˆn = [ân , b̂n ], ou [ân , b̂n [, ou ]ân , b̂n ], ou ]ân , b̂n [, avec ân = ân (X1 , · · · , Xn ) ∈ R
et b̂n = b̂n (X1 , · · · , Xn ) ∈ R, on parle d’intervalle de confiance bilatère.
— Lorsque Iˆn = [ân , +∞[ ou ] − ∞, b̂n ], on parle d’intervalle de confiance unilatère.
— Souvent, on prend ân et b̂n des fonctions de θ̂n un estimateur ponctuel de θ.
Par exemple : ân = θ̂n − tα,n et b̂n = θ̂n + tα,n , avec tα,n ∈ R bien choisi.
Exemple 5.20 (du sondage). Soit p la proportion d’électeurs votant pour A (dans la population entière).
On interroge n personnes. On obtient alors n variables aléatoires X1 , ..., Xn indépendantes de même loi
B(p) (et donc : ∀i ∈ {1, · · · , n}, E[Xi ] = p).
X1 + · · · + Xn
Estimateur ponctuel : On prend la moyenne empirique p̂n = . C’est un estimateur sans
n
biais et consistant.
Intervalle de confiance : On le prend de la forme [p̂n − tα,n , p̂n + tα,n ] avec tα,n ∈ R choisi de manière
à ce que sa probabilité de couverture soit plus grande que 1 − α, avec α ∈]0, 1] fixé. On veut donc :
Or, par l’inégalité de Bienaymé-Tchebychev appliquée à p̂n (qui est d’espérance finie p, et de variance
1 1 1
Var (p̂n ) = 2 Var(X1 + · · · + Xn ) = 2 n Var(X1 ) = p(1 − p)), on a :
n n n
p(1 − p) 1 1
P (|p − p̂n | > tα,n ) ≤ 2
≤ 2
car : ∀p ∈ [0, 1], p(1 − p) ≤ .
ntα,n 4ntα,n 4
1 1 1
Donc on veut : 2
= α ⇔ 1 = 4αnt2α,n ⇔ tα,n = √ . Il suffit donc de prendre tα,n = √ .
4ntα,n 2 nα 2 nα
1 1
Conclusion : p̂n − √ , p̂n + √ est un intervalle de confiance pour p, de probabilité de cou-
2 nα 2 nα
verture (au moins) α.
54
5.3. ESTIMATION PAR INTERVALLES
6123
Deuxième application numérique : On prend α = 5%, n = 10000 et p̂n = . Alors tα,n ≈ 0.022%
10000
et Iˆn = [0.590, 0.635].
1
L’intervalle ne contient que des valeurs strictement plus grandes que , donc on peut conclure que
2
1
p > "avec un risque 5%" (c’est-à-dire avec une probabilité de couverture 95% pour Iˆn ).
2
Ceci signifie que si on refait ce sondage de nombreuses fois, on donnera une conclusion fausse au
1
maximum 5 fois sur 100. En revanche, la "probabilité de se tromper" en affirmant "p > " vaut soit 0 (si
2
1 1
p > ), soit 1 (si p < ), car p est déterministe (mais inconnu : on ne sait donc pas dans quel cas on est).
2 2
55