Vous êtes sur la page 1sur 79

UE : Probabilités-Statistique

UNISAT, Licence 2

prof. armel yodé


Table des matières

I EUE 1 : Probabiités 5
1 Analyse combinatoire 6
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Arrangements sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Arrangements avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Combinaisons sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Combinaisons avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Espace probabilisé 9
2.1 Univers des possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Evénements, Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Variables aléatoires réelle 14


3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5 Caractéristiques des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 17
3.5.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.6 Variance, écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.7 Calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.7.1 Utilisation de la fonction de répartition . . . . . . . . . . . . . . . . . . . 18
3.7.2 Formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 18
3.8 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.2 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.8.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.8.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.9 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2
TABLE DES MATIÈRES 3
3.9.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.9.2 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.9.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 Vecteurs aléatoires 22
4.1 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Couple de variables aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Caractéristique d’un couple de variables aléatoires . . . . . . . . . . . . . . . . . 23
4.3.1 Covariance, coefficient de correlation . . . . . . . . . . . . . . . . . . . . 23
4.3.2 Moments d’un couple de variables aléatoires . . . . . . . . . . . . . . . . 24
4.3.3 Matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5 Convergences et Théorèmes limites 25


5.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Théorème Central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6 Exercices non corrigés 27

7 Exercices corrigés 29

II ECUE 2 : Statistique inférentielle 35

8 Modélisation statistique 36
8.1 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
8.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

9 Estimateurs 39
9.1 Principe général de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1 Propriétés à distance finie . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1.1 Echantillon gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1.2 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 40
9.1.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.1.2.1 Convergence ou consistance . . . . . . . . . . . . . . . . . . . . 41
9.1.2.2 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 41
9.2 Methode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 42
9.3 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

10 Estimation par intervalle de confiance 48


10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10.2 Construction d’un intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 49
10.2.1 Fonction pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
10.3 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . . . . . . 49
10.3.1 Intervalle de confiance pour une proportion . . . . . . . . . . . . . . . . 51
4 TABLE DES MATIÈRES
11 Généralités sur les tests d’hypothèses 52
11.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
11.2 Etapes des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
11.3 La règle de la p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

12 Tests de Student : un échantillon 54


12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
12.2 H0 : m ≤ m 0 contre H1 : m > m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
12.2.1 On suppose que la variance σ2 est connue. . . . . . . . . . . . . . . . . . 54
12.2.2 On suppose σ2 est inconnue . . . . . . . . . . . . . . . . . . . . . . . 56
12.3 H0 : m ≥ m 0 contre H1 : m < m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
12.3.1 On suppose que la variance σ2 est connue. . . . . . . . . . . . . . . . . . 57
12.3.2 On suppose que la variance σ2 est inconnue. . . . . . . . . . . . . . . . . 57
12.4 H0 : m = m 0 contre H1 : m 6= m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
12.4.1 On suppose que la variance σ2 est inconnue. . . . . . . . . . . . . . . . . 59

13 Tests de Student : deux échantillons 60


13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
13.2 Test de Fisher de comparaison des variances . . . . . . . . . . . . . . . . . . . . 61
13.3 Test de Student de comparaison des moyennes . . . . . . . . . . . . . . . . . . . 61
13.3.1 Résolution du test lorsque les variances connues . . . . . . . . . . . . . . 62
13.3.2 Résolution du test lorsque les variances sont inconnues . . . . . . . . . 62

14 Tests de comparaison des proportions 64


14.1 Test sur la valeur d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 64
14.2 Test de comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . 65
Première partie

EUE 1 : Probabiités

5
Chapitre

1 Analyse combinatoire

1.1 Introduction
L’analyse combinatoire est un important outil dans de nombreuses branches des mathé-
matiques, notamment dans la théorie des probabilités et en statistique. Soient deux éléments
a et b. On distingue deux types de dispositions ou groupes :
— disposition ordonnée : (a, b) 6= (b, a)
— disposition non ordonée : (a, b) = (b, a)

1.2 Principes
Il existe deux principes fondamentaux en analyse combinatoire :
— Principe additif : Si une tâche peut être accomplie de m manières, et si une autre
tâche peut être accomplie de n manières. Et si les deux tâches ne peuvent pas être
réalisées simultanément, alors la réalisation d’une ou de l’autre des deux tâches peut
être accomplie de m + n manières.
— Principe multiplicatif : Si une procédure peut être découpée en deux étapes, et
qu’il y a m facons possibles de réaliser la première étape, et qu’il y a n facons possibles
de réaliser la seconde étape, alors la procédure peut être accomplie de nm facons.

1.3 Arrangements
Définition 1.3.1. Un arrangement de p éléments choisis parmi n éléments est une dispo-
sition ordonnée de p de ces n éléments.
On distingue les arrangements avec répétitions et les arrangements sans répétitions.

1.3.1 Arrangements sans répétitions


Un arrangement sans répétition est une disposition ordonnée dans laquelle chacun des
éléments ne peut figurer qu’une seule fois.
Définition 1.3.2. Le nombre d’arrangements sans répétitions de p éléments choisis parmi
n est
p n!
An =
( n − p)!

6
1.4. COMBINAISONS 7
où n! = n × (n − 1) × . . . × 2 × 1.
Exemple 1.3.1. Le nombre d’arrangements sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est A 23 = 6. Ces 6 arrangements sont : (a,b),
(b,a), (a,c), (c,a), (b,c), et (c,b).
Remarque 1.3.1. Un arrangement sans répétitions est une permutation si p = n. Le
nombre de permutations de n éléments est :
A nn = n!
Exemple 1.3.2. Le nombre de permutations de 3 éléments a, b, c est P3 = 3! = 6. Ces 6
permutations sont : (a,b,c), (a,c,b), (b,a,c), (b,c,a), (c,a,b), et (c,b,a).
Exemple 1.3.3. Tirage sans remise : Une urne U contient n boules numérotés de 1 à n. On
tire successivement p boules de U sans les remettre dans l’urne. Il y a A np tirages différents
possibles.

1.3.2 Arrangements avec répétitions


Un arrangement avec répétition est une disposition ordonnée dans laquelle chacun des
éléments peut figurer plusieurs fois.
Définition 1.3.3. Le nombre d’arrangements avec répétitions de p éléments choisis parmi
n est n p .
Exemple 1.3.4. Le nombre d’arrangements avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est 32 = 9. Ces 9 arrangements sont : (a, a),
(a, b), ( b, a), (a, c), ( c, a), ( b, b), ( b, c), ( c, b) et ( c, c).
Exemple 1.3.5. Tirage avec remise : Une urne U contient n boules numérotés de 1 à n.
On tire successivement p boules de U en remettant chaque fois dans l’urne la boule qu’on
vient de tirer. Le nombre de tirages possibles est donc n p .

1.4 Combinaisons
Définition 1.4.1. Une combinaison de p éléments choisis parmi n éléments est une dispo-
sition non ordonnée de p de ces n éléments.
On distingue les combinaisons avec répétitions et les combinaisons sans répétitions.

1.4.1 Combinaisons sans répétitions


Une combinaison sans répétitions est une disosition non ordonnée de p éléments choisis
parmi n éléments dans laquelle chacun des éléments ne peut figurer qu’une seule fois.
Définition 1.4.2. Le nombre de combinaisons sans répétitions de p éléments choisis parmi
n est :
p n!
Cn = .
p!( n − p)!
Exemple 1.4.1. Le nombre de combinaisons sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est C32 = 3. Ces 3 combinaisons sans répétitions
sont : (a, b), (a, c), et ( b, c).
Exemple 1.4.2. Une urne U contient n boules numérotée de 1 à n. On tire simultanément
p boules de U . Le nombre de tirages possibles vaut le nombre de combinaisons de p éléments
parmi n.
8 CHAPITRE 1. ANALYSE COMBINATOIRE
1.4.2 Combinaisons avec répétitions
Une combinaison avec répétitions est une disosition non ordonnée de p éléments choisis
parmi n éléments dans laquelle chacun des éléments peut figurer plusieurs fois.
Définition 1.4.3. Le nombre de combinaisons avec répétitions de p éléments choisis parmi
n est :
p p
K n = C n+ p−1 .

Exemple 1.4.3. Le nombre de combinaisons avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est K 32 = C42 = 6. Ces 6 combinaisons sont :
(a, a), (a, b), (a, c), ( b, b), ( b, c) et ( c, c)

Exemple 1.4.4. Soit E = {R, V , B}. Alors (B, B, R, V , V ) est une combinaison avec répétition
de 5 éléments de E.

Exemple 1.4.5. On souhaite répartir p chiffons dans n tiroirs. On note les tiroirs t1 , . . . , t n .
A une répartition, on associe le mot t1 , . . . , t1 , t2 , . . . , t2 , . . . , t n , . . . , t n , où chaque t i est répété
autant de fois que le nombre de chiffons rangés dans le tiroir. On obtient une combinaison
avec répétitions.
Chapitre

2 Espace probabilisé

L’objet des probabilités est de modéliser des phénomènes aléatoires et de prédire avec
certitude leur évolution ou les conséquences qu’ils peuvent engendrer.

2.1 Univers des possibles


Définition 2.1.1. Une expérience E est qualifiée d’aléatoire si on ne peut pas prévoir par
avance son résultat et si, répétée dans des conditions identiques, elle peut donner lieu à des
résultats différents.

Définition 2.1.2. L’univers des possibles (ou univers), noté Ω est défini par l’ensemble de
tous les résultats possibles qui peuvent être obtenus au cours d’une expérience aléatoire.

La description explicite de l’ensemble Ω est la première étape dans la modélisation d’un


phénomène aléatoire. On distingue les univers comprenant un nombre fini de résultats de
ceux comprenant un nombre infini de résultats. Parmi les univers infinis, on distingue les
univers infinis non dénombrables des univers infinis dénombrables. Par exemple, l’univers
Ω = {ω1 , . . . , ω i , . . .} est un univers infini dénombrable puisque l’on peut identifier chacun des
éléments de Ω, même s’il en existe une infinité. En revanche, Ω = R est un exemple d’univers
infinis non dénombrables. Dans le cas d’un univers fini ou infini dénombrable, la taille de
l’univers est appelée cardinal de Ω et est noté card (Ω).

Exemple 2.1.1. Voici quelques expériences aléatoires et les univers des possibles corres-
pondants :
1. On lance une pièce. On a Ω = {pile, face}.
2. On jette un dé. On a Ω = {1, 2, 3, 4, 5, 6}.
3. On jette deux dés. On a

Ω = {( i, j ) : 1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), (1, 3), . . .}.

4. Un bus est censé passer toutes les 30 minutes à l’école de police pour se rendre à Faya.
Un passager arrive à l’arrêt de bus. On cherche à modéliser son temps d’attente. A
priori, on peut supposer que ce temps d’attente est dans l’intervalle Ω = [0, 30].

9
10 CHAPITRE 2. ESPACE PROBABILISÉ

2.2 Evénements, Tribu


Définition 2.2.1. Un événement (ou une partie) A est un sous-ensemble de l’univers des
possibles Ω vérifiant A ⊂ Ω .

Définition 2.2.2. Un événement constitué d’un seul élément est un événement élémentaire
(ou singleton).

Définition 2.2.3. Un événement certain correspond à l’univers des possibles Ω.

Définition 2.2.4. Un événement impossible est un événement qui ne se réalise jamais. Il


correspond à l’ensemble vide, noté ;

Exemple 2.2.1. On considère une expérience aléatoire correspondant au lancer d’un dé à 6
faces. L’univers est alors Ω = {1, 2, 3, 4, 5, 6}. L’événement ” nombre pair ”, noté A, correspond
au sous-ensemble de l’ univers Ω défini par A = {2, 4, 6}.

Définition 2.2.5. Soient deux événements A et B. La réalisation de l’événement C , défini


par C = A ∪ B implique la réalisation de l’événement A ou de l’événement B, ou des deux
événements A et B simultanément.

Définition 2.2.6. Soient deux événements A et B. La réalisation de l’événement D , défini


par D = A ∩ B entraı̂ne la réalisation de l’événement A et de l’événement B.

Définition 2.2.7. Deux événements A et B sont disjoints s’ils n’ont pas d’élément en com-
mun, c’est à dire, A ∩ B = ; . Ces deux événements sont donc incompatibles : la réalisation
simultanée de ces événements est impossible.

Définition 2.2.8. Deux événements A et D inclus dans un ensemble B sont complémen-


taires si leur union correspond à B, c’est à dire, A ∪ D = B et leur intersection est vide
( A ∩ D = ;).
On note A le complémentaire de A dans l’univers Ω.

Définition 2.2.9. L’ensemble des parties de Ω, noté P (Ω), correspond à l’ensemble de


tous les événements réalisables à partir des événements élémentaires de l’univers Ω. Par
convention Ω ∈ P (Ω), ; ∈ P (Ω).

Définition 2.2.10. Soit Ω un ensemble et A ⊂ P (Ω). On dit que A est une tribu sur Ω si
les trois conditions suivantes sont vérifiées :
• Ω∈A
• si A ∈ A alors Ā ∈ A (stabilité par passage au complémentaire)
• si ( A i ) i∈ I est une famille dénombrable d’éléments de A alors A i ∈ A . (stabilité par
[
i∈ I
réunion dénombrable)

Remarque 2.2.1. La tribu A sur Ω représente l’ensemble de tous les évènements sucep-
tibles de se produire au cours de l’expérience aléatoire E . Lorsque l’ensemble Ω est fini ou
infini dénombrable, on choisira pour A l’ensemble de toutes les parties de Ω, c’est-à-dire,
A = P (Ω).

Le couple (Ω, A ) est appelé espace probabilisable. Pour compléter la description d’un
phénomène aléatoire, il nous reste à introduire la notion de mesure de probabilité.
2.3. PROBABILITÉ 11

2.3 Probabilité
Pour une expérience aléatoire donnée, une fois déterminé le couple (Ω, A ) qui représente
l’univers Ω associé à cette expérience et la tribu des évènements A , on définit une application
de A à valeurs dans [0, 1] qui à chaque évènement associe sa probabilité, c’est à dire la chance
de réalisation de cet évènement.
Définition 2.3.1. On appelle probabilité sur (Ω, A ) une application P : A → [0, 1] telle
que :
(i) P(Ω) = 1
(ii) si ( A i ) i∈ I est une famille dénombrable d’éléments de A deux à deux disjoints ou
incompatibles (i.e. ∀ i 6= j, A i ∩ A j = ;) alors
à !
P P( A i ).
[ X
Ai =
i∈ I i∈ I

On appelle espace probabilisé le triplet (Ω, A , P).


Définition 2.3.2. 1. L’évènement A tel que P( A ) = 0 est dit presque impossible.
2. L’évènement A tel que P( A ) = 1 est dit presque certain.
Propriété 2.3.1. 1. P(;) = 0
2. P( Ā ) = 1 − P( A ).
3. Si A 1 ⊆ A 2 alors P( A 2 \ A 1 ) = P( A 2 ) − P( A 1 ).
4. P( A 1 ∪ A 2 ) = P( A 1 ) + P( A 2 ) − P( A 1 ∩ A 2 ).
5. Si A 1 ⊆ A 2 alors P( A 1 ) ≤ P( A 2 ).
Exemple 2.3.1. Equiprobabilité.
On considère une expérience aléatoire E pour laquelle Card (Ω) est fini et les évènements
élémentaires sont équiprobables, c’est à dire ∀ω ∈ Ω, on a
1
P({ω}) = .
Card (Ω)
On choisit alors A = P (Ω), l’ensemble des parties de Ω et on a pour tout B ∈ P (Ω)
Card (B)
P( B ) = .
Card (Ω)

2.4 Conditionnement et indépendance


Soit (Ω, A , P) un espace probabilisé. Dans ce chapitre, nous allons étudier deux notions
importantes : le conditionnement et l’indépendance. Le conditionnement permet de prendre
en compte une information supplémentaire dans le calcul d’une probabilité. L’indépendance
rend compte du fait que deux évènements n’ont aucune incidence l’un sur l’autre.

2.4.1 Probabilité conditionnelle


Définition 2.4.1. Soient A et B deux évènements tels que P(B) > 0. On appelle probabilité
conditionnelle de A sachant que B, le réel défini par
P( A ∩ B)
P( A /B) = .
P(B)
L’application A 7−→ P( A /B) définit une probabilité sur (Ω, A ).
12 CHAPITRE 2. ESPACE PROBABILISÉ
Proposition 2.4.1. Formule des probabilités composées.
n
\
Soit A 0 , . . . , A n une suite d’évènements telle que A i 6= ;. Alors, on a
i =0

n
P( A i ) = P( A 0 ) × P( A 1 / A 0 ) × P( A 2 / A 0 ∩ A 1 ) × . . . × P( A n / A 0 ∩ A 1 ∩ . . . ∩ A n−1 ).
\
i =0

Exemple 2.4.1. Pour n = 1, on a

P( A 0 ∩ A 1 ) = P( A 0 ) × P( A 1 / A 0 ).

Pour n = 2, on a

P( A 0 ∩ A 1 ∩ A 2 ) = P( A 0 ) × P( A 1 / A 0 ) × P( A 2 / A 0 ∩ A 1 ).

Définition 2.4.2. Une famille finie d’évènements ( A i )1≤ i≤n deux à deux incompatibles tels
que ∪ni=1 A i = Ω est appelée système complet d’évènements.

Théorème 2.4.1. Formule des probabilités totales.


Soit {B1 , . . . , B n } un système complet d’évènements. Alors, nous avons
n
∀A ∈ A P( A ) = P(B i )P( A /B i ).
X
i =1

Exemple 2.4.2. Une urne contient des boules blanches et noires, marquées ou non. On
suppose que parmi les boules marquées, il y a 30% de boules blanches et parmi les non mar-
quées 60%. Par ailleurs, on sait que 80% des boules sont marquées. Quelle est la probabilité
de tirer une boule blanche ?
Solution. On note
B =”la boule est blanche”
M =”la boule est marquée”
On a

B = (B ∩ M ) ∪ (B ∩ M c )
P(B) = P(B ∩ M ) + P(B ∩ M c )
= P( M ) × P(B/ M ) + P( M c ) × P(B/ M c )
80 30 20 60 36
= × + × = .
100 100 100 100 100

Théorème 2.4.2. (Formule de Bayes)


Soit {B1 , . . . , B n } un système complet d’évènements et A un évènement tel que P( A ) > 0.
Alors, nous avons
P(B i )P( A /B i )
P( B i / A ) = n
.
P (B k )P( A /B k )
X
k=1

Exemple 2.4.3. Le quart d’une population est vacciné contre le choléra. Au cours d’une
épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 nonvaccinés, et qu’il
y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité qu’un non-vacciné tombe
malade ?
2.4. CONDITIONNEMENT ET INDÉPENDANCE 13
2.4.2 Indépendance
Définition 2.4.3. Soient A et B deux évènements. On dit que A et B sont indépendants si
P( A ∩ B) = P( A )P(B).

Si A est tel que P( A ) > 0, l’indépendance de A et B s’écrit encore P(B/ A ) = P(B) et on


retrouve la notion intuitive d’indépendance : le fait que A se soit re ?alisé ne change rien
quant à la probabilité que B se réalise.

Proposition 2.4.2. Si A et B sont indépendants, alors il en va de même pour :


- les évènements Ā et B ;
- les évènements A et B̄ ;
- les évènements Ā et B̄

Définition 2.4.4. Les évènements A 1 , . . . , A n sont dits mutuellement indépendants si


à !
P P( A i ).
\ Y
∀ I ⊂ {1, . . . , n}, Ai =
i∈ I i∈ I
Chapitre

3 Variables aléatoires réelle

Soit (Ω, A , P) un espace probabilisé.

3.1 Généralités
Soit (Ω, A , P) un espace probabilisé. La variable aléatoire X traduit une situation liée à
l’expérience aléatoire modélisée par l’espace probabilisé (Ω, A , P).

Définition 3.1.1. Une variable aléatoire X réelle est une application définie sur Ω à valeurs
dans R telle que pour tout x ∈ R,
n o
{ X ≤ x} = ω ∈ Ω : X (ω) ≤ x ∈ A .

Étant donnés un espace probabilisé (Ω, A , P) et une variable aléatoire réelle X , on peut
construire de façon naturelle une probabilité sur X (Ω), l’ensemble des valeurs prises par la
fonction X . Cette probabilité est appelée loi de la variable aléatoire X et est notée P X .

3.2 Variables aléatoires discrètes


Définition 3.2.1. La variable aléatoire réelle X est dite discrète si X (Ω) est fini ou infini
dénombrable.

La loi de probabilité d’une variable aléatoire réelle discrète X est déterminée par :
1. X (Ω)
2. f ( x) = P X ({ x}) = P( X = x), pour tout x ∈ X (Ω).
La fonction f est appelée fonction de masse. La probabilité d’un évènement A est donnée
par
P X ( A ) = P( X ∈ A ) = P( X = x ) .
X
x∈ A

Nous avons
X
f ( x ) = 1.
x ∈ X (Ω )

14
3.3. VARIABLES ALÉATOIRES CONTINUES 15

3.3 Variables aléatoires continues


Définition 3.3.1. La variable aléatoire réelle X est dite continue si l’ensemble de ses valeurs
X (Ω) est un intervalle de R.

Définition 3.3.2. On dit qu’une variable aléatoire réelle continue admet une densité f si
pour tout intervalle [a, b] ⊂ X (Ω) :
Z b
P( X ∈ [a, b]) = f ( x) dx
a
Z +∞
où f est une fonction positive telle que f ( x) dx = 1.
−∞
La fonction f est appelée densité de probabilité de X .
Il suffit donc de connaı̂tre la densité de probabilité f pour connaı̂tre la loi de X .

3.4 Fonction de répartition


Définition 3.4.1. Soit X une variable aléatoire réelle. On appelle fonction de répartition
de X , la fonction F définie sur R à valeurs dans [0, 1] par :

F ( x ) = P( X ≤ x ) .

Proposition 3.4.1. On a :
1. F est croissante ;
2. F est continue à droite ;
3. lim F ( x) = 1 et lim F ( x) = 0;
x→+∞ x→−∞
4. Pour tous réels a et b avec a < b,

P(a < X ≤ b) = F ( b) − F (a).

Proposition 3.4.2. F est continue à droite en tout x ∈ R et

P( X = x ) = F ( x + ) − F ( x − ) = F ( x ) − F ( x − )

où
F ( x+ ) = lim F ( t).
t→ x,t> x

F ( x ) = lim F ( t).
t→ x,t< x

Pour une variable aléatoire discrète :

P( X = t ) ∀ x ∈ R..
X
F ( x) =
t≤ x

Exemple 3.4.1. On lance deux dés non pipés. L’univers associé à cette expérience est

Ω = {( i, j ) : 1 ≤ i, j ≤ 6}.

Nous avons card (Ω) = 36 et la probabilité sur Ω est définie par


1
P({ω}) = .
36
16 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLE
On s’interesse à la variable aléatoire discrète suivante : pour tout ω = ( i, j ) ∈ Ω, X (ω) = i + j .

x 2 3 4 5 6 7 8 9 10 11 12
px 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

La fonction de répartition est


P(X = t)
X
F(x) =
t≤ x


 0 si x<2

1/36 si 2 ≤ x < 3








 3/36 si 3 ≤ x < 4

6/36


 si 4 ≤ x < 5

10/36 si 5 ≤ x < 6





15/36 si 6 ≤ x < 7
=


 21/36 si 7 ≤ x < 8

26/36 si 8 ≤ x < 9




30/36 si 9 ≤ x < 10









 33/36 si 10 ≤ x < 11

35/36 si 11 ≤ x < 12





1 si x ≥ 12

Pour une variable aléatoire continue à densité de probabilité f :


Z x
F ( x) = f ( t) dt.
−∞
Exemple 3.4.2. On dit qu’une variable aléatoire réelle continue suit la loi exponentielle de
paramètre λ > 0 si la densité de probabilité f est définie par :
λ e−λw
(
si x ≥ 0
f ( x) =
0 sinon.
Déterminons la fonction de répartition de X .
Pour tout x ∈ R, nous avons :
Z x
F ( x ) = P( X ≤ x ) = f ( t) dt
−∞
(
0 si x ≤ 0
= R x −λ t
0 λe dt Si x > 0
(
0 si x ≤ 0
=
1 − e−λ x Si x ≥ 0
Proposition 3.4.3. Soit X une variable aléatoire à densité de fonction de répartition F .
Alors
— F est continue sur R.
— F est dérivable en tout point x où f est continue et F 0 ( x) = f ( x).
Remarque 3.4.1. Pour une variable aléatoire continue X , la fonction de répartition F est
continue sur R et F ( x+ ) = F ( x− ) = F ( x). Ce qui implique que P( X = x) = 0 pour tout x ∈ R. On
dit que la loi de X est diffuse.
Remarque 3.4.2. La fonction de densité est une représentation très utile de la loi de pro-
babilité d’une variable aléatoire continue. On peut définir la loi de probabilité d’une variable
aléatoire continue, soit par sa fonction de répartition, soit par sa fonction de densité.
3.5. CARACTÉRISTIQUES DES VARIABLES ALÉATOIRES 17

3.5 Caractéristiques des variables aléatoires


3.5.1 Espérance
Soit X une variable aléatoire réelle.

Définition 3.5.1. On appelle espérance de X , le nombre réel


• E[ X ] = xP( X = x) si X est une variable aléatoire discrète
X
x ∈ X (Ω )
Z +∞
• E[ X ] = x f X ( x) dx si X est une variable aléatoire continue de densité f X .
−∞
• La variable aléatoire X est dite centrée si E( X ) = 0.

Plus généralement, soit g une application définie sur R à valeurs dans R.

Proposition 3.5.1. Nous avons


• pour une variable aléatoire discrète

E( g( X )) = g( x)P( X = x)
X
x ∈ X (Ω )

• pour une variable aléatoire continue admettant une densité de probabilité f


Z +∞
E( g( X )) = g( x) f ( x) dx
−∞

Proposition 3.5.2. (Linéarité de l’espérance)


Soient X et Y deux variables aléatoires réelles et c ∈ R une constante. Alors on a E[ cX + Y ] =
cE[ X ] + E[Y ].

Proposition 3.5.3. Soient X et Y deux variables aléatoires réelles telles que X ≤ Y , alors
E[ X ] ≤ E[Y ].

L’espérance de X est la moyenne pondérée des valeurs que X peut prendre, les poids
étant les probabilités que ces valeurs soient prises. C’est un indicateur de localisation. Néan-
moins, la connaissance de l’espérance seule donne peu de renseignements sur X . Ainsi, elle
s’accompagne de la variance qui caractérise la dispersion de X autour de sa moyenne E( X ).

3.6 Variance, écart-type


Définition 3.6.1. Soit X une variable aléatoire discrète. On appelle moment d’ordre k ≥ 1,
la quantité
E[ X k ] = x k P( X = x).
X
x ∈ X (Ω )

Définition 3.6.2. Soit X une variable aléatoire continue de densité f X . On appelle moment
d’ordre k ≥ 1, la quantité Z +∞
E[ X k ] = x k f X ( x) dx.
−∞

Définition 3.6.3. Soit X une variable aléatoire qui admet des moments d’ordre deux i.e.
E[ X 2 ] < +∞. On appelle variance de X la quantité

var ( X ) = E[ X 2 ] − (E[ X ])2 = E[( X − E( X ))2 ].


18 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLE
p
Définition 3.6.4. On appelle écart-type σ X la racine carrée de la variance : σ X = var( X ).
Proposition 3.6.1. Soient X et Y deux variables aléatoires réelles, et a et b deux constantes
réelles. Alors on a
1. var(aX + b) = a2 var( X )
2. var( X + Y ) = var( X ) + var(Y ) + 2Cov( X , Y )
Si X et Y sont non corrélées, c’est à dire Cov( X , Y ) = 0 alors
var ( X + Y ) = var ( X ) + var (Y ).
Proposition 3.6.2. (Inégalité de Bienaymé-Chebychev). Pour tout ε > 0
var ( X )
P (| X − E[ X ]| > ε) ≤ .
ε2

3.7 Calcul de lois


3.7.1 Utilisation de la fonction de répartition
3.7.2 Formule de changement de variables
Théorème 3.7.1. Soit X une v.a.r. On suppose que
Z +∞
E( g( X )) = g( x) f ( x) dx
−∞
pour toute fonction continue et bornée sur R. Alors X est une v.a.r continue de densité f .
Soit X une v.a.r continue de densité f X . On pose Y = h( X ) avec h : R → R. Le problème ici
est de déterminer la densité de Y .
1. Pour toute continue et bornée g :
Z +∞
E( g(Y )) = E( g( h( X ))) = g( h( x)) f X ( x) dx.
−∞
2. On fait le changement de variable y = h( x) et après calcul, on obtient
Z +∞
E( g(Y )) = g( y) f Y ( y) d y.
−∞
3. Ceci caractérise la loi de Y , qui admet f Y pour densité.
Exemple 3.7.1. Soit X une variable aléatoire suivant une loi normale N (0, 1). Quelle est
la loi de Y = X 2 ?
Réponse : Soit g une fonction continue et bornée. Nous avons
E( g(Y )) = E( g( X 2 ))
Z +∞
= g( x2 ) f X ( x) dx
−∞
Z +∞
1 x2
=p g( x2 ) e− 2 dx
2π −∞
Z +∞
2 x2
=p g( x2 ) e− 2 dx
2π 0
Z +∞
2 y dy
=p g( y) e− 2 p
2π 0 2 y
Z +∞ h 1 y i
= g( y) p y−1/2 e− 2 1[0,+∞[ d y
−∞ 2π
D’après le Théorème
3.8. LOIS DISCRÈTES 19

3.8 Lois discrètes


3.8.1 Loi uniforme discrète

(
X (Ω) = {1, . . . , N }
X ,→ U N ⇐⇒ 1
P ( X = k) = N, ∀ k ∈ X (Ω)

N +1
E( X ) =
2
et
N2 − 1
var ( X ) = .
12

Exemple 3.8.1. Soit X le résultat d’un lancer de dé non truqué : alors ∀ i ∈ X (Ω) =
{1, 2, 3, 4, 5, 6}, P ( X = i ) = 16 ; X suit la loi uniforme U 6 .

3.8.2 Loi de Bernouilli

(
X (Ω) = {0, 1}
X ,→ B (1, p) ⇐⇒
P ( X = 1) = p, P ( X = 0) = 1 − p

E( X ) = p

var ( X ) = p(1 − p).

Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au ”succès” ou à
l’”echec” de l’expérience.

Exemple 3.8.2. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit (bon
ou defectueux), sondage elctoral (pour ou contre).

3.8.3 Loi binomiale


On réalise n fois successivement et d’une manière indépendante une expérience aléatoire
de Bernouilli. La variable aléatoire égale au nombre de succès obtenus au cours des n épreuves
suit la loi binomiale B (n, p).
(
X (Ω) = {0, . . . , n}
X ,→ B ( n, p) ⇐⇒
P ( X = k) = C nk p k (1 − p)n−k , ∀ k ∈ X (Ω)

E ( X ) = np

var ( X ) = np(1 − p).

Cette loi modélise une succession de ”succès” et d’”échecs”, p étant la probabilité du succès.
20 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLE
3.8.4 Loi hypergéométrique
Soit une population de N individus parmi lesquels une proportion p (donc N p individus)
possède un caractère. Il s’agit par exemple de la proportion des individus qui souffrent d’une
maladie, ou de la proportion des pièces défectueuses dans un grand lot de fabrication. On
prélève un échantillon de n individus parmi cette population (le tirage pouvant s’effectuer
d’un seul coup ou au fur et à mesure mais sans remise). On note X la variable aléatoire
égale au nombre d’individus de l’échantillon possédant le caractère envisagé. La loi de X est
appelée loi hypergéométrique de paramètre N , n, p et notée H ( N, n, p) :

 X (Ω) = { max(0, n − (1 − p) N ), min( N p, n)}
X ,→ H ( N, n, p) ⇐⇒ k C n− k
CN .
P ( X = k) = p (1− p) N
n
CN
, ∀ k ∈ X (Ω)

E ( X ) = np.

3.8.5 Loi géométrique


C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire apparaı̂tre un évè-
nement de probabilité p. C’est le cas de nombre d’examens necessaires pour réussir une
épreuve en supposant que la probabilité de réussir à chaque passage de l’examen est de type
p et que les résultats sont indépendants d’un examen vers un autre. Soit la variable X égale
le nombre d’essais avant d’obtenir le premier succès :
(
X (Ω) = N∗
X ,→ G ( p) ⇐⇒ .
P ( X = k) = p(1 − p)k−1 , ∀ k ∈ X (Ω)

1
E( X ) =
p

1− p
var ( X ) = .
p2

Exemple 3.8.3. On effectue des lancers indépendants d’une pièce, dont la probabilité d’ob-
tenir face est p, jusqu’à l’obtention d’un ”face”. On note X la v.a.r égale au nombre de
lancers nécessaires. On dit également que X est le temps d’attente du premier ”face”.

3.8.6 Loi de Poisson


Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre d’appels
téléphoniques pendant un certain temps, nombre de pièces défectueuses dans une commande
importante, nombre de suicides par an dans un pays donné...), on utilise la loi de Poisson
(de paramètre λ > 0) :
(
X (Ω) = N
X ,→ P (λ) ⇐⇒ λk e−λ
P ( X = k) = k! , ∀ k ∈ X (Ω)

E ( X ) = var ( X ) = λ.
3.9. LOIS CONTINUES 21

3.9 Lois continues


3.9.1 Loi uniforme
On dit que la v.a.r continue suit une loi uniforme sur l’intervalle [a, b] si sa fonction
densité est (
1
si x ∈ [a, b]
f X ( x) = b − a
0 sinon
b+a
E( X ) =
2
( b − a )2
var ( X ) = .
2

3.9.2 Loi normale


On dit que X suit une loi normale de paramètre (m, σ2 ) avec m ∈ R, σ2 ∈ R∗+ si sa densité
de probabilité est
1 1 ¡ x − m ¢2
f X ( x) p exp{− }, x ∈ R.
σ 2π 2 σ

Propriété 3.9.1. (i) X ,→ N (m, σ2 ) alors E ( X ) = m et var( X ) = σ2 .


X −m
(ii) X ,→ N (m, σ2 ) si et seulement si la v.a.r σ
,→ N (0, 1).

3.9.3 Loi exponentielle


La loi exponentielle correspond à la variable aléatoire X du temps s’écoulant entre deux
occurrences successives lors d’un processus de Poisson. La loi exponentielle est le modèle de
durée de vie pour un système idéal sans usure, λ1 étant l’espérance de vie du système. En
effet on peut voir que l’âge du système ne joue aucun rôle quant aux chances de survie à un
horizon donné puisque : Si a = 1 la loi γ(1, ρ ) = E (ρ ) est appelé loi exponentielle de paramètre
ρ > 0 et a pour densité de probabilité

f ( x) = ρ e−ρ x 1R+ ( x)

Cette loi de probabilité est fortement utilisée pour décrire les durées de vie (par exemple
la durée de vie des transistors electroniques).
Chapitre

4 Vecteurs aléatoires

Par simplicité, nous ne considérons que des vecteurs aléatoires où les variables sont de
même nature, discrètes ou continues, et exclurons les cas mixtes.

4.1 Couple de variables aléatoires discrètes


Définition 4.1.1. Soit ( X , Y ) un couple de variables aléatoires, on appelle fonction de ré-
partition conjointe de ( X , Y ), la fonction définie sur R2 par :
F X ,Y ( x, y) = P( X ≤ x, Y ≤ y).
Définition 4.1.2. Soit ( X , Y ) un couple de variables aléatoires discrètes prenant les couples
de valeurs {( x i , y j ), i = 1, 2, . . . ; j = 1, 2, . . .}. On appelle fonction de probabilité conjointe la
fonction définie par
p X ,Y ( x i , y j ) = P( X = x i , Y = y j )
pour tous i et j .
La loi de probabilité marginale de X s’obtient en sommant la fonction de probabilité
conjointe sur toutes les valeurs possibles de Y :
X
p X (xi ) = p X ,Y ( x i , y j ) i = 1, 2, . . .
j

La loi marginale de Y est donnée par


X
pY ( y j ) = p X ,Y ( x i , y j ) j = 1, 2, . . . .
i

La loi conditionnelle de X sachant Y = y j est donnée par :


p X ,Y ( x i , y j )
p X |Y = y j ( x i ) = i = 1, 2, . . .
pY ( y j )
De même, la loi conditionnelle de Y sachant X = x i est donnée par :
p X ,Y ( x i , y j )
pY | X =xi ( y j ) = j = 1, 2, . . .
p X (xi )
Proposition 4.1.1. Deux variables aléatoires discrètes X et Y sont indépendantes si et
seulement si, pour tout i = 1, 2, . . . et tout j = 1, 2, . . .,
p X ,Y ( x i , y j ) = p X ( x i ) p Y ( y j ).

22
4.2. COUPLE DE VARIABLES ALÉATOIRES À DENSITÉ 23

4.2 Couple de variables aléatoires à densité


Définition 4.2.1. Soit ( X , Y ) un couple de variables aléatoires réelles continues. On appelle
fonction de densité de probabilité conjointe, la fonction non négative sur R2 notée f X ,Y telle
que Z Z x y
F X ,Y ( x, y) = f X ,Y ( u, v) dudv.
−∞ −∞
Dans le cas continu, la densité de probabilité marginale de X est donnée par
Z +∞
f X ( x) = f X ,Y ( x, y) d y.
−∞

La densité de probabilité marginale de Y est donnée par


Z +∞
f Y ( y) = f X ,Y ( x, y) dx.
−∞

Soit ( X , Y ) un couple de variables aléatoires à densité. La loi conditionnelle de X sachant


Y = y est donnée par :
f X ,Y ( x, y)
f X |Y = y ( x ) = .
f Y ( y)
De même, la loi conditionnelle de Y sachant X = x est donnée par :
f X ,Y ( x, y)
f Y | X = x ( y) = .
f X ( x)
Proposition 4.2.1. Deux variables aléatoires continues X et Y sont indépendantes si et
seulement si, pour tout ( x, y) ∈ R2 ,
f X ,Y ( x, y) = f X ( x) f Y ( y).

Proposition 4.2.2. Si X et Y sont indépendantes, alors pour toutes fonctions g et h, les


variables aléatoires g( X ) et h(Y ) sont également indépendantes.

4.3 Caractéristique d’un couple de variables aléatoires


4.3.1 Covariance, coefficient de correlation
Définition 4.3.1. Soient X et Y deux variables aléatoires réelles. On appelle covariance
de X et de Y , et l’on note Cov( X , Y ), le nombre :
Cov( X , Y ) = E([ X − E( X )] [Y − E(Y )]).

On a Cov( X , Y ) = Cov(Y , X ).
Si Cov( X , Y ) = 0, on dit que X et Y sont non corrélées.
Définition 4.3.2. On appelle coefficient de corrélation linéaire de X et de Y , le nombre
Cov( X , Y )
ρ( X , Y ) =
σ X σY
où σ X est l’écart-type de X , σY celui de Y .
Proposition 4.3.1. On a −1 ≤ ρ ( X , Y ) ≤ 1.
Remarque 4.3.1. • Si ρ ( X , Y ) > 0 alors X et Y évoluent dans le même sens.
• Si ρ ( X , Y ) < 0 alors X et Y évoluent en sens contraire.
24 CHAPITRE 4. VECTEURS ALÉATOIRES
4.3.2 Moments d’un couple de variables aléatoires
Soit X = ( X 1 , X 2 ) un couple de variables aléatoires.
Définition 4.3.3. L’espérance de X est E( X ) = (E( X 1 ), E( X 2 )) .

4.3.3 Matrice de variance-covariance


La dispersion de X est caractérisée par la matrice de variance-covariance.
Définition 4.3.4. La matrice de variance-covariance est définie par
µ ¶
V ar ( X 1 ) Cov( X 1 , X 2 )
ΣX =
Cov( X 1 , X 2 ) V ar ( X 2 )

4.4 Vecteurs gaussiens


Chapitre

Convergences et Théorèmes li-


5 mites

Dans ce chapitre, toutes les variables aléatoires sont réelles et sont définies sur le même
espace probabilisé (Ω, A , P). Les résultats peuvent s’applique aux vecteurs aléatoires.

5.1 Modes de convergence


On note F X n la fonction de répartition de X n et F X celle de X .
Définition 5.1.1. On dit que ( X n )n≥1 converge en loi vers la variable aléatoire X si

lim F X n ( x) = F X ( x)
n→+∞

L
en tout point x où F X est continue. On note X n −→ X .
Proposition 5.1.1. Si X n et X sont des variables aléatoires discrètes pour tout n,
L
X n −→ X ⇔ P( X n = x) → P( X = x).

Théorème 5.1.1. de Slutsky. Soient X n et Yn deux suites de variables aléatoires réelles


convergeant en loi respectivement vers une constante c et une variable aléatoire Y . Alors,
nous avons
L
• X n + Yn −→ c + Y
L
• X n Yn −→ cY
Yn L Y
• −→ si c 6= 0.
Xn c
Définition 5.1.2. On dit que { X n } converge en probabilité vers X si quelque soit ε > 0,
lim P {| X n − X | ≥ ε} = 0.
n→+∞

P
On note X n −→ X
Remarque 5.1.1. La convergence en probabilité implique la convergence en loi. La réci-
proque est fausse en général et vraie dans le cas où X = c, c est une constante.
Proposition 5.1.2. Convergence vers une constante
P L
∀c ∈ R X n −→ c ⇔ X n −→ X

25
26 CHAPITRE 5. CONVERGENCES ET THÉORÈMES LIMITES
Proposition 5.1.3. Condition suffisante de convergence en probabilité On suppose
P
que a est une constante réelle. Si E( X n ) → a et var( X n ) → 0 alors X n −→ a.
Définition 5.1.3. Deux variables aléatoires sont égales presque sûrement si
³ ´
P {ω ∈ Ω : X (ω) = Y (ω)} .

Définition 5.1.4. La suite ( X n )n converge presque sûrement vers X si


³ ´
P {ω ∈ Ω : lim X n (ω) = X (ω)} = 1.
n→+∞

p.s
On note X n −→ X
Remarque 5.1.2. La convergence presque sûre implique la convergence en probabilité.
Théorème 5.1.2. Soit g est une fonction continue. Alors
L L
- X n −→ X =⇒ g( X n ) −→ g( X ).
P P
- X n −→ X =⇒ g( X n ) −→ g( X ).
ps ps
- X n −→ X =⇒ g( X n ) −→ g( X ).

5.2 Lois des grands nombres


5.2.1 Loi faible des grands nombres
Théorème 5.2.1. Soient X 1 , X 2 , . . . , X n , . . . i.i.d. telles que E( X 1 ) = µ < +∞. Alors, nous
avons
P
X n −→ µ.

5.2.2 Loi forte des grands nombres


Théorème 5.2.2. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi
telle que E(| X 1 |) < ∞. Alors, on a

1X n
p.s.
X i −→ E( X 1 ).
n i=1

5.3 Théorème Central limite


Théorème 5.3.1. Soient ( X n )n≥1 une suite de variables aléatoires indépendantes identi-
quement distribuées (i.i.d.) telles que E( X 1 ) = µ < +∞ et var( X 1 ) = σ2 ∈]0, +∞[. Alors, nous
avons p
n ( X n − µ) L
−→ N (0, 1).
σ
Chapitre

6 Exercices non corrigés

Exercice 1. Une population est composée de 40% d’hommes et de 60% de femmes ; 50%
des hommes et 30% des femmes fument. Quelle est la probabilité pour qu’un fumeur, choisi
au hasard soit une femme ?
Exercice 2. On a melangé par inadvertance des graines de deux provenances différentes
A et B. On a ainsi un ensemble de graines dont 1/3 provient de A et 2/3 de B. La moitié
des graines de A et les trois quarts des graines de B sont noires. On choisit une graine au
hasard ; elle est noire. Quelle est la probbilité pour qu’elle provienne de A .
Exercice 3. Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1
produit 5% de pièces défectueuses et M2 produit 6%. Quelle est la probabilité pour qu’un
objet défectueux ait été fabriqué par la machine M1 ?
Exercice 4. Soit X la variable aléatoire telle que X (Ω) = {0, 1, 2} et

P( X = 0) = k P( X = 1) = 2 k P( X = 2) = 3 k.

1. Trouver k.
2. Calculer l’espérance et la variance de X .
3. Déterminer la fonction de répartition de X et représenter graphiquement cette fonc-
tion.

Exercice 5. On admet que le nombre de défauts X sur le verre d’une ampoule obéit à une
loi de Poisson de paramètre λ = 4. Calculer la probabilité des évènements suivants :
1. L’ampoule est sans défaut.
2. Il y a plus de deux défauts sur l’ampoule.
3. Il y a entre trois et sept défauts sur l’ampoule.

Exercice 6. Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une
seule est la bonne.
1. Donner la loi de probabilité du nombre X d’essais nécessaires s’il essaie les clefs une
à une sans utiliser deux fois la même. Calculer l’espérance et la variance de X .
2. Lorsque le gardien est ivre, il mélange toutes les clefs à chaque tentative. Identifier
la loi de X . Rappeler l’espérance et la variance de X .

27
28 CHAPITRE 6. EXERCICES NON CORRIGÉS
3. Le gardien est ivre un jour sur trois. Sachant qu’un jour n tentatives ont été néces-
saires pour ouvrir la porte, quelle est la probabilité que le gardien ait été ivre ce jour
là ? Calculer sa limite.

Exercice 7. Soit Y une variable aléatoire de loi exponentielle de paramètre λ > 0 et ε une
variable aléatoire indépendante de Y et telle que P(ε = 1) = P(ε = −1) = 12 . Quelle est la loi de
Z = εY . Cette loi est appelée loi exponentielle symétrique.

Exercice 8. Soit X une variable aléatoire de densité f définie par


(
0 si x < 0
f ( x) = x2
xe− 2 sinon.

1. Vérifier que f est une densité de probabilité.


2. Montrer que Y = X 2 est une variable aléatoire à densité, dont on précisera la loi.
3. Calculer l’espérance et la variance de Y

Exercice 3 : Couple de variables aléatoires


1. Soit ( X , Y ) un couple de variables aléatoires de densité
−x
c ey2
(
si x > 0 et y > 1
f ( x, y) =
0 sinon

(a) Calculer la constante c.


(b) Déterminer les lois marginales de X et Y .
(c) Les variables aléatoires X et Y sont-elles indépendantes ?
(d) Calculer P(Y > 2, X < 1)

Exercice 9 : Soit X et Y deux variables aléatoires à valeurs dans N telles que pour tout
( i, j ) ∈ N2
α
P( X = i, Y = j ) = .
2 i+ j
1. Déterminer α
2. Donner les lois marginales de X et Y
3. X et Y sont-elles indépendantes ?
Chapitre

7 Exercices corrigés

Exercice 1 :La loi de la variable aléatoire X est donnée par le tableau suivant :
xi 1 2 3 4 5
P( X = x i ) 0.25 p2 0.18 p4 0.37
1. Déterminer les valeurs de p 2 et p 4 sachant que les événements ( X = 3) et ( X = 4) sont
équiprobables.

Puisque
0.25 + p 2 + 0.18 + p 4 + 0.37 = 1 p2 = p4
0.8 + 2 p 2 = 1 ⇒ p 2 = 0.1 = p 4
2. Déterminer la fonction de répartition de X .

On sait que
P( X = t).
X
F ( x) =
t≤ x
Par suite, on a


0 si x < 1

P( X = 1) = 0.25 si 1 ≤ x < 2




P( X = 1) + P( X = 2) = 0.35 si 2 ≤ x < 3

F ( x) =
P( X = 1) + P( X = 2) + P( X = 3) = 0.53 si 3 ≤ x < 4


P( X = 1) + P( X = 2) + P( X = 3) + P( X = 4) = 0.63 si 4 ≤ x < 5






P( X = 1) + P( X = 2) + P( X = 3) + P( X = 4) + P( X = 5) = 1 si x ≥ 5


0 si


x<1
0.25 si 1≤x<2






0.35 si 2≤x<3
F ( x) =


 0.53 si 3≤x<4

0.63 si 4≤x<5




1 si x≥5

29
30 CHAPITRE 7. EXERCICES CORRIGÉS
3. Calculer l’espérance et la variance de X .

L’espérance de X est

E( X ) = x P( X = x )
X
x ∈ X (Ω )

= 1 × 0.25 + 2 × 0.1 + 3 × 0.18 + 4 × 0.1 + 5 × 0.37


= 3.24

E( X 2 ) = x2 P( X = x)
X
x ∈ X (Ω )

= 12 × 0.25 + 22 × 0.1 + 32 × 0.18 + 42 × 0.1 + 52 × 0.37


= 13.12

La variance de X est

V ar ( X ) = E( X 2 ) − (E( X ))2
= 2.6224

Exercice 2 : Soit X une variable aléatoire continue dont la densité de probabilité est définie
par :
(
cx(2 − x) si 0 ≤ x ≤ 2
f X ( x) =
0 sinon

1. Déterminer c.


 f X ( x) ≥ 0 ∀ x ∈ R
Z +∞
fX est une densité ⇐⇒
 f X ( x) dx = 1
−∞

f X ( x) ≥ 0 ⇒ c ≥ 0

Z +∞ Z 2 4c 3
f X ( x) dx = c x(2 − x) dx = =1⇒c= .
−∞ 0 3 4

2. Déterminer la fonction de répartition de X


31
La fonction de répartition est donnée
Z x
F X ( x) = f X ( t) dt
−∞

R0
 si x ≤ 0
x 3 x
R
= 0 f X ( t) dt = 4 0 t(2 − t) dt si 0 ≤ x ≤ 2

1 si x ≥ 2



0 si x ≤ 0
3 x
= x2 (1 − ) si 0 ≤ x ≤ 2
4
 3
1 si x ≥ 2

p
3. Soit Y = X . Quelle est la fonction de répartition de Y ?

Soit y ∈ R

FY ( y) = P(Y ≤ y)
p
= P( X ≤ y)
(
0 si y < 0
=
P( X ≤ y2 ) = F X ( y2 ) si y ≥ 0

0 y ≤ 0 2


p
= 43 y4 (1 − y3 ) si 0 ≤ y ≤ 2


1 si y ≥ 2 p

Quelle est la densité de probabilité de Y ?

La densité de probabilité de Y est


( p
3 y3 − 32 y5 si 0 ≤ y ≤ 2
f Y ( y) =
0 sinon

Exercice 3 :
1. On a mélangé par inadvertance des graines de deux provenances différentes A et B.
On a ainsi un ensemble de graines dont 1/3 provient de A et 2/3 de B. La moitié des
graines de A et les trois quarts des graines de B sont noires. On choisit une graine au
hasard ; elle est noire. Quelle est la probabilité pour qu’elle provienne de A .

Soient les événements suivants


N =”la graine est noire”
A =”la graine provient de A ”
B =”la graine provient de B”
1 2 1 3
P( A ) = P(B) = P( N | A ) = P( N | B ) = .
3 3 2 4
32 CHAPITRE 7. EXERCICES CORRIGÉS
{ A, B} forme un système complet d’événements

D’après la formule de Bayes, on a


P( A )P( N | A )
P( A | N ) =
P( A )P( N | A ) + P(B)P( N | B)
On obtient
P( A | N ) = 0.25
2. Les anglais et les américains orthographient le mot rigueur, respectivement rigour
et rigor. Un homme ayant pris une chambre dans un hôtel a écrit ce mot sur un bout
de papier. Une lettre est prise au hasard dans ce mot, c’est une voyelle. Or 40% des
anglophones de l’hôtel sont des anglais et les 60% restants sont des américains.Quelle
est la probabilité que l’auteur du mot soit anglais ?

Soient les événements suivants


AN =”l’homme est anglais”
AM =”l’homme es américain”
V =”la lettre est une voyelle”
1 2
P( AN ) = 0.4 P( AM ) = 0.6 P(V | AN ) = P(V | AM ) = .
2 5
{ AN, AM } forme un système complet d’événements

D’après la formule de Bayes, on a


P( AN )P(V | AN )
P(V | AN ) =
P( AN )P(V | AN ) + P( AM )P(V | AM )
On obtient
P( A | N ) = 0.45
Exercice 4 : Soit A et B deux événements tels que
P( A ) = 0.5 P( A ∪ B) = 0.7

Calculer P(B) quand


1. les événements A et B sont incompatibles On sait que
P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)

Comme A et B sont incompatibles, on a


P( A ∩ B) = 0.

Par suite
P(B) = P( A ∪ B) − P( A ) = 0.7 − 0.5 = 0.2
2. les événements A et B sont indépendants
Les événements étant indépendants, on a
P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)
= P( A ) + P(B) − P( A )P(B)

P( A ∪ B) − P( A )
P( B ) = = 0.4
1 − P( A )
33
3. P( A | B) = 0.5

P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)
= P( A ) + P(B) − P(B)P( A | B)

P( A ∪ B) − P( A )
P( B ) = = 0.4
1 − P( A | B )

Exercice 5 : Soient deux machines M1 et M2 produisant respectivement 200 et 400 objets.


La machine M1 produit 5% d’objets défectueux, la machine M2 en produit 6%. On tire un
objet parmi les 600 objets fabriqués et il est défectueux. Quelle est la probabilité que cet
objet ait été fabriqué par la machine M2 ?

On note
M1 = ”la pièce est produite par la machine 1”
M2 = ”la pièce est produite par la machine 2”
D = ”la pièce est produite est défectueuse”
1
P( M 1 ) =
3
2
P( M 1 ) =
3
P(D | M1 ) = 0.05

P(D | M2 ) = 0.06

Comme { M1 , M2 } est un système complet d’évènements,la formule de Bayes implique

P( M2 )P(D | M2 )
P( M2 | D ) =
P( M2 )P(D | M2 ) + P( M1 )P(D | M1 )
= 0.71

Exercice 6 : Soit X une variable aléatoire dont la densité est donnée par
(
a(4 x − 2 x2 ) si 0 < x < 2
f ( x) =
0 sinon

1. Quelle est la valeur de a ?


Z +∞
f est une densité de probabilité ⇔ f ≥ 0 et f ( x) dx = 1.
−∞
On a
Z +∞ Z 2 8a 3
f ( x) dx = a (4 x − 2 x2 ) dx = ⇒a=
−∞ 0 3 8
34 CHAPITRE 7. EXERCICES CORRIGÉS
2. Déterminer la fonction de répartition de X .
(
3 2
8 (4 x − 2 x ) si 0 < x < 2
f ( x) =
0 sinon
La fonction de répartition est
F ( x) = P( X ≤ x)


0 si x ≤ 0
Z x 3

= (4 t − 2 t2 ) dt si 0 < x < 2


 0 8
1 si x ≥ 1



0 si x ≤ 0
3 2 x3


F ( x) = x − si 0 ≤ x ≤ 2


 4 4
1 si x ≥ 2

3. Calculer P( X > 1 | X < 32 )

3 P(1 < X < 32 )


P( X > 1 | X < )=
2 P( X < 32
F ( 23 ) − F (1)
=
F ( 23 )
11
=
27
4. Calculer l’espérance et la variance de X
L’espérance est
Z +∞
E( X ) = x f ( x) dx
−∞
3
Z 2
= (4 x2 − 2 x3 ) dx
8 0
=1

Le moment d’ordre 2 est


Z +∞
E( X 2 ) = x2 f ( x) dx
−∞
3
Z 2
= (4 x3 − 2 x4 ) dx
8 0
6
=
5
La variance est
var ( X ) = E( X 2 ) − (E( X ))2
1
var ( X ) =
5
Deuxième partie

ECUE 2 : Statistique
inférentielle

35
Chapitre

8 Modélisation statistique

On souhaite étudier X un caractère sur une population donnée. On supposera que le


caracère X est quantitatif.

8.1 Echantillonnage
Exemple 8.1.1. Une entreprise de l’industrie textile souhaite étudier le poids et la taille des
ivoiriens et ivoiriennes de plus de 18 ans (population) afin d’ajuster au mieux ses produits
à la morphologie de ses clients.
Pour mener à bien cette étude, l’entreprise a deux solutions : le recensement ou l’échan-
tillonnage.

Recensement : il consiste à mesurer le caractère X de facon exhaustive pour tous les


individus de la population. Le recensement n’est bien évidemment applicable que lorsque la
taille de la population étudiée est relativement faible.

Dans le cas où la taille de la population est grande, il faut recourir à l’échantillonnage.
L’échantillonnage se définit comme la méthode de construction d’un échantillon.

Echantillon : c’est un sous-ensemble de la population ; le nombre d’individus sélection-


nés dans l’échantillon correspond à la taille de l’échantillon, notée n ; on parle alors de
n-échantillon.

Quel est l’intérêt de constituer un échantillon ? L’idée est d’étudier le caractère pour les
individus sélectionnés dans l’échantillon afin d’en tirer de l’ information sur ce caractère
pour l’ensemble de la population. Par conséquent, d’un côté la taille n de l’échantillon doit
être suffisamment importante pour que l’on puisse obtenir une information fiable sur la po-
pulation, mais d’un autre côté elle doit être la plus petite possible afin de limiter le coût de
l’enquête.
Une question se pose alors : comment choisir les individus qui composent l’échantillon ?
On distingue deux grandes méthodes d’échantillonnage. La première repose sur un choix
déterministe des individus. On parle dans ce cas d’échantillon déterministe (ou certain) :
les individus de l’échantillon ne sont pas choisis au hasard. En pratique la méthode la plus
utilisée est celle de l’échantillonnage aléatoire.

36
8.2. MODÈLES STATISTIQUES 37
Echantillon aléatoire : c’est un échantillon dont les individus sont tirés au hasard parmi
la population. Le tirage de l’échantillon peut se faire avec remise (un même individu de la
population peut apparaı̂tre plusieurs fois dans l’échantillon) ou sans remise (chaque individu
de la population ne peut apparaı̂tre qu’une seule fois dans l’échantillon).
On considère deux situations différentes conduisant à un échantillon :
- la répétition d’une expérience aléatoire
Exemple 8.1.2. On lance n fois une pièce. On note
(
1 si le lancer i est pile
Xi =
0 si lancer i est face.

S’il s’agit de la même pièce et qu’on ne modifie pas la manière dont on lance, alors on
peut dire que les X i sont indépendantes et identiquement distribuées de loi commune
la loi de Bernoulli B (1, θ ). Le paramètre θ représente la probabilité du succès, c’est à
dire la probabilité d’obtenir pile.
- la considération d’un échantillon au sein d’une population
Exemple 8.1.3. Deux candidats Kouko et Yao sont en présence d’une élection. n
personnes sont tirées au hasard parmi les électeurs et interrogées sur leurs intentions
de vote. On note (
1 si l’individu i vote Kouko
Xi =
0 si l’individu i vote Yao.
Les valeurs observées sont considérées comme étant les réalisations de variables aléa-
toires X 1 , . . . , X n indépendantes et identiquement distribuées selon la distribution fi-
nale des voix, c’est à dire la loi de Bernoulli B (1, θ ). Le paramètre θ représente la
probabilité du succès, c’est à dire la probabilité de voter pour Kouko.

8.2 Modèles statistiques


Soit X une variable aléatoire réelle (discrète ou continue) dont la loi de probabilité Pθ
dépend d’un paramètre inconnu θ .

Définition
n 8.2.1. On
o appelle modèle statistique la donnée d’une famille de lois de proba-
bilité Pθ , θ ∈ Θ ⊂ R ; Θ est appelé espace des paramètre.
d

Définition 8.2.2. Un échantillon de X de taille n est un n-uplet ( X 1 , . . . , X n ) de variables


aléatoires indépendantes de même loi que X .

Remarque 8.2.1. Attention ! Il ne faut pas confondre l’échantillon aléatoire (collection de


variables aléatoires indiquées par une lettre majuscule) et la réalisation de cet échantillon
(notée avec des lettres minuscules) :

Echantillon : (X1, . . . , X n)

Réalisation : ( x1 , . . . , xn )

Définition 8.2.3. On appelle statistique toute variable aléatoire ne dépendant que de l’échan-
tillon ( X 1 , . . . , X n ).

Remarque 8.2.2. Une statistique est un résumé de l’échantillon.


38 CHAPITRE 8. MODÉLISATION STATISTIQUE
La statistique inférentielle a pour objectif d’avoir des informations sur le paramètre inconnu
θ en se basant sur l’échantillon ( X 1 , . . . , X n ). On part de l’échantillon pour avoir une meilleure
connaissance de la population.
Si X est une variable aléatoire réelle, alors on note :
— f ( x, θ ) si X est une variable aléatoire à densité
— f ( x, θ ) = Pθ ( X = x) si X est une variable aléatoire discrète.
n o
Exemple 8.2.1. 1. Modèle de Bernouilli : B (1, θ ), θ ∈ Θ =]0, 1[⊂ R :

f ( x, θ ) = Pθ ( X = x) = θ x (1 − θ )1− x 1{0,1} ( x).


n o
2. Modèle gaussien : N (µ, σ2 ), θ = (µ, σ2 ) ∈ Θ = R × R∗+ ⊂ R2 :

1 ³ 1 ´
f ( x, µ, σ2 ) = p exp − 2 ( x − µ)2 .
2πσ 2σ
n o
3. Modèle exponentiel : E (θ ), θ ∈ Θ = R∗+ ⊂ R :

f ( x, θ ) = θ e−θ x 1R+ ( x).


n o
4. Modèle de Poisson : P (θ ), θ ∈ Θ = R∗+ ⊂ R :

θx
f ( x, θ ) = e−θ 1N ( x).
x!
Définition 8.2.4. Le modèle statistique {Pθ , θ ∈ Θ} est identifiable lorsque l’application
θ 7−→ Pθ est injective.
Chapitre

9 Estimateurs

9.1 Principe général de l’estimation


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité Pθ où θ ∈ Θ ⊂ R est
inconnu. L’objectif est d’estimer θ en se basant sur l’échantillon ( X 1 , . . . , X n ).
Définition 9.1.1. Un estimateur θbn du paramètre θ est une statistique
θbn = T ( X 1 , . . . , X n )

à valeurs dans un domaine acceptable pour θ .


— Si ( x1 , . . . , xn ) est une observation de ( X 1 , . . . , X n ), T ( x1 , . . . , xn ) est appelée estimation
de θ .
— Il faut faire la distinction entre l’estimateur de θ (qui est une variable aléatoire réelle)
et l’estimation de θ qui est une grandeur numérique.
Bien évidemment, cette statistique T ( X 1 , . . . , X n ) n’est pas choisie au hasard ! L’idée est de
trouver une statistique de sorte à fournir une bonne estimation du paramètre d’intérêt θ .
Exemple 9.1.1. Supposons que les variables aléatoires ( X 1 , . . . , X n ) un échantillon issu d’une
loi de moyenne m et de variance σ2 .
• La moyenne empirique X n = n1 ni=1 X i est un ”bon” estimateur de la moyenne m. On
P

verra dans la suite ce qu’en entend par ”bon estimateur”.


1X n
• La variance empirique Vn2 = ( X i − X n )2 est un estimateur de la variance σ2 .
n i=1
La question est de savoir ce qu’est un ”bon estimateur”. Quelles propriétés doit satisfaire
un estimateur pour être considéré comme ”bon”? Nous devons distinguer deux cas suivant
la taille d’échantillon n :
• propriétés à distance finie (pour n fixé)
• propriétés asymptotiques (pour n → +∞).

9.1.1 Propriétés à distance finie


9.1.1.1 Echantillon gaussien
Théorème 9.1.1. On considère un échantillon issu d’une loi normale N (m, σ2 ) avec m ∈ R
et σ2 > 0. Alors, nous avons

39
40 CHAPITRE 9. ESTIMATEURS
1. X n et S 2n sont indépendantes.
2
2. X n ,→ N (m, σn ).
( n−1)S 2n
3. σ2
,→ χ2 ( n − 1).
p
n( X n − m)
4. Sn ,→ T ( n − 1)

9.1.1.2 Risque quadratique


On mesure la précision d’un estimateur par son risque quadratique.
Définition 9.1.2. Pour un estimateur θbn de θ , le risque quadratique est défini par

R (θbn , θ ) = Eθ (θbn − θ )2

Définition 9.1.3. Soient θbn et θen deux estimateurs de θ . On dit que θbn est préférable à θen
si
R (θbn , θ ) ≤ R (θen , θ ) ∀θ ∈ Θ ⇐⇒ R (θbn , θ ) − R (θen , θ ) ≤ 0 θ ∈ Θ.

Les deux estimateurs ne sont pas comparables si l’application θ 7→ R (θbn , θ ) − R (θen , θ ) change
de signe sur l’espace Θ.
Un estimateur optimal au sens du risque quadratique est l’estimateur qui a le plus petit
risque quadratique pour toute valeur de θ ∈ Θ. Il est souvent difficile, voire impossible, de
trouver un estimateur optimal.
Définition 9.1.4. Le biais d’un estimateur θbn de θ est défini par

b n (θ ) = Eθ (θbn ) − θ = Eθ (θbn − θ ).

Le biais de l’estimateur est la moyenne des écarts systématiques entre θbn et θ . L’absence
d’un écart systématique entre θbn et θ se traduit par un biais nul.
Définition 9.1.5. Un estimateur θbn de θ est dit sans biais lorsque pour tout θ ∈ Θ

Eθ (θbn ) = θ .

Dans le cas contraire, l’estimateur θbn est dit biaisé.

Exercice 9.1.1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et


de variance σ2 inconnues. Montrer que :
- X n est un estimateur sans biais de m.
Le biais de X n est donné par

b ( m) = E m ( X n ) − m
n
³1 X ´ 1X n
Em ( X n ) = Em Xi = Em ( X i )
n i=1 n i=1
Comme Em ( X 1 ) = . . . = Em ( X n ) = m alors nous pouvons ecrire
n
³1 X ´ 1X n 1X n nm
Em ( X n ) = Em Xi = Em ( X i ) = m= =m
n i=1 n i=1 n i=1 n

Finalement, nous obtenons

Em ( X n ) = m ⇐⇒ b( m) = Em ( X n ) − m = 0 ∀ m ∈ R.
9.1. PRINCIPE GÉNÉRAL DE L’ESTIMATION 41
1X n
- La variance empirique Vn2 = ( X i − X n )2 est un estimateur biaisé de σ2 . En déduire
n i=1
1 X n
que S 2n = ( X i − X n )2 est un estimateur sans biais de σ2
n − 1 i=1
n−1 2
Eσ2 (Vn2 ) = σ 6= σ2 .
n
Cependant
n−1 2
Eσ2 (Vn2 ) =
σ −→ σ2
n
n n−1 2 n ³ n ´
σ2 = σ = Eσ2 (Vn2 ) = Eσ2 Vn2 = Eσ2 (S 2n ).
n−1 n n−1 n−1

9.1.2 Propriétés asymptotiques


9.1.2.1 Convergence ou consistance

Définition 9.1.6. Un estimateur θbn de θ est dit asymptotiquement sans biais lorsque pour
tout θ ,
Eθ (θbn ) −−−−−→ θ .
n→+∞

Définition 9.1.7. θbn est un estimateur convergent (ou consistant) de θ si


P
θbn −−−−−→ θ lorsque n → +∞
n→+∞

c’est à dire ³¯ ¯ ´
∀ε > 0 lim P ¯θbn − θ ¯ ≥ ε = 0.
¯ ¯
n→+∞

Interprétation : La convergence est une des propriétés les plus importantes pour un es-
timateur. On a la garantie qu’à un rang n assez grand et avec grande probabilité, θbn soit
proche du paramètre θ .

Exercice 9.1.2. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et


1X n
variance σ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur convergent
n i=1
de m.
Solution 1. loi des grands nombres.
Solution 2. Inégalité de Bienaymé-Tchebythcev + Théorème des gendarmes. Pour tout
ε>0
³¯ ¯ ´ ³¯ ¯ ´ var ( X )
m n
0 ≤ Pm ¯ X n − m¯ > ε = Pm ¯ X n − Em ( X n )¯ > ε ≤
¯ ¯ ¯ ¯
ε2

Solution 3. Comme Em ( X n ) = m, il suffit de montrer que var m ( X n ) −→ 0 pour conclure.

9.1.2.2 Normalité asymptotique

Définition 9.1.8. Un estimateur θbn de θ est dit asymptotiquement normal si


p ¡ ¢ L
n θbn − θ −−−−−→ N (0, σ2θ ) n → +∞
n→+∞

où σ2θ est à déterminer.


42 CHAPITRE 9. ESTIMATEURS
Interprétation : La normalité asymptotique est une propriété plus précise qui indique que
la fluctuation de l’estimateur autour de θ est approximativement normale. Si
p L
n(Yn − y) −−−−−→ N (0, σ2y ),
n→+∞
p
quelle est la loi asymptotique de la variable aléatoire n( g(Yn ) − g( y)) ? C’est à dire,
p L
n( g(Yn ) − g( y)) −−−−−→ ?
n→+∞

Quelles sont les conditions sur la fonction g ? La méthode delta permet de répondre à ce
type de préoccupations.

Théorème 9.1.2. Si la suite de variables aléatoires (Yn ) est asymptotiquement normale,


telle qu’il existe y et σ2y avec
p L
n(Yn − y) −−−−−→ N (0, σ2y )
n→+∞

et si g est une fonction de classe C 1 alors g(Yn ) est asymptotiquement normal


p L 0
n( g(Yn ) − g( y)) −−−−−→ N (0, σ2y ( g ( y))2 ).
n→+∞

Exemple 9.1.2. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et


1X n
variance σ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur asymptoti-
n i=1
quement normal de m.
Solution. Le Théorème Central Limite permet de répondre à cette question.

Exemple 9.1.3. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et


n
³1 X ´2
2
variance σ2 > 0. Montrer la moyenne empirique X n = Xi est un estimateur asymp-
n i=1
totiquement normal de m2 .
Solution. Pour repondre à la question, on utlise la delta-method.
• D’après le Théorème Central Limite, nous avons
p L
n( X n − m) −−−−−→ N (0, σ2 )
n→+∞

• En posant g( x) = x2 , g0 ( x) = 2 x et g est classe C 1 sur Θ = R et on a


p 2 L
n( X n − m2 ) −−−−−→ N (0, σ2 × (2 m)2 ) = N (0, 4 m2 σ2 ).
n→+∞

C’est à dire p 2 L
n( X n − m2 ) −−−−−→ N (0, 4 m2 σ2 )
n→+∞

9.2 Methode du maximum de vraisemblance


La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est donnée par
n
Y
L n ( x1 , . . . , x n , θ ) = f ( x i , θ ).
i =1
9.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 43
Dans le cas d’une loi discrète
n
Pθ ( X i = x i ).
Y
L n ( x1 , . . . , xn , θ ) =
i =1

Pour un échantillon de taille 1


L 1 ( x, θ ) = Pθ ( X 1 = x).

Principe de la méthode : Choisir comme estimateur la statistique θbn , la valeur de θ qui


maximise la vraisemblance L n ( X 1 , . . . , X n , θ ) :

Définition 9.2.1. θbn est un estimateur du maximum de vraisemblance de θ si

∀θ ∈ Θ L n ( X 1 , . . . , X n , θbn ) ≥ L n ( X 1 , . . . , X n , θ ).

La recherche d’un maximum de la vraisemblance n’est pas forcément réduite à un simple


calcul des zéros de la dérivée de L. Cependant, ce cas étant le plus fréquent, il est logique
de poser les deux hypothèses suivantes :
— le support X (Ω) ne dépend pas de θ .
— la vraisemblance L est deux fois continûment dérivable par rapport θ .
Alors θbn est solution du système :

∂L n ( X 1 , . . . , X n , θ )

 (θ̂n ) = 0
∂θ






2
 ∂ L n ( X 1 , . . . , X n , θ ) (θ̂n ) < 0.




∂θ 2

Puisque la fonction logarithme est croissante, vu la forme de L, il est aussi aisé d’utiliser
le logarithme de la vraisemblance si f ( x, θ ) > 0, ∀ x ∈ X (Ω), ∀θ . Un estimateur du maximum
de vraisemblance maximise le logarithme de la vraisemblance L n ( X 1 , . . . , X n , θ ) :
n
X
ln(L n ( X 1 , . . . , X n , θ )) = ln( f ( X i , θ ).
i =1

Un estimateur du maximum de vraisemblance θ̂n est alors solution du système

∂ ln(L n ( X 1 , . . . , X n , θ ))

 (θ̂n ) = 0
∂θ






2
 ∂ ln(L n ( X 1 , . . . , X n , θ )) (θ̂n ) < 0.




∂θ 2

Exemple 9.2.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, θ ) avec
θ ∈]0, 1[. La vraisemblance de ( x1 , . . . , xn ) issu d’une loi de Bernouilli est :

n
θ x i (1 − θ )1− x i 1{0,1} ( x i )
Y
L( x1 , . . . , xn , θ ) =
i =1
³ θ ´Pn x i
= (1 − θ )n
i =1
1{0,1}n ( x1 , . . . , xn ).
1−θ
44 CHAPITRE 9. ESTIMATEURS
n
Pour tout ( x1 , . . . , xn ) ∈ {0, 1} , la log-vraisemblance est donnée
n
X n
X
ln L( x1 , . . . , xn , θ ) = x i ln(θ ) + ( n − x i ) ln(1 − θ )
i =1 i =1
Pn Pn
∂ ln L( x1 , . . . , xn , θ ) n
i =1 x i n− i =1 x i 1X
= − = 0 ⇐⇒ θ = xi = xn
∂θ θ (1 − θ ) n i=1
2
∂ ln L( x1 , . . . , xn , θ ) − nx n n − nx n
(xn ) = − < 0.
∂θ 2 x2n (1 − x n )2

L’estimateur du maximum de vraisemblance de θ est donné par

θ̂n = X n .

Etude des propriétés de θ̂n .

1. D’après la loi des grands nombres, X n est un estimateur convergent de θ .


2. D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n − θ ) −−−−−→ N (0, θ (1 − θ )).
n→+∞

3. X n est un estimateur efficace de θ .

Exemple 9.2.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle de paramètre


θ > 0. La vraisemblance de ( x1 , . . . , xn ) est
n
Y
L( x1 , . . . , xn , θ ) = θ exp(−θ x i )1IR∗+ ( x i )
i =1
³ n ´
= θ n exp − θ
X
x i 1(R∗+ )n ( x1 , . . . , xn ).
i =1

Pour tout ( x1 , . . . , xn ) ∈ (R∗+ )n , on a


n
X
ln(L( x1 , . . . , xn , θ )) = n ln(θ ) − θ xi
i =1

∂ ln L( x1 , . . . , xn , θ ) n Xn 1
= − x i = 0 ⇐⇒ θ =
∂θ θ i=1 xn
∂2 ln L( x1 , . . . , xn , θ ) ³ 1 ´
= − nx2n < 0.
∂θ 2 xn

L’estimateur du maximum de vraisemblance de θ est donné par

1
θ̂n = .
Xn

Pour montrer que θ̂n est biaisé (ou sans biais), il faut calculer

1 n 1
µ ¶ µ ¶ µ ¶
E = E Pn = n × E Pn
Xn i =1 X i i =1 X i
9.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 45
Comme les variables X i sont indépendantes et de même loi E (θ ) = Γ(1, θ ), on en déduit que
n
Γ( n, θ ).
X
Xi
i =1

Si X Γ(a, θ ), Y Γ( b, θ ) et X et Y sont indépendantes alors

X +Y Γ(a + b, θ )

n
X
Posons Z = X i , nous avons
i =1

θn
Z Γ( n, θ ) ⇐⇒ f Z ( z, θ ) = z n−1 e−θ z 1R+∗ ( z)
Γ( n)
Finalement
1 n
µ ¶ µ ¶
E = E Pn
Xn i =1 X i
1
µ ¶
= n × E Pn
i =1 X i
µ ¶
1 n
= n×E
X
Z= Xi
Z i −1
Z +∞
1
= f Z ( z, θ ) dz
−∞ z
θn +∞
Z
= z n−2 e−θ z dz
Γ( n) 0
θn
Z +∞
= z(n−1)−1 e−θ z dz
Γ( n) 0
θn Γ( n − 1)
= ×
Γ( n) θ n−1

Utiliser la formule suivante :

Γ(a) +∞
Z
= xa−1 e−ρ x dx
ρa 0
Γ( n) = ( n − 1)Γ( n − 1) n entier ≥ 1
Z +∞
Γ(a) = xa−1 e− x dx.
0

Après les calculs, on obtiendra


1 n
µ ¶
E = θ 6= θ .
Xn n−1

Etude des propriétés de θ̂n .


1. D’après la loi des grands nombres, on a :
P 1
X n −−−−−→ .
n→+∞ θ
46 CHAPITRE 9. ESTIMATEURS
1
Comme, l’application x 7→ x est continue sur R∗+ , alors

1 P
−−−−−→ θ .
Xn n→+∞

2. D’après le Théorème Central limite X n est asymptotiquement normal :


p ³ 1´ L ³ 1´
n Xn − −−−−−→ N 0, 2 .
θ n→+∞ θ
1 0
Comme, l’application g : x 7→ x est dérivable sur R∗+ et g ( x) = − x12 , on obtient par la
delta-méthode :
p L
³ 1 0 ´
n( g( X n ) − g(1/θ )) −−−−−→ N 0, 2 ( g (1/θ ))2 .
n→+∞ θ
c’est à dire
p ³ 1 ´
L
n − θ −−−−−→ N (0, θ 2 ).
Xn n→+∞

3. θ̂n est un estimateur biaisé de θ . Il ne peut donc pas être efficace.

9.3 Méthode des moments


Principe de la méthode :
— Trouver des fonctions g et q telles que

E( g( X 1 ) = q(θ ). (9.3.1)

Il faudrait choisir de préférence q bijective.


— Remplacer dans (9.3.1), la moyenne théorique par la moyenne empirique :

1X n
g ( X i ) = q (θ ) (9.3.2)
n i=1

— Résoudre (9.3.2) ; si q est bijective alors l’estimateur par la méthode des moments
est donné par :
n
³1 X ´
θbn = q−1 g( X i ) .
n i=1

Exemple 9.3.1. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, θ )


avec θ ∈]0, 1[.
1. Etape 1 : Eθ ( X 1 ) = θ ; g( X 1 ) = X 1 et q(θ ) = θ .
2. Etape 2 : X n = θ .
3. Etape 3 : On conclut que l’estimateur est θbn = X n
Exemple 9.3.2. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (θ ) avec
θ > 0.
1. Etape 1 : Eθ ( X 1 ) = θ1 ; g( X 1 ) = X 1 et q(θ ) = θ1 . est bijective.
2. Etape 2 : X n = θ1 .
1
3. Etape 3 : On conclut que l’estimateur est θbn =
Xn

Exemple 9.3.3. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (θ ) avec


θ > 0.
9.3. MÉTHODE DES MOMENTS 47
1. Etape 1 :
1 1
Eθ ( X 12 ) = var θ ( X 1 ) + (E θ ( X 1 ))2 = + 2
θ 2 θ
g( x) = x2 et q(θ ) = θ22 est bijective.
2. Etape 2 : n1 ni=1 X i2 = θ22 .
P

3. Etape 3 : s
2
θ= 1 Pn 2
n i =1 X i

On conclut que l’estimateur est


s
2
θbn = 1 Pn 2
n i =1 X i

Exercice 9.3.1. Pendant une année, un assureur a enregistré les montants de sinistres
suivants
{500, 1000, 1500, 2500, 4500}.
Il décide de modéliser ces données par une loi Log-normale(µ, σ2 ). En utilisant la méthode
des moments, estimer les paramètres µ et σ2 . Calculer ensuite la probabilité d’avoir un si-
nistre supérieur à 4 500.

Les montants sont en milliers de francs.


Exercice 9.3.2. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi uniforme sur [θ , 1].
Déterminer par la méthode des moments l’estimateur de θ . Etudier ses propriétés.
Exercice 9.3.3. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi gamma Γ(2, ρ ) avec
ρ inconnu. Déterminer par la méthode des moments l’estimateur de ρ . Etudier ses propriétés.
Chapitre

Estimation par intervalle de


10 confiance

En estimation ponctuelle, on ne propose qu’une seule valeur pour le paramètre d’intérêt.


Il n’y a quasiment aucune chance que cette valeur soit la vraie valeur. L’objectif de ce
chapitre est de proposer une fourchette de valeurs possibles, tout un intervalle, ni trop gros,
pour qu’il soit assez informatif, ni trop petit, pour qu’on soit raisonnablement sûr qu’il
contienne la vraie valeur.

10.1 Introduction
Définition 10.1.1. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le paramètre θ de
niveau de confiance égale à 1 − α, un intervalle aléatoire I ( X 1 , . . . , X n ) ⊂ Θ tel que

Pθ ( I ( X 1 , . . . , X n ) 3 θ ) = 1 − α.

Définition 10.1.2. On dira que un intervalle aléatoire I ( X 1 , . . . , X n ) est un intervalle de


confiance pour le paramètre θ de niveau de confiance asymptotique égale à 1 − α si

lim Pθ ( I ( X 1 , . . . , X n ) 3 θ ) = 1 − α.
n→+∞

Lorsque
I ( X 1 , . . . , X n ) = [T n∗ ( X 1 , . . . , X n ), T n∗∗ ( X 1 , . . . , X n )]

où T n∗ ( X 1 , . . . , X n ) et T n∗∗ ( X 1 , . . . , X n ) sont des statistiques à valeurs dans Θ, on parle d’inter-


valle de confiance bilatéral. Dans le cas où

I ( X 1 , . . . , X n ) = [T n∗ ( X 1 , . . . , X n ), +∞[

ou
I ( X 1 , . . . , X n ) =] − ∞, T n∗ ( X 1 , . . . , X n )],

on parle d’intervalle de confiance unilatéral.

Remarque 10.1.1. Dans l’univers des échantillons possibles, pour une proportion au moins
1 − α d’entre eux, on obtient un intervalle qui contient θ .

Remarque 10.1.2. A α fixé, l’intervalle de confiance est d’autant meilleur que sa longueur
est petite.

48
10.2. CONSTRUCTION D’UN INTERVALLE DE CONFIANCE 49
Remarque 10.1.3. On doit comprendre un intervalle de confiance de niveau 1 − α comme
un intervalle aléatoire qui a une probabilité 1 − α de contenir le vrai parametre θ .
Définition 10.1.3. Soit X une variable aléatoire réelle de fonction de répartition F ( x) =
P( X ≤ x). Pour α ∈]0, 1[, on appelle quantile (ou fractile) d’ordre α de la loi de X le nombre

q α = inf { x ∈ R, F ( x) ≥ α} .

Lorsque la fonction de répartition F est continue et strictement croissante, elle est inversible
d’inverse F −1 et pour tout α ∈]0, 1[, on a qα = F −1 (α).

10.2 Construction d’un intervalle de confiance


1. Construction de la fonction pivot (ou pivotale)
2. Détermination des constantes
3. Pivotement

10.2.1 Fonction pivotale


Définition 10.2.1. On appelle fonction pivotale pour θ toute fonction de l’échantillon et
de θ , φ( X 1 , . . . , X n , θ ) dont la loi ne dépend pas de θ .
Définition 10.2.2. Une fonction asymptotiquement pivotale pour θ est une variable aléa-
toire, φ( X 1 , . . . , X n , θ ) qui converge en loi vers une variable aléatoire dont la loi ne dépend
pas de θ .

10.3 Intervalle de confiance pour la moyenne d’une loi


normale
Considérons un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (µ, σ2 ) avec θ = (µ, σ2 ).

Si X ,→ N (µ, σ2 ) alors
X −µ
,→ N (0, 1)
σ

1. σ2 connue et estimation de µ. Nous savons que X n est un estimateur efficace de


µ. De plus
p
σ2 n ( X n − µ) X n − µ
µ ¶
X n ,→ N µ, ⇔ = p ,→ N (0, 1).
n σ σ/ n
p
n ( X n − µ)
Par suite est une fonction pivot. Ainsi, nous obtenons
σ
à p !
n ( X n − µ)
P − z1− α ≤ ≤ z1− α = 1 − α
2 σ 2

soit µ σ z1− α σ z1− α ¶


P Xn − p 2 ≤ µ ≤ Xn + p 2 = 1−α
n n
i.e.
50 CHAPITRE 10. ESTIMATION PAR INTERVALLE DE CONFIANCE
L’intervalle de confiance de niveau 1 − α de la moyenne µ lorsque σ2 est connue est

σ σ
· ¸
Xn − z1− α p , Xn + z1− α p
2 n 2 n

où z1− α2 est le quantile d’ordre 1 − α2 de la loi normale centrée réduite N (0, 1)

Remarque 10.3.1. On appelle marge d’erreur la quantité


σ
ME = z1− α p .
2 n

Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
σ
|µ − X̄ n | ≤ z1− α p ≤ ε
2 n

c’est à dire
σ2 z12− α
2
n≥ .
ε2
2. σ2 inconnue et estimation de µ. Nous avons le résultat suivant
p ³ ´
n Xn −µ 1 X n
,→ T ( n − 1) avec S2 = ( X i − X n )2 .
S n − 1 i=1

Cette variable aléatoire est une fonction pivotale pour µ. De plus la densité de la loi
de Student vérifie les hypothèses de la Proposition ??. Ainsi,
 p ³ ´ 
n Xn −µ
P − t 1− α ≤ ≤ t 1− α  = 1 − α
2 S 2

où t1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté. Il


s’ensuit que
S S
µ ¶
P X n − t 1− α p ≤ µ ≤ X n + t 1− α p = 1 − α.
2 n 2 n

L’intervalle de confiance pour µ de niveau 1 − α lorsque σ2 est inconnue est


h S S i
X n − t 1− α p , X n + t 1− α p
2 n 2 n

où z1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté T (n − 1)


S
Nous remarquons que |µ − X̄ n | ≤ t1− α2 p .
n
Remarque 10.3.2. On appelle marge d’erreur la quantité
S
ME = t 1− α p .
2 n
10.3. INTERVALLE DE CONFIANCE POUR LA MOYENNE D’UNE LOI NORMALE51
Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
S
|µ − X̄ n | ≤ t 1− α p ≤ ε
2 n

c’est à dire
S 2 t21− α
2
n≥ .
ε2

10.3.1 Intervalle de confiance pour une proportion


On considère un échantillon ( X 1 , . . . , X n ) issu de la loi de Bernouilli B (1, p), p ∈]0, 1[. La
fonction Pivotale que nous considérons est :
p
n( X n − p ) L
q −−−−−→ N (0, 1).
n→+∞
X n (1 − X n )

Pour n assez grand ( n > 30),


p
h n( X n − p ) i
P − z1− α ≤ q ≤ z1− α
2 2
X n (1 − X n )
s s
h X n (1 − X n ) X n (1 − X n ) i
= P X n − z1− α ≤ p ≤ X n + z1− α
2 n 2 n
= 1 − α.

où z1− α2 est quantile d’ordre 1 − α2 de la loi normale centrée-réduite.

L’intervalle de confiance pour la proportion p de niveau de confiance 1 − α est :


s s
h X n (1 − X n ) X n (1 − X n ) i
X n − z1− α , X n + z1− α
2 n 2 n

La marge d’erreur est donc


s
X n (1 − X n ) 1
ME = z1− α ≤ z1− α p
2 n 2 2 n

car pour tout x ∈ [0, 1], on a


1
p
x(1 − x) ≤ .
2
Pour déterminer la taille n telle que ME ≤ ε, il suffit donc de résoudre
1
z1− α p ≤ ε.
2 2 n

Ce qui nous donne alors


³ z1− α ´2
2
n≥ .

Chapitre

Généralités sur les tests d’hypo-


11 thèses

11.1 Principe des tests


On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi Pθ avec θ ∈ Θ. Soient Θ0 et Θ1
deux sous-ensembles de Θ tels que Θ = Θ0 ∪ Θ1 et Θ0 ∩ Θ1 = ;. Soientles hypothèses :
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
L’hypothèse H0 est appelée hypothèse nulle et H1 , hypothèse alternative. Une hypothèse
est dite simple si elle est réduite à un singléton. Les deux hypothèses sont telles que une et
une seule est vraie.
Un test statistique est un mécanisme qui permet de trancher entre deux hypothèses à
partir des résultats d’un échantillon. La décision consiste à choisir H0 ou H1 . Il y a quatre
cas qui sont reproduits dans le tableau ci-dessous
H0 vraie H1 vraie
H0 décidée Bonne décision Erreur de deuxième espèce
H1 décidée Erreur de première espèce Bonne décision
Définition 11.1.1. On appelle région critique la région d’acceptation de l’hypothèse alter-
native H1 : n o
W = ( X 1 , . . . , X n ) : ψ( X 1 , . . . , X n ) = 1 .

Un test est déterminé par sa région critique W . La région critique dépend du niveau α
et d’une statistique appelée variable de décision. Pour la déterminer, il est indispensable de
connaı̂tre la loi de la variable de décision sous l’hypothèse H0 . Lorsque ( x1 , . . . , xn ) sont des
valeurs observées de cet échantillon,
- si ( x1 , . . . , xn ) ∈ W , alors on rejette H0 et on accepte H1 ;
- si ( x1 , . . . , xn ) 6∈ W , alors on accepte H0 et on rejette H1 .
Définition 11.1.2. On appelle erreur de première espèce le rejet de H0 à tort. Cette erreur
est mesurée par le risque de premir̀e espèce :
θ ∈ Θ0 7→ Pθ (W ).

On appelle erreur de seconde espèce le rejet de H1 à tort. Cette erreur est mesurée par le
risque de seconde espèce :
θ ∈ Θ1 7→ Pθ (W ).

52
11.2. ETAPES DES TESTS 53
Définition 11.1.3. On appelle niveau du test de région critique W , la quantité :

α = sup Pθ (W ).
θ ∈Θ0

Parmi les tests de niveau α fixé, on souhaite minimiser le risque de seconde espèce.
Remarque 11.1.1. Lors d’un test, on minimise en priorité le risque de première espèce,
aussi les rôles de H0 et H1 ne sont pas symétriques. On choisit comme hypothèse nulle
l’ensemble que l’on ne souhaite surtout pas voir rejeté è tort : hypothèse à laquelle on tient,
hypothèse de prudence, hypothèse solidement établie etc. Par exemple, dans le test de dépis-
tage d’une maladie, on souhaite surtout éviter de dire à une personne qu’elle est en bonne
santé alors qu’elle est en fait malade. On choisit comme hypothèse nulle le fait d’être malade.
Dans le cas du réchauffement climatique, un homme politique qui veut éviter de prendre des
mesures si le réchauffement n’est pas avéré choisira comme hypothèse nulle ”il n’y a pas
réchauffement”. Un écologiste choisira plutôt ”il y a réchauffement”.

11.2 Etapes des tests


1. Etape préliminaire : modélisation du problème.
2. Formulation des hypothèses H0 et H1 .
3. Choix du seuil du test α.
4. Calcul de la région critique.
5. Conclusion statistique : conservation ou rejet de l’hypothèe de départ H0 et commen-
taire éventuel sur la p-valeur.
6. Conclusion stratégique : décision que l’on va prendre une fois éclairé par le résultat
statistique.

11.3 La règle de la p-value


En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner
un seuil critique de α∗ appelée p-value, qui est telle que
- si α∗ < α, on rejette H0
- si α < α∗ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont difficiles à obtenir sans
moyen de calcul approprié.
Chapitre

12 Tests de Student : un échantillon

12.1 Introduction
On appelle test de Student un test de comparaison de la moyenne dans un échantillon
gaussien, c’est à dire un échantillon ( X 1 , . . . , X n ) issu de la loi normale N (m, σ2 ). Soit m 0
une valeur possible de m. La moyenne empirique X n est un estimateur efficace de m.
Deux résultats importants :

p ³ ´
µ
σ 2¶ n Xn −m
X n ,→ N m, ⇐⇒ ,→ N (0, 1).
n σ

p ³ ´
n Xn −m
,→ T ( n − 1)
Sn
qui est la loi de Student à n − 1 dégrés de liberté avec
à !1/2
1 X n
Sn = ( X i − X n )2 .
n − 1 i=1

12.2 H0 : m ≤ m 0 contre H1 : m > m 0

12.2.1 On suppose que la variance σ2 est connue.


Sous l’hypothèse H0 ,
p ³ ´
µ
σ 2¶ n X n − m0
X n ,→ N m 0 , ⇐⇒ ,→ N (0, 1).
n σ

Ce qui implique alors


p ³ ´
p

n X n − m0 nl α
Pm0  >  = α.
σ σ

54
12.2. H0 : M ≤ M0 CONTRE H1 : M > M0 55
Ainsi, on en déduit que p
nl α σ
= q 1−α ⇔ l α = p q 1−α
σ n
où q1−α est le quantile d’ordre 1 − α de N (0, 1).

La région critique au niveau α du test H0 : m ≤ m 0 contre H1 : m > m 0 lorsque σ2 est connue


est
σ
½ ¾
W = X n − m 0 > p q 1−α
n
p ³
½ n X −m
´
n 0
¾
= > q 1−α (12.2.1)
σ

où q1−α est le quantile d’ordre 1 − α de la loi normale centrée-réduite.


p ³ ´
n X n −m0
Remarque 12.2.1. La statistique σ
est appelée variable de décision.

Remarque 12.2.2. On accepte H1 au niveau α lorsque la différence X n − m 0 est significa-


σ
tive, c’est à dire strictement supérieure à p q1−α .
n
Exercice 12.2.1. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On effectue un contrôle de qualité sur un
échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5 462.0
391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi normale
N ( m, σ2 ).
1. Ecrire le modèle et les hypothèses du test qu’on veut faire.
2. On admet dans un premier temps (au vu de contrôles antérieurs) que σ = 24. Que
peut-on conclureau niveau α = 0.05 ?
Solution 12.2.1. 1. — Soit X i la teneur en cacao en g/ k g de la tablette i . La va-
riable aléatoire X i suit une loi normale N ( m, σ2 ). On dispose d’un échantillon
( X 1 , . . . , X 10 ) issu d’une loi normale
½ N ( m, σ2 ). ¾
— Le modèle statistique est donc N (m, σ2 ) : (m, σ2 ) ∈ R × R∗+
— H0 : m ≤ 430 contre H1 : m > 430.
2. Au niveau α = 0.05, la région critique du test est :
p ³ ´
½ 10 X − 430
10
¾
W= > q 0.95
24

où q0.95 = 1.644 est le quantile d’ordre 0.95 de la loi normale centrée-réduite. Par
suite, nous obtenons :
p ³ ´
½ 10 X − 430
10
¾
W= > 1.644
24

Puisque
1
x10 = (505.1+423.5+462.0+391.9+412.1+487.2+439.0+434.1+441.1+474.2) = 447.02
10
56 CHAPITRE 12. TESTS DE STUDENT : UN ÉCHANTILLON
et p
10 (447.02 − 430)
= 2.243 > 1.644,
24
on accepte H1 au niveau α = 0.05. Ainsi, on peut conclure que les tablettes de cette
marque contiennent une teneur en cacao supérieure à 430 g par k g.

12.2.2 On suppose σ2 est inconnue


Nous allons remplacer dans (12.2.1), σ par par l’écart-type empirique modifié S n . La
variable de décision est donc :
p ³ ´
n X n − m0
.
Sn

La région critique au niveau α du test H0 : m ≤ m 0 contre H1 : m > m 0 lorsque σ2 est inconnue


est
½ pn X − m
³ ´
n 0
¾
W= > t 1−α,n−1
Sn

où t1−α,n−1 est le quantile d’ordre 1 − α de la loi de Student à n − 1 degrés de liberté T (n − 1).

Exercice 12.2.2. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On effectue un contrôle de qualité sur un
échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5 462.0
391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi normale
N ( m, σ2 ). Que peut-on conclure au niveau α = 0.05 ?

Solution 12.2.2. Au niveau α = 0.05, nous voulons tester H0 : m ≤ 430 contre H1 : m > 430.
La région critique du test est :
p ³ ´
½ 10 X − 430
10
¾
W= > t 0.95,9
S 10

où t0.95,9 = 1.833 est le quantile d’ordre 0.95 de la loi de Student à 9 degrés de liberté. Par
suite, nous obtenons :
p ³ ´
½ 10 X − 430
10
¾
W= > 1.833
35

Puisque
1
x10 = (505.1 + 423.5 + 462.0 + 391.9 + 412.1 + 487.2 + 439.0 + 434.1 + 441.1 + 474.2) = 447.02
10
et p
10 (447.02 − 430)
= 1.5378 < 1.833,
35
on rejette H1 au niveau α = 0.05. Ainsi, on peut conclure que les tablettes de cette marque
ne contiennent pas une teneur en cacao supérieure à 430 g par k g.
12.3. H0 : M ≥ M0 CONTRE H1 : M < M0 57

12.3 H0 : m ≥ m 0 contre H1 : m < m 0


12.3.1 On suppose que la variance σ2 est connue.

La région critique au niveau α du test H0 : m ≥ m 0 contre H1 : m < m 0 lorsque σ2 est connue


est
σ
½ ¾
W = X n < m0 + p qα
n
½ pn X − m
³ ´
n 0
¾
= < qα (12.3.1)
σ

où qα est le quantile d’ordre α de la loi normale centrée-réduite.

Exercice 12.3.1. Le département de contrôle de la qualité d’une entreprise détermine que


le poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement avec un écart-type
de 15 g. Un échantillon de 15 boı̂tes prélevé aléatoirement sur la ligne de production donne
un poids moyen de 195 g. Cela est-il suffisant pour pouvoir affirmer que le poids moyen des
boı̂tes est inférieur à 200 g ?

Solution 12.3.1. 1. Tester H0 : m ≥ 200 contre H1 : m < 200 au niveau α = 0.05


2. Au niveau α = 0.05, la région critique du test est

15
½ ¾
W = X 15 < 200 + p q 0.05
15

où q0.05 = − q0.95 = −1.644 est le quantile d’ordre 0.05 de la loi normale centrée-
15
réduite. 200 − p ∗ 1.64 = 193.65
15
3. Puisque 195 > 193.65, on accepte H0 . Même si x̄ < 200 g, il n’y a pas d’éléments
significatifs indiquant que le poids moyen des boites est inférieure à 200 g.

12.3.2 On suppose que la variance σ2 est inconnue.

La région critique au niveau α du test H0 : m ≥ m 0 contre H1 : m < m 0 lorsque σ2 est inconnue


est
½ pn X − m
³ ´
n 0
¾
W= < t α,n−1 (12.3.2)
Sn

où tα,n−1 est le quantile d’ordre α de la loi de Student à n − 1 degrés de liberté T (n − 1).

Exercice 12.3.2. Le département de contrôle de la qualité d’une entreprise détermine que


le poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement. Un échantillon de
15 boı̂tes prélevé aléatoirement sur la ligne de production donne un poids moyen de 195 g
avec un écart-type estimé égal à 15 kg.. Cela est-il suffisant pour pouvoir affirmer que le
poids moyen des boı̂tes est inférieur à 200 g ?
58 CHAPITRE 12. TESTS DE STUDENT : UN ÉCHANTILLON
Solution 12.3.2. 1. Tester H0 : m ≥ 200 contre H1 : m < 200 au niveau α = 0.05
2. Au niveau α = 0.05, la région critique du test est
p ³ ´
½ 15 X − 200
15
¾
W= < t 0.05,14
S 15

où t0.05,14 = −1.761 est le quantile d’ordre 0.05 de la loi de Student à 14 degrés de
liberté (T (14)).
p
3. Puisque 15(195 15
−200)
= −1.291 > −1.761, on accepte H0 .Au niveau α = 0.05, il n’y a
pas d’éléments significatifs indiquant que le poids moyen des boites est inférieure à
200 g.

12.4 H0 : m = m 0 contre H1 : m 6= m 0

La région critique au niveau α du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque σ2 est connue


est
½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯>q α
1− 2 (12.4.1)
σ ¯

où q1− α2 est le quantile d’ordre 1 − α2 de la loi normale centrée-réduite.

Exercice 12.4.1. Une entreprise de vente par correspondance demande un montant fixe
pour les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques
années a montré que le poids moyen d’un colis était de 17.5 kg avec un écart-type de 3.6
kg. La comptabilité soupçonne que le poids moyen est maintenant différent de 17.5 kg. Un
échantillon aléatoire de 100 colis est prélevé et fournit un poids moyen de x̄ = 18.4 kg. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau α = 0.05

Solution 12.4.1. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5


au niveau α = 0.05.
2. Au niveau α = 0.05, la région critique du test est

½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯ > q 0.975
σ ¯
σ σ
½ ¾ ½ ¾
= X n < m 0 − p q 0.975 ∪ X n > m 0 + p q 0.975
n n

où q0.975 = 1.96 est le quantile d’ordre 0.975 de la loi normale centrée-réduite.

σ 3.6
m 0 + p q 1− α = 17.5 + p ∗ 1.96 = 18.2056
n 2
100
σ 3.6
m 0 − p q 1− α = 17.5 − p ∗ 1.96 = 16.7944
n 2
100

3. Puisque x̄ > 18.2056, on rejette H0 i.e le poids moyen des colis a changé.
12.4. H0 : M = M0 CONTRE H1 : M 6= M0 59
2
12.4.1 On suppose que la variance σ est inconnue.

La région critique au niveau α du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque σ2 est inconnue


est
½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯>t α
1− 2 ,n−1 (12.4.2)
Sn ¯

où t1− α2 ,n−1 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté T (n − 1).

Exercice 12.4.2. Une entreprise de vente par correspondance demande un montant fixe
pour les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques
années a montré que le poids moyen d’un colis était de 17.5 kg. La comptabilité soupçonne
que le poids moyen est maintenant différent de 17.5 kg. Un échantillon aléatoire de 100 colis
est prélevé et fournit un poids moyen de x̄ = 18.4 kg avec un écat-type estimé égal à 3.6. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau α = 0.05

Solution 12.4.2. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5


au niveau α = 0.05.
2. Au niveau α = 0.05, la région critique du test est :
p ³ ´
½¯ 100 X
100 − 17.5 ¯
¯ ¾
¯
W = ¯¯ ¯ > t 0.975,99
S 100 ¯

où t0.975,100 = 1.9842 est le quantile d’ordre 0.975 de la loi de Student à 99 degrés de
liberté T (99).
p
100 (18.4 − 17.5)
3. Puisque = 2.5 > 1.9842, on rejette H0 i.e le poids moyen des colis
3.6
a changé.
Chapitre

Tests de Student : deux échan-


13 tillons

13.1 Introduction
Soient P1 et P2 deux populations. On étudie un caractère (rendement, chiffre d’affaire,
seuil de perception, etc.) sur ces deux populations. Le caractère a pour espérance m 1 et
pour variance σ21 dans la population P1 et a pour espérance m 2 et pour variance σ22 dans
la population P2 . Pour des raisons techniques, on supposera que le caractère est distribué
selon une loi normale. On dispose alors de deux échantillons ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) issus
respectivement de P1 et P2 , tels que X i et Y j sont indépendantes :
- ( X 1 , . . . , X n1 ) est issu de N (m 1 , σ21 )
- (Y1 , . . . , Yn2 ) est issu de N ( m 2 , σ22 ).
Dans cette section, on comparera les moyennes et les variances des deux échantillons. Les
moyennes empiriques, variances empiriques modifiées des deux échantillons sont notées res-
pectivement X n1 , S12 , Y n2 et S22 .

Exemple 13.1.1. Deux groupes d’étudiants de tailles respectives n1 = 25 et n2 = 31 ont


suivi le même cours de statistique et passe le même examen. Les moyennes et écarts-types
empiriques des notes obtenues dans les deux groupes sont respectivement :

moyenne Variance S 2
Groupe 1 12.8 3.4
Groupe 2 11.3 2.9

On suppose que les notes sont reparties dans les deux groupes selon des lois normales et
qu’elles sont toutes independantes. Peut-on considérer que le premier groupe est meilleur que
le deuxième, c’est-à-dire qu’un point et demi d’écart entre les moyennes est significatif d’une
différence de niveau ? La procédure à suivre consiste à tester d’abord l’égalité des variances,
puis l’égalité des moyennes.

Exemple 13.1.2. Deux variétés de blé ont été cultivées chacune sur 8 parcelles (n1 = n2 = 8).
Les rendements observés (en quintaux/hectare) sont regroupés dans le tableau ci-dessus :

moyenne variance σ2
Echantillon 1 80.0 1.00
Echantillon 2 81.5 1.00

60
13.2. TEST DE FISHER DE COMPARAISON DES VARIANCES 61
Si l’on considère que les 16 parcelles, la variété 2 présente en moyenne un rendement su-
périeur (de 1.5 q/ ha) à celui de la variété 1. Peut-on généraliser ce résultat ? Autrement
dit, la différence observée (de 1.5 q/ha) doit être considérée comme une conséquence d’un
rendement moyen différent selon la variété ou, au contraire, est-il fortuit ? Selon un autre
point de vue, la question peut être posée ainsi : la différence de moyenne obervée doit être
imputée au hasard (c’est-à-dire à la variété ”naturelle” dite aussi ”résiduelle” pour exprimer
que l’on ne sait l’expliquer par la statistique) ?

13.2 Test de Fisher de comparaison des variances


Comparer les variances des deux échantillons revient à résoudre par exemple le problème
de test suivant : H0 : σ21 = σ22 contre H1 : σ21 6= σ22 .
Au niveau α ∈]0, 1[, la région critique du test H0 : σ21 = σ22 contre H1 : σ21 6= σ22 est

S 12 S 12
( ) ( )

W= < fα ∪ > f 1∗− α
S 22 2 S 22 2

α
où f α∗ est le quantile d’ordre 2 de la loi de Fisher à (n1 − 1, n2 − 1) degrés de liberté, f 1∗− α
2 2
est le quantile d’ordre 1 − α2 de la loi de Fisher à (n1 − 1, n2 − 1) degrés de liberté et
à !1/2
n1 ³
1 X ´2
S n1 = X i − X n1
n 1 − 1 i=1
à !1/2
n2 ³
1 X ´2
S n2 = Yi − Y n2 .
n 2 − 1 i=1

13.3 Test de Student de comparaison des moyennes


On désire maintenant comparer les moyennes. Le test d’égalité des moyennes est :

H0 : m 1 = m 2 contre H0 : m 1 6= m 2 .

Lorsque H0 est vraie, on observe très rarement une parfaite égalité des moyennes. La question
est donc de savoir à partir de quel écart de moyenne va-t-on choisir H1 ?
La région critique est de la forme
n¯ ¯ o
W = ¯ X n1 − Y n2 ¯ > l α .
¯ ¯

Pour déterminer l α , l’on a besoin de la loi de X n1 − Y n2 sous l’hypothèse H0 . Nous savons


que
µ ¶
σ2
X n1 ,→ N m 1 , n11
µ ¶
σ2
Y n2 ,→ N m 2 , n22 .

Comme ces deux variables sont indépendantes, on en déduit que

σ21 σ22
à !
X n1 − Y n2 ,→ N m 1 − m 2 , + .
n1 n2
62 CHAPITRE 13. TESTS DE STUDENT : DEUX ÉCHANTILLONS
Ainsi nous avons
( X n1 − Y n2 ) − ( m 1 − m 2 )
V= r ,→ N (0, 1).
σ21 σ2
n1 + n22

Par suite, sous H0 , nous obtenons

X n − Y n2
V= r1 ,→ N (0, 1).
σ21 σ2
n1 + n22

13.3.1 Résolution du test lorsque les variances connues

s
σ21 σ22
½¯ ¯ ¾
W = ¯ X n1 − Y n2 ¯ > u 1− α +
¯ ¯
2 n1 n2

Exemple 13.3.1. Revenons à l’exemple 13.1.2. Les variances sont connues, σ21 = σ22 = 1,
n 1 = n 2 = 8 et les rendements moyens observés x̄8 = 80 q/ h et ȳ8 = 81.5 q/ h. On suppose que
le seuil du test est α = 0.05. De ce fait, u0.975 = 1.96 Nous avons donc
s
1 1
u 0.975 + = 0.98 x̄8 − ȳ8 = −1.5 < −0.98.
8 8

Nous décidons donc de rejeter H0 . La variété 2 a un rendement moyen différent de celui de


la variété 1.

13.3.2 Résolution du test lorsque les variances sont inconnues


Posons
( n 1 − 1)S 2n1 ( n 2 − 1)S 2n2
Z= + .
σ21 σ22

( n 1 − 1)S 2n1 ( n 2 − 1)S 2n2


Comme ,→ χ2 ( n 1 − 1) et ,→ χ2 ( n 2 − 1) et que ces deux variables sont
σ21 σ22
indépendantes, nous obtenons Z ,→ χ2 (n1 + n2 − 2). De plus, les variables aléatoires Z et V
sont indépendantes. Par la définition de la loi de Student, nous déduisons que
p
V n 1 + n 2 − 2( X n1 − Y n2 ) − ( m 1 − m 2 )
T n1 ,n2 = q
Z
= sµ ¶µ ¶ ,→ T ( n 1 + n 2 − 2).
σ21 σ22 ( n 1 −1)S 2n1 ( n 2 −1)S 2n2
n 1 + n 2 −2
n +n 1 2 2 +
σ1 2 σ2

Sous l’hypothèse H0 : m 1 = m 2 , nous avons


p
n 1 + n 2 − 2( X n1 − Y n2 )
T n1 ,n2 = sµ ¶µ ¶ ,→ T ( n 1 + n 2 − 2).
σ21 σ22 ( n 1 −1)S 2n1 ( n 2 −1)S 2n2
n1 + n2 2 + 2
σ1 σ2

On note que lorsque n1 et n2 sont grands, le caractère gaussien des observations n’est plus
requis, et que T n1 ,n2 suit approximativement, sous H0 , une loi N (0, 1)..
13.3. TEST DE STUDENT DE COMPARAISON DES MOYENNES 63
Supposons que σ21 = σ22 .

Si le test de Fisher accepte l’égalité des variances (H0 ), nous avons


s
( n 1 + n 2 − 2) n 1 n 2 X n1 − Y n2
T n1 ,n2 = ,→ T ( n 1 + n 2 − 2)
n1 + n2 ( n 1 − 1)S 2n1 + ( n 2 − 1)S 2n2

La région critique au niveau α ∈]0, 1[ est


½¯ ¯ ¾
W = ¯T n1 ,n2 ¯ > t 1− α ,n1 +n2 −2
¯ ¯
2

où t1− α2 ,n1 +n2 −2 est le quantile d’odre 1 − α2 de la loi de Student T (n1 + n2 − 2).

Supposons que σ21 6= σ22 .


A priori, si le test de Fisher rejette l’égalité des variances, on ne peut pas appliquer le
test. On estime séparément σ21 et σ22 par leurs estimateurs S12 et S22 . Posons

X n − Y n2
T n1 ,n2 = r 1 .
S 2n1 S 2n2
n1 + n2

Sous H0 , T n1 ,n2 ≈ T ([ν])


³ S2 S 2n ´2
n1 2
n1 + n2
ν= .
S 4n1 S 4n2
+
n21 ( n 1 −1) n22 ( n 2 −1)

La région critique au niveau α ∈]0, 1[ est


½¯ ¯ ¾
W = ¯T n1 ,n2 ¯ > q 1− α
¯ ¯
2

où q1− α2 est le quantile d’odre 1 − α2 de la loi de Student [ν] degrés de liberté.
Chapitre

Tests de comparaison des pro-


14 portions

14.1 Test sur la valeur d’une proportion


Soient un échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, p) et p 0 une valeur
1X n
possible de p. Nous savons que X n = X i est un estimateur efficace de p. De plus, d’après
n i=1
le théorème central-limite, pour n assez grand, nous avons l’approximation en loi suivante
p ³ ´
n Xn − p
p ,→ N (0, 1).
p(1 − p)

Au niveau α ∈]0, 1[, la région critique du test H0 : p ≤ p 0 contre H1 : p > p 0 est :


( s )
p 0 (1 − p 0 )
W = Xn > q 1−α + p 0
n

où q1−α est le quantile d’ordre 1 − α de loi normale centrée-réduite N (0, 1).

Au niveau α ∈]0, 1[, la région critique du test H0 : p ≥ p 0 contre H1 : p < p 0 est :


( s )
p 0 (1 − p 0 )
W = Xn < qα + p0
n

où qα est le quantile d’ordre α de loi normale centrée-réduite N (0, 1).

Au niveau α ∈]0, 1[, la région critique du test H0 : p = p 0 contre H1 : p 6= p 0 est :


( s ) ( p )
p 0 (1 − p 0 ) p 0 (1 − p 0 )
W = X n < p0 − q 1− α ∪ X̄ n > p 0 + q 1− α
n 2 n 2

où q1− α2 est le quantile d’ordre 1 − α2 de loi normale centrée-réduite N (0, 1).

64
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 65

14.2 Test de comparaison de deux proportions


Le problème se pose quand on veut comparer deux populations selon un critère qui est
une proportion :
- Comparer les performances deux machines au vu de la proportion de pièces défec-
tueuses qu’elles produisent.
- Comparer les proportions de soulards à Yopougon et Cocody pour vérifier les idées
reu̧es.
Mathematiquement, on a une première population de taille n1 et une seconde de taille n2 . On
veut comparer les deux population selon un critère. On note X i et Yi les variables aléatoires
définies respectivement par
(
1 si le i ème individu de la population 1 présente la caractéristique
Xi =
0 sinon
(
1 si le i ème individu de la population 2 présente la caractéristique
Yi =
0 sinon.

On note p 1 la probabilité qu’un individu de la population 1 possède la caractéristique et


p 2 la probabilité qu’un individu de la population 2 possède la caractéristique. On souhaite
comparer p 1 et p 2 . On suppose que
— X 1 , . . . , X n1 sont indépendantes
— Y1 , . . . , Yn2 sont indépendantes
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
n1 n2
X i suit la loi binomiale B ( n 1 , p 1 ) et Yi suit la loi binomiale B ( n 2 , p 2 ).
X X
Alors
i =1 i =1
On se contentera ici de supposer que les tailles d’échantillons sont suffisamment grandes
pour que l’on puisse faire l’approximation de la loi binomiale par la loi normale :
— n1 p 1 > 5, n1 (1 − p 1 ) > 5,
— n2 p 2 > 5 et n2 (1 − p 2 ) > 5.
n1
X n2
X
Alors on peut considérer que X i et Yi sont des variables aléatoires indépendantes et
i =1 i =1
approximativement de lois normales, respectivement N ( n1 p 1 , n1 p 1 (1− p 1 )) et N (n2 p 2 , n2 p 2 (1−
p 2 )).
n1
1 X
Comme les estimateurs optimaux de p 1 et p 2 sont respectivement X n1 = X i et
n 1 i=1
n2
1 X
Y n2 = Yi , la région critique du test
n 2 i=1

H0 : p 1 = p 2 contre H1 : p 1 6= p 2

est donnée par n¯ ¯ o


W = ¯ X n1 − Y n2 ¯ > l α
¯ ¯

où l α est déterminé par l’équation


PH0 (W ) = α.

Sous les conditions ci-dessus, nous avons alors

p 1 (1 − p 1 )
µ ¶
X n1 ,→ N p 1 ,
n1
66 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
p 2 (1 − p 2 )
µ ¶
Y n2 ,→ N p 2 ,
n2

Comme X n1 et Y n2 sont indépendantes, nous déduisons que

p 1 (1 − p 1 ) p 2 (1 − p 2 )
µ ¶
X n1 − Y n2 ,→ N p 1 − p 2 , + .
n1 n2

Sous H0 : p 1 = p 2 = p, nous avons

1 1
µ µ ¶¶
X n1 − Y n2 ,→ N 0, p(1 − p) +
n1 n2

et s
1 1
µ ¶
X n1 − Y n2 p(1 − p) + ,→ N (0, 1) .
n1 n2

n 1 X n1 + n 2 Y n2
Comme p est inconnu, en remplaçant p par son estimateur p̂ = le résultat
n1 + n2
ci-dessus reste approximativement vrai. En posant
v à !µ
u
u n1 X n + n2 Y n n 1 X n1 + n 2 Y n2 1 1

1 2
σ̂ = t 1− + ,
n1 + n2 n1 + n2 n1 n2

sous l’hypothèse nulle H0 la statistique

X n1 − Y n2
U= ,→ N (0, 1) .
σ̂

Au niveau α ∈]0, 1[, la région critique du test H0 : p 1 ≤ p 2 contre H1 : p 1 > p 2 est :


n o
W = U > q 1−α

où q1−α est le quantile d’ordre 1 − α de loi normale centrée-réduite N (0, 1).

Au niveau α ∈]0, 1[, a région critique du test H0 : p 1 ≥ p 2 contre H1 : p 1 < p 2 est :


n o
W = U < qα

où qα est le quantile d’ordre α de loi normale centrée-réduite N (0, 1).

Au niveau α ∈]0, 1[, la région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :


n o
W = |U | > q 1− α .
2

α
où q1− α2 est le quantile d’ordre 1 − 2 de loi normale centrée-réduite N (0, 1).

Exercice 14.2.1. La machine 1 a produit 96 pièces dont 12 défectueuses. La machine 2 a


produit 55 pièces dont 10 défectueuses. Peut-on en conclure que la machine 1 est significa-
tivement plus performante que la machine 2 ?
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 67
Exercice 14.2.2. Dans un sondage réalisé entre le 18 avril 2012 sur 2552 personnes, l’Ifop
demande ”si dimanche prochain se déroulait le second tour de l’élection présidentielle, pour
lequel des candidats suivants y aurait-il le plus de chances que vous votiez”. 54% des per-
sonnes interrogées ont choisi Hollande contre 46% Sarkozy. Dans un sondage du CSA, le
17 avril 2012, à la question ”Si le second tour de l’élection présidentielle de 2012 avait lieu
dimanche prochain et que vous aviez le choix entre les deux candidats suivants, pour lequel
y aurait-il le plus de chances que vous votiez ?”, 58% des 886 personnes interrogées avaient
choisi Hollande contre 42% Sarkozy.
1. Y a-t-il une différence significative entre ces deux résultats ?
2. Même question si l’on considère les sondages de la semaine précédente : le 16 avril
2012, l’Ifop publiait les scores de 55.5%-44.5% sur 1808 interrogés et le CSA trouvait
les scores de 57%-43% sur 886 interrogées.
3. Donner la p-valeur des tests asymptotiques précédents.
Exercice 14.2.3. Une étude des décisions rendues par des jurys dans des cas de vols par
effraction où l’accusé était de race noire a révélé les faits suivants : parmi les 28 cas où
les victimes étaient de race noire, l’accusé a été trouvé coupable dans 12 cas ; parmi les 36
cas où la victime était de race blanche, l’accusé a été trouvé coupable dans 23 cas. Peut-on
conclure que les jurys ont une plus forte tendance à déclarer coupables ceux qui sont accusés
d’avoir commis des vols contre des Blancs ?
Exercice 1. Afin de mieux gérer les demandes de crédits de ses clients, un directeur d’agence
bancaire réalise une étude relative à la durée de traitement des dossiers, supposée suivre une
distribution normale. Un échantillon de 30 dossiers a donné :

Durée de taitement (en jours) [0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[
Effectif 3 6 10 7 3 1

1. Déterminer les estimateurs de la moyenne m et de la variance σ2 par la méthode du


maximum de vraisemblance. Etudier leurs propriétés.
La vraisemblance de l’échantillon est :
n
L( m, σ2 , X 1 , . . . , X n ) = f ( m, σ2 , X i )
Y
i =1
1n ³ 1 ´
( X i − m )2
Y
= p exp −
i =1 σ 2π 2σ 2

³ 1 ´n ³ 1 X n ´
= p exp − 2 ( X i − m )2
σ 2π 2σ i=1

La méthode du maximum de vraisemblance consiste à trouver la valeur de (m, σ2 ) qui


maximise la vraisemblance. Il s’agit ici de maximiser une fonction à deux variables
à valeurs réelles. Comme la fonction x 7→ ln( x) est croissante, nous avons
³ ´
(m c2 ) = arg
b n, σ n max ln L( m, σ2 , X 1 , . . . , X n )
( m,σ2 )∈R×R+
³ ´
= arg max ln L( m, σ2 , X 1 , . . . , X n ) .
( m,σ2 )∈R×R+

Pour des raisons de simplicité de calcul, on utilise en général la log-vraisemblance. En


effet dériver une somme est moins périlleux que dériver un produit. Deux méthodes
à expliquer aux étudiants :
68 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
— Méthode 1 : Maximiser une fonction à deux variables à valeurs réelles, c’est à
dire, résoudre le problème de maximisation :
³ ´
max ln L( m, σ2 , X 1 , . . . , X n ) .
( m,σ2 )∈R×R+

— Méthode 2 : Fixer σ2 et résoudre


³ ´
b n = arg max ln L( m, σ2 , X 1 , . . . , X n ) .
m
m∈R

Nous avons alors ∀σ2 > 0


³ ´ ³ ´
ln L( m, σ2 , X 1 , . . . , X n ) ≤ ln L( m
b n , σ2 , X 1 , . . . , X n ) .

Puis, résourdre ³ ´
σ n b n , σ2 , X 1 , . . . , X n ) .
c2 = arg max ln L( m
m∈R

Nous obtenons alors pour tout (m, σ2 ) ∈ R × R∗+ :


³ ´ ³ ´
ln L( m, σ2 , X 1 , . . . , X n ) ≤ ln L( m c2 , X , . . . , X ) .
b n, σ n 1 n

On obtient :
n
m
bn = Xn c2 = 1 X ( X − X )2 .
σ n i n
n i=1
Attention : en ce qui concerne la variance, il faut dériver par rapport à
σ2 et non par rapport à σ.

Propriétés des estimateurs : Il existe deux types de propriétés : non asymptotiques


et asymptotiques.
1X n
Intéressons nous à m
bn= Xi :
n i=1

Propriétés non asymptotiques

— E(m b n est un estimateur sans biais de m.


b n) = m ⇒ m
— la variance de mb n est
σ2
V( m
b n) = .
n
— L’information de Fisher apportée par l’échantillon ( X 1 , . . . , X n ) sur le paramètre
m est : ³ ´
³ ∂2 ln L( m, σ2 , X 1 , . . . , X n ) ´ n
I n ( m) = −E = 2.
∂ m2 σ
σ2 1
b n est un estimateur sans biais de m et V( m
— m b n) = = b n est un esti-
⇒m
n I n ( m)
mateur efficace de m.
Propriétés asymptotiques
— m
b n est un estimateur convergent de m. On peut le montrer de deux manières :
— soit la définition en utilisant l’inégalité de Bienaymé-Tchebithev
— soit par la loi des grands nombres :
— soit en montrant que E(m b n ) −→ m et V( m
b n ) −→ 0.
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 69
— m
b n est un estimateur asymptotiquement normal, c’est à dire,
p loi
b n − m) −→ N (0, σ2 ).
n( m

On le montre en utilisant le Théorème Cenral Limite qui permet d’étudier le


comportement asymptotique de la moyenne empirique pour des variables X 1 , . . . , X n
i.i.d. de moyenne m et de variance σ2 > 0.

n
c2 = 1 (Xi − Xn )2 .
X
Intéressons nous σ n
n i=1
Propriétés non asymptotiques
c2 ) = n − 1 σ2 6= σ2 ⇒ σ
— E(σ c2 est un estimateur biaisé de σ2 .
n n
n
— σn est un estimateur biaisé de σ2 ⇒ σ
c2 c2 n’est pas un estimateur efficace de σ2 .
n
(Pas la peine de calculer l’information de Fisher et la borne de Cramer-
Rao, la condition sans biais n’étant pas vérifiée.)
Propriétés asymptotiques
c2 ) = n − 1 σ2 −→ σ2 ⇒ σ
— E(σ c2 est un estimateur asymptotiquement sans biais de σ2 .
n n
n
— Vérifier que la variance V(σ c2 vers σ2 .
c2 ) −→ 0 pour assurer la convergence de σ
n n
— Pas la peine d’établir la normalité asymptotique ; c’est un peu compli-
qué pour eux je crois ! Si vous trouvez simple, faites moi signe !
2. Donner les estimations ponctuelles de la moyenne m et de la variance σ2 .
Utiliser les centres des intervalles pour faire les estimations :

1X 30 1 X6
X 30 = ci = n j c j.
n i=1 30 j=1

30 6
2 = 1 ( c i − X 30 )2 =
1 X
n j ( c j − X 30 )2 .
X
σ
d
30 30 i=1 30 j=1

3. Donner une estimation de m par intervalle de confiance au seuil de risque 5%.


D’après le cours, l’intervalle de confiance pour m de niveau 0.95 est
h S n −1) S n −1) i
X n − p t(0n.975 , X n + p t(0n.975
n n

où t(0n.975
−1)
est le quantile d’ordre 0.975 de la loi de Student à n − 1 degrés de liberté et
r
n c2
Sn = σn .
n−1

4. Au seuil de 5%, tester l’hypothèse H0 : m = 30 contre H1 : m < 30. Que pouvez-vous


conclure ?
La région critique du test au seuil α = 0.05 est :
p
n 30( X 30 − 30) o
W = ( X 1 , . . . , X 30 ) : < t(29)
0. 05 .
S 30

Rappel du cours : Considérons un échantillon ( X 1 , . . . , X n ) issu de la loi


normale N (m, σ2 ). Si σ2 est connue :
70 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
Hypothèses Région Critique
p
n n( X n − m 0 ) o
H0 : m ≤ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > q 1−α
p σ
n n( X n − m 0 ) o
H0 : m ≥ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < qα
σ
n ¯ p n( X − m ) ¯ o
n 0 ¯
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : ¯ ¯ > q 1− α2
¯
σ
Si σ2 est inconnue :
Hypothèses Région Critique
p
n n( X n − m 0 ) o
H0 : m ≤ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > t(1n−−α1)
p Sn
n n( X n − m 0 ) o
H0 : m ≥ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < t(αn−1)
Sn
n ¯ p n( X − m ) ¯ o
n 0 ¯
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : ¯ ¯ > t(1n−−α1)
¯
Sn 2

Exercice 2. La société ”Votre santé” est une entreprise de vente par correspondance de
produits de beauté dits ”naturels”. Elle gère un fichier de 350000 clients et propose chaque
mois une offre promotionnelle accompagnée d’un cadeau. Le taux de réponse à cette offre est
généralement de 15%, la marge moyenne par réponse de 340 fcfa. Mlle Claire, nouvellement
en charge de ce fichier, a retenu comme cadeau un abonnement gratuit de six mois, au
mensuel ”Votre beauté Madame”. Elle pense que cela pourrait augmenter le taux de réponse
à la prochaine offre ; toutefois cette proposition ne serait rentable que si le taux de réponse
dépassait les 17.5% (avec la même marge moyenne évidemment). Elle envisage de tester
la réalité de ces hypothèses sur un échantillon de clientes. La précision voulue pour son
estimation est de l’ordre de 2%.
1. Quelle taille d’échantillon doit-elle choisir afin d’atteindre la précision voulue (avec
un niveau de confiance de 0.95) ?

— Modélisation (à ne jamais oublier !)


— Population : les 350 000 clients
— Echantillon : Soit X i la variable aléatoire définie par :
(
1 si le ième client achète
Xi =
0 sinon
Nous ( X 1 , . . . , X n ) est un échantillon issu de la loi de Bernouilli B (1, p) où
p s’interprète comme la proportion des clients qui acheteraient si l’offre se
généralisait à l’ensemble des clients.
— Détermination de n. Exposer les deux methodes et privilégier ici la
deuxième car on a une idée de X n .
— Méthode pessimiste (majoration de l’écart-type) : L’intervalle de confiance
de niveau 1 − α est donné par
s s
h X n (1 − X n ) X n (1 − X n ) i h 1 1 i
X n − q 1− α , X n + q 1− α ⊂ X n − q 1− α p , X n + q 1− α p
2 n 2 n 2 2 n 2 2 n

q
puisque X n (1 − X n ) ≤ 12 . La marge d’erreur est donc :
s
X n (1 − X n ) 1
ME = q 1− α ≤ q 1− α p .
2 n 2 2 n
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 71
Nous déterminons n tel que
1 ³ q 1− α ´2
2
q 1− α p ≤ 0.02 ⇒ n ≥ = 2401.
2 2 n 0.04

— Méthode plus optimiste (on pense que le taux de réponse sera proche
du taux habituel qui est 15%) : L’intervalle de confiance de niveau 1 − α
est donné par
s s
h X n (1 − X n ) X n (1 − X n ) i
X n − q 1− α , X n + q 1− α
2 n 2 n

avec sans doute X n (1 − X n ) sans doute proche de son ancienne 0.15(1 − 0.15).
Nous déterminons alors n tel que
s s
X n (1 − X n ) 0.15(1 − 0.15)
ME = q 1− α = q 1− α ≤ 0.02
2 n 2 n

⇒ n ≥ 1224.51 ⇒ n = 1225.
2. Les résultats d’un sondage sur un échantillon de 1225 clientes vous sont donnés en
annexe.

Donner une estimation par intervalle au niveau 0.95 du pourcentage p de réponses


positives attendues à l’offre.
3. Mlle Claire se propose de procéder au test d’hypothèses suivant H0 : p = 17.5% contre
H0 : p > 17.5%. Expliquer pourquoi elle envisage ce test. Calculer la p-value. Qu’en
concluez-vous ?
Si elle rejette son H0 pour H1 alors, elle saura que p 0 > 17.5% et que la nouvelle
promotion est à étudier. En effet, on apprend réellement d’un test lorsque H0 est
rejetée !
La région critique du test est :
p
n 1225( X 1225 − 0.175) o
W = ( X 1 , . . . , X 1225 ) : p > q 1−α
0.175(1 − 0.175)

Hypothèses Région Critique


p
n n( X n − p 0 ) o
H0 : p ≤ p 0 vs H1 : p > p 0 W = (X1, . . . , X n) : p > q 1−α
p (1 − p 0 )
p 0
n n( X n − p 0 ) o
H0 : p ≥ p 0 vs H1 : p < p 0 W = (X1, . . . , X n) : p < qα
p 0 (1 − p 0 )
n ¯ p n( X − p ) ¯ o
n 0 ¯
H0 : p = p 0 vs H1 : p 6= p 0 W = (X1, . . . , X n) : ¯ p ¯ > q 1− α2
¯
p 0 (1 − p 0 )
4. Mlle Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de réponse inférieur aux anciens. Confirmer ou infirmer cette hypothèse.
Nous allons faire un test de comparaison des proportions pour répondre à la question
— Modélisation (à ne jamais oublier !) Soient les variables aléatoires définies
par : (
1 si le ième ancien client a répondu
Yi =
0 sinon
72 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
(
1 si le ième ancien client a répondu
Zi =
0 sinon
On dispose ainsi de deux échantillons : (Y1 , . . . , Y850 ) issu d’une loi de Bernouilli
B (1, p anciens ) et ( Z1 , . . . , Z375 ) issu d’une loi de Bernouilli B (1, p nou ) où p anc et
p nou représentent respectivement les taux de réponses dans les deux populations.
— Nous considérons le problème de

H0 : p an = p nou contre H1 : p anc > p nou

La variable de décision est


Y 850 − Z 375
Tq
1 1
pb(1 − pb)( 850 + 375 )

où
850 × Y 850 + 375 × Z 375
pb = .
850 + 375
La région critique du test est :
n o
W = T > q 1−α .

— Pour α = 0.05 q0.95 = 1.64 et t = 2.13. On voit que 2.13 > 1.64. Ainsi, au niveau
α = 0.05, nous acceptons H1 , c’est à dire que les anciens sont plus recptifs que les
nouveaux.
Théorème 14.2.1. Posons
n 1 X n1 + n 2 X n2
pb = .
n1 + n2

- La région critique du test H0 : p 1 ≤ p 2 contre H1 : p 1 > p 2 est :


 
X n1 − X n2

 

W= q > q 1−α .
pb(1 − pb)( n11 + n12 )

 

- La région critique du test H0 : p 1 ≥ p 2 contre H1 : p 1 < p 2 est :


 
X n1 − X n2

 

W= q < qα .
pb(1 − pb)( n11 + n12 )

 

- La région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :


¯ ¯ 
¯ ¯
X n1 − X n2

¯ ¯ 

W = ¯q > q α .
¯ ¯
¯ 1− 2
¯¯ p b)( n11 + n12 ) ¯
b(1 − p
 ¯ 

5. Il s’agit dans cette question de déterminer un intervalle de confiance au niveau 0.95 de


la marge de la campagne promotionnelle. Peut-on considérer que la marge moyenne
attendue de cette campagne sera la même que pour les campagnes précédentes. On
posera cette alternative sous forme de test.
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 73
— Modélisation : Pour chacune des 258 commandes, soit M i la variable aléatoire
qui donne la marge réalisée pour la commande i . Pour faire simple, nous allons
supposer que ( M1 , . . . , M258 ) est un échantillon issu d’une loi normale N (m, σ2 ).
Ici, m et σ2 sont inconnues.
— Au niveau α = 0.05, nous considérons le problème de test de

H0 : m = 340 contre H1 : m < 340

La région critique du test est


n p258( M
258 − 340)
o
W= < t(257)
α
S 258

où t(257)
α est le quantile d’ordre 0.05 de la loi de Student à 257 degrés de liberté.
On peut utiliser la table de la loi normale centrée réduite car la loi de Student
converge vers la loi normale N (0, 1) lorsque le nombre de degrés de liberté n → +∞
(n > 30 en pratique.)
— On a t = −0.97 et t(257)
α = −1.65. Nous avons donc −0.97 > −1.65. Nous en dédui-
sons qu’au niveau 5%, on conerve H0 ,c’est à dire en moyenne, la marge ne diffère
pas significativement de 340.

Annexe : résultats du sondage

Nouveaux clients Anciens clients


Nombre d’individus 1225 850
Nombre de réponses 258 193

Marge totale Marge moyenne Ecart-type de la marge


8 514 000 33 000 16 500

Exercice 3. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E (θ ) avec


θ > 0 inconnu.
1. Déterminer l’estimateur θbn par la methode du maximum de vraisemblance.
La vraisemblance de ( X 1 , . . . , X n ) est
n
Y
L( X 1 , . . . , X n , θ ) = θ exp(−θ X i )1R∗+ ( X i )
i =1
³ n ´
= θ n exp − θ
X
X i 1(R∗+ )n ( X 1 , . . . , X n ).
i =1

Pour tout ( X 1 , . . . , X n ) ∈ (R∗+ )n , on a


n
X
ln(L( X 1 , . . . , X n , θ )) = n ln(θ ) − θ Xi
i =1
74 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
∂ ln L( X 1 , . . . , X n , θ ) n Xn 1
= − X i = 0 ⇐⇒ θ =
∂θ θ i=1 Xn
2
∂ ln L( X 1 , . . . , X n , θ ) ³ 1 ´ 2
= − nX n < 0.
∂θ 2 Xn

L’estimateur du maximum de vraisemblance de θ est donné par


1
θ̂n = .
Xn

2. Montrer que θbn peut être obtenu par la methode des moments.
Nous avons
1 1 1
E( X 1 ) = ⇒ Xn = ⇒θ=
θ θ Xn

3. Déterminer les propriétés asymptotiques de θbn .

(a) D’après la loi des grands nombres, on a :

P 1
X n −−−−−→ .
n→+∞ θ
1
Comme, l’application x 7→ est continue sur R∗+ , alors
x
1 P
−−−−−→ θ .
Xn n→+∞

(b) D’après le Théorème Central limite X n est asymptotiquement normal :


p ³ 1´ L ³ 1´
n Xn − −−−−−→ N 0, 2 .
θ n→+∞ θ
0
Comme, l’application g : x 7→ 1x est dérivable sur R∗+ et g ( x) = − x12 , on obtient par
la delta-méthode :
p L
³ 1 0 ´
n( g( X n ) − g(1/θ )) −−−−−→ N 0, 2 ( g (1/θ ))2 .
n→+∞ θ
c’est à dire
p ³ 1 ´
L
n − θ −−−−−→ N (0, θ 2 ).
Xn n →+∞

4. Montrer que θbn est un estimateur biaisé de θ . En déduire un estimateur θen sans biais
de θ .
Montrer que
E(θbn ) 6= θ .
Utiliser la linéarité de l’espérance pour tirer θen .
5. L’estimateur θen est-il efficace ?
Je crois que θen n’est pas efficace malgré qu’il soit sans biais. Mais il faut vérifier que
la variance :
V(θen ) > BCR (θ ),
où BCR (θ ) est la borne de Cramer-Rao.
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 75
Exercice 4. Pour 30 femmes et 20 hommes, on a observé le salaire mensuel. Les résultats
mesurés en euros sont ci-dessous :

Salaire des femmes


1955 1764 1668 1441 1970 1795 1716 1911 1660 2001
1744 1676 1695 1652 1626 1698 1656 1739 1789 1716
1684 1445 1646 1617 1630 1440 1850 1252 1493 1537

Salaire des hommes

2283 2010 1970 2019 1941 2024 2046 1962 1948 2071
2108 1880 2008 2119 2030 2014 1919 1837 2094 2169

Au seuil de 5%, le salaire moyen des hommes est-il significativement supérieur à celui
des femmes ?

Il s’agit ici de faire un test de comparaison des moyennes dans un échantillon gaussien.
— ( X 1 , . . . , X n1 ) est issu de N (m 1 , σ21 )
— (Y1 , . . . , Yn2 ) est issu de N (m 2 , σ22 ).
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
Problème : tester H0 : m 1 = m 2 contre H1 : m 1 6= m 2 au niveau α.
La variable de décision dépend du fait que les variances σ21 et σ22 soient égales ou non. Il
faut donc commencer par comparer les variances :

H0 : σ21 = σ22 contre H1 : σ21 6= σ22

La région critique au niveau α est donnée


n S2 o n S2 o
1 1
W= > f 1− α ∪ < fα
S 22 2 2
S2 2

où f β est le quantile d’odre β de la loi de Fisher avec n1 − 1 et n2 − 1 degrés de liberté. La


région critique du test au niveau α :
n o
W = |T | > t 1− α ( m)
2

où
m = n 1 + n 2 − 2 si σ1 = σ2
et ³ S2
n1 S 2n ´2
2
n1 + n2
m= si σ1 6= σ2 .
S 4n1 S 4n2
+
n21 ( n 1 −1) n22 ( n 2 −1)
76 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
Année Universitaire 2018-2019
Examen (2 heures)
Enseignant : Prof. YODE Armel

Exercice 1. Une enquête concernant l’utilisation des cartes bancaires (CB) a été effectuée
en septembre 2005 auprès des personnes agées de 18 ans. Les résultats (partiels) de cette
enquête sont présentés dans le tableau ci-dessous :

Description Effectif
Personnes interrogées 501
Porteurs de CB 433
ayant effectué au moins un achat par CB 400
ayant effectué au moins un achat par CB sur Internet 144

Dans la suite, on s’intéresse à la proportion p de personnes ayant effectué un achat


par CB sur Internet parmi celles qui ont effectué au moins un achat par CB.

1. Donner le modèle théorique permettant l’étude de p : population, échantillon, variable


aléatoire, loi.

- La population étudiée est l’ensemble des clients ayant effectué au moins un achat
par CB.
- On dispose d’un échantillon de taille 400 issu de cette population.
- Soit X i la variable aléatoire définie par :
(
1 si le client i a effectué au moins un achat par CB sur intenet
Xi =
0 sinon

X i suit une loi de Bernouilli B (1, p). De plus les variables aléatoires X 1 , . . . , X n
sont indépendantes.

2. Donner un estimateur pb de p par la méthode du maximum de vraisemblance. Etudier


les propriétés de l’estimateur pb.
La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est :

n
Y
L( p, X 1 , . . . , X n ) = f ( X i , p)
i =1
n
p X i (1 − p)1{0,1}
Y
=
i =1
³ p ´P n X i
= (1 − p)n
i =1
1{0,1}n
1− p

Pour tout p ∈]0, 1[, ( X 1 , . . . , X n ) ∈ {0, 1}n , L( p, X 1 , . . . , X n ) > 0 et

³ ´ X n ³ p ´
ln L( p, X 1 , . . . , X n ) = n ln(1 − p) − X i ln
i =1 1− p
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 77
La log-vraisembleance est
n
X n
X
ln L( X 1 , . . . , X n , p) = X i ln( p) + ( n − X i ) ln(1 − p)
i =1 i =1
Condition du premier ordre
Pn Pn
∂ ln L( X 1 , . . . , X n , p) n
i =1 X i n− i =1 X i 1X
= − = 0 ⇐⇒ p = Xi = X n
∂p p (1 − p) n i=1
Condition du deuxième ordre
∂2 ln L( X 1 , . . . , X n , p) − nX n n − nX n
(X n) = − < 0.
∂ p2 2
Xn (1 − X n )2

L’estimateur du maximum de vraisemblance de p est donné par

pbn = X n .

Étude des propriétés asymptotiques de pbn .

(a) D’après la loi des grands nombres, X n est un estimateur convergent de p.


(b) D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n − p) −−−−−→ N (0, p(1 − p)).
n→+∞

Étude des propriétés non asymptotiques de pbn .

(a) E ( pb) = p
(b) L’information de Fisher est :
³ ∂2 ln L( X , . . . , X , p) ´ n
1 n
I n = −E = .
∂ p2 p(1 − p)

La borne de Cramer-Rao est donc :


p(1 − p)
BCR ( p) = .
n

X n est un estimateur efficace de p car pbn est sans biais et

p(1 − p)
var ( pbn ) = = BCR ( p).
n

3. Donner une estimation de p.


144
Une estimation de p est = 0.36
400
4. Calculer un intervalle de confiance de niveau de confiance 95% pour p.
L’intervalle de confiance pour p de niveau 1 − α est :
s s
h X n (1 − X n ) X n (1 − X n ) i
X n − q 1− α , X n + q 1− α =
2 n 2 n
s s
h 0.36(1 − 0.36) 0.36(1 − 0.36) i
0.36 − 1.96 , 0.36 + 1.96 = [0.313, 0.407]
400 400
78 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
5. Si on suppose constant le pourcentage de personnes interrogées ayant effectué au
moins un achat par CB sur Internet, quelle devrait être la taille de l’échantillon pour
connaitre p à 3% près (avec un niveau de confiance de 95%) ?
Nous avons

q21− α X n (1 − X n )
s
¯ ¯ X n (1 − X n ) 2
¯ p − X n ¯ ≤ q 1− α2 ≤ 0.03 ⇒ n ≥
¯ ¯
n (0.03)2
(1.96)2 ∗ 0.36(1 − 0.36)
⇒n≥ = 983.44 ⇒ n = 984.
(0.03)2

6. En janvier 2005, une enquête similaire évaluait à 32% la part de personnes ayant
effectué au moins un achat par CB sur Internet parmi celles ayant effectué au moins
un achat par CB.
(a) Les données de l’enquête de septembre 2005 permettent-elles de conclure à une
augmentation significative de la part de personnes utilisant leur CB sur Internet,
en prenant un risque de première espèce de 1% ?
Il s’agit ici de tester H0 : p ≤ 0.32 contre H1 : p > 0.32 au seuil α = 0.01. La région
critique est donc
n p400( p
bn − 0.32) o
W= p > q 0.99
0.32 ∗ 0.68
où q0.99 = 2.33 est le quantile d’ordre 0.99 de la loi normale centrée réduite.
Comme
p
400( pbn − 0.32)
p = 1.714 < 2.33, alors au seuil de 1%, les données de septembre
0.32 ∗ 0.68
2005 ne permettent pas de conclure àune augmentation significative de la part des
personnes utilisant leur CB sur internet.
(b) Quelle est la puissance du test lorsque p = 34% ?
La puissance du test au point p = 0.34 est donée par :

³ p400( p
bn − 0.32) ´
γ(3) = P34 p > 2.33
0.32 ∗ 0.68
s
³ 0.32 ∗ 0.68 ´
=P p b400 > 2.33 + 0.32
400
p
³ 0.34 ∗ 0.66 ´ 400( pbn − 0.34)
Sous l’hypothèse H1 , pbn ∼ N 0.34, ⇔ p ∼ N (0, 1). Ainsi,
400 0.34 ∗ 0.66
nous obtenons :

³ p400( p
s s
bn − 0.34) 400 h 0.32 ∗ 0.68 i´
γ(3) = P0.34 p > 2.33 + 0.32 − 0.34
0.34 ∗ 0.66 0.34 ∗ 0.66 400

³1´
Exercice 2. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E avec
θ
θ > 0 inconnu.

1. Déterminer l’estimateur θbn par la methode du maximum de vraisemblance.


14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 79
La vraisemblance est :
n
Y
L( X 1 , . . . , X n , θ ) = f ( X i , θ)
i =1
1
Y n ³ 1 ´
= exp − X i 1R∗+
i =1 θ θ
1 ³ 1X n ´
= n exp − X i 1R∗+n
θ θ i=1
Pour tout ( X 1 , . . . , X n ) ∈ R∗+n , θ > 0
1 ³ 1X n ´
L( X 1 , . . . , X n , θ ) = exp − X i > 0.
θn θ i=1
Alors, nous avons :
³ ´ 1X n
ln L( X 1 , . . . , X n , θ ) = − n ln(θ ) − Xi
θ i=1
Condition du premier ordre :
³ ´
∂ ln L( X 1 , . . . , X n , θ )
= 0 =⇒ θ = X n .
∂θ
Condition du second ordre :
³ ´
∂2 ln L( X 1 , . . . , X n , θ ) n 2 X n
= − Xi
∂θ 2 θ 2 θ 3 i=1
n 2n 1X n
Comme 2
− 2
< 0 alors l’EMV est θbn = Xi
Xn Xn n i=1
2. Vérifier que θbn peut être obtenu par la méthode des moments.
3. L’estimateur θbn est-il efficace ?
4. Déterminer les propriétés asymptotiques de θbn .
5. Déterminer les propriétés asymptotiques de θbn2 .

Exercice 3. Une étude a été réalisée sur le cancer de la gorge. Pour cela, une population
de 1000 personnes a été interrogée. les résultats obtenus sont donnés dans le tableau de
contingences suivant :

Atteint du cancer de la gorge Non atteint du cancer de la gorge


Fumeur 344 258
Non fumeur 160 238

Doit-on rejeter au niveau 5% l’hypothèse d’indépendance des deux caract‘eres : X =(être


fumeur) et Y =(être atteint du cancer de la gorge).

Exercice 4. Sur deux groupes de même taille 9 malades, on expérimente les effets d’un
nouveau médicament. On observe les résultats suivants :

Groupe 1 15 18 17 20 21 18 17 15 19
Groupe 2 12 16 17 18 17 15 18 14 16
1. Comparer au niveau 5% les variances des deux populations
2. Comparer au niveau 5% les moyennes des deux populations

Vous aimerez peut-être aussi