Vous êtes sur la page 1sur 97

Université Hassan Premier

École Nationale des Sciences Appliquées de


Khouribga

Probabilité & Statistique

Mohammed BADAOUI
Table des matières

1 Analyse combinatoire 5
1.1 Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Cardinal d’un ensemble . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Factoriel d’un nombre . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Arrangements sans répétition . . . . . . . . . . . . . . . . . . 7
1.2.2 Arrangements avec répétition . . . . . . . . . . . . . . . . . . 7
1.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Permutations sans répétition . . . . . . . . . . . . . . . . . . . 8
1.3.2 Permutations avec répétition . . . . . . . . . . . . . . . . . . . 8
1.4 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Combinaison sans répétition . . . . . . . . . . . . . . . . . . . 8
1.4.2 Combinaison avec répétition . . . . . . . . . . . . . . . . . . . 9

2 Calcul de probabilité 10
2.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . 10
2.2 Probabilité dans le cas général . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Probabilité uniforme sur Ω . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . 12
2.2.2.1 Formules des probabilités composées . . . . . . . . . 13
2.2.2.2 Indépendances d’événements . . . . . . . . . . . . . 14

3 Variables aléatoires discrètes 15


3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2 Loi de probabilité associée à une v.a.d . . . . . . . . . . . . . 16

1
2 TABLE DES MATIÈRES

3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 18


3.2 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2 Loi Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3 Loi Binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.5 Loi Géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.6 Loi Hypergéométrique . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Intégration des variables aléatoires discrètes . . . . . . . . . . . . . . 24
3.3.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . 24
3.3.2 Application : Moments d’ordre p, p ≥ 1 . . . . . . . . . . . . 27
3.3.3 Variance d’une variable aléatoire discrète . . . . . . . . . . . . 28
3.4 Variables aléatoires discrètes indépendantes . . . . . . . . . . . . . . 29

4 Variables aléatoires réelles 32


4.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.1 Loi d’une v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Loi Uniforme sur [a,b], −∞ < a < b < +∞ . . . . . . . . . . 34
4.2.2 Loi Normale de paramètres, m ∈ R, σ 2 ≥ 0 . . . . . . . . . . 34
4.2.3 Loi Exponentielle de paramètre λ, λ > 0 . . . . . . . . . . . . 34
4.2.4 Loi de Cauchy de paramètres a, b ∈ R, a 6= 0 . . . . . . . . . . 35
4.2.5 Loi de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.6 Loi Gamma de paramètres p > 0 et θ > 0 . . . . . . . . . . . . 35
4.2.7 Loi du Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.8 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.9 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Intégration des v.a.r . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3.1 Espérance Mathématique . . . . . . . . . . . . . . . . . . . . . 37
4.3.2 Variance d’une v.a.r, Moments d’une v.a.r . . . . . . . . . . . 38
4.3.3 Médiane, Quantiles, modes d’une v.a.r . . . . . . . . . . . . . 39
4.3.3.1 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.3.2 Mode d’une v.a.r . . . . . . . . . . . . . . . . . . . . 40
4.3.3.3 Quantiles d’ordre α, α ∈]0, 1[ . . . . . . . . . . . . . 40
4.3.4 Inégalités de Markov et de Bienaymé-Tchebychef . . . . . . . 40
4.4 Types de convergences . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.3 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . 42
4.4.4 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . 43

M.Badaoui UH1-ENSAK
3 TABLE DES MATIÈRES

4.4.5 Théorème central-imite . . . . . . . . . . . . . . . . . . . . . . 43


4.4.6 Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5 Estimation 46
5.1 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.1.2 Méthodes de sondage . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.2.1 Méthodes probabilistes . . . . . . . . . . . . . . . . . 47
5.1.2.2 Méthodes non probabilistes . . . . . . . . . . . . . . 49
5.1.2.3 Sources d’erreurs dans une enquête . . . . . . . . . . 49
5.1.3 Échantillon aléatoire . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.4 Statistique de l’échantillon . . . . . . . . . . . . . . . . . . . . 50
5.1.5 Distributions échantillonnales . . . . . . . . . . . . . . . . . . 50
5.1.5.1 Moyenne empirique . . . . . . . . . . . . . . . . . . . 50
5.1.5.2 Variance empirique . . . . . . . . . . . . . . . . . . . 51
5.1.5.3 Fonction de répartition empirique . . . . . . . . . . . 51
5.2 Estimateur et propriétés d’un estimateur . . . . . . . . . . . . . . . . 52
5.2.1 Estimateur et estimation . . . . . . . . . . . . . . . . . . . . . 52
5.2.2 Propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Trois exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2.4 Vraisemblance d’un échantillon . . . . . . . . . . . . . . . . . 56
5.2.4.1 Information de Fisher . . . . . . . . . . . . . . . . . 57
5.3 Estimateurs ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . 59
5.3.1.1 Estimateur du maximum de vraisemblance . . . . . . 59
5.3.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . 63
5.4.0.1 Exemple introductif . . . . . . . . . . . . . . . . . . 63
5.4.0.2 Principe de construcion . . . . . . . . . . . . . . . . 64
5.4.1 Estimation usuels . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.4.1.1 Estimation de la moyenne : cas de la loi normale . . 65
5.4.1.2 Estimation de la variance : cas de la loi normale . . . 67
5.5 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . 68

6 Les Tests 71
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 Hypothèses nulle et alternative . . . . . . . . . . . . . . . . . . . . . 71
6.3 Risque de 1er et 2eme espèce . . . . . . . . . . . . . . . . . . . . . . . 72
6.4 Exemples d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.4.0.3 Comparer un échantillon à une référence théorique . 74
6.4.0.4 Comparer plusieurs échantillons . . . . . . . . . . . . 74

M.Badaoui UH1-ENSAK
6.5 Choix d’un test suivant le procédure de Neyman . . . . . . . . . . . . 74
6.6 La classification des tests . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.7 Quelques tests paramétriques usuels : cas d’un échantillion . . . . . . 76
6.7.1 Test d’une espérence . . . . . . . . . . . . . . . . . . . . . . . 76
6.7.2 Test d’un écart-type . . . . . . . . . . . . . . . . . . . . . . . 78
6.7.3 Test d’un pourcentage . . . . . . . . . . . . . . . . . . . . . . 79
6.8 Tests d’homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.8.1 Test de comparaison de deux variances ou test de Fisher-
Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.8.2 Test de comparaison de deux moyennes . . . . . . . . . . . . . 82
6.8.3 Test de comparaison de deux proportions . . . . . . . . . . . . 84
6.9 Tests de comparaison d’échantillon appariés . . . . . . . . . . . . . . 85
6.10 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.10.1 Analyse de la variance à un facteur. Comparaison de plusieurs
moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.10.1.1 Variance résiduelle et Variance factorielle . . . . . . . 87
6.11 Test de Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.11.1 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . 90
6.11.2 Test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.12 Le test de Henry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Chapitre 1

Analyse combinatoire

1.1 Notions fondamentales


1.1.1 Produit cartésien
Définition 1.1 Soient E et F deux ensembles. On note E × F (on lit E croit F )
ou produit cartésien, l’ensemble des couples (x; y) où x ∈ E et y ∈ F .

E × F = {(x; y)/x ∈ E et y ∈ F }

Exemple 1.1 Soient E et F telque E = {1, 2, 3} et F = {5, 6, 7} alors on a le


produit cartésien
E × F = {(1; 5), (1; 6), (1; 7), . . . , (3; 7)}

Plus généralement si E1 , . . . , En désigne n ensembles. On note E1 × E2 × · · · × En ,


l’ensemble formé des n-uplets de la forme (x1 ; . . . ; xn ) avec xi ∈ Ei pour tout i ∈
{1, 2, . . . , n}.
Si E1 = E2 = · · · = En alors

E1 × E2 × · · · × En = E n .

1.1.2 Cardinal d’un ensemble


Définition 1.2 Soit A un ensemble fini, on dit que A est dénombrable si on arrive
à compter ses éléments. Le nombre d’éléments de A est noté Card(A) ou |A| ou
encore ]A.

Proposition 1.1 Soit E un ensemble fini et A et B deux sous ensemble de E alors


on a :
– Card(A) ≤ Card(E)

5
6 Statistique et Probabilité

– Card(A) = Card(E) si A = E
– Card(A ∪ B) = Card(A) + Card(B) − Card(A ∩ B)
– Card(A × B) = Card(A) × Card(B)

1.1.3 Factoriel d’un nombre


Définition 1.3 Si une action peut être obtenue par de n1 façon différentes, puis sui-
vant cette action, de n2 façon différentes indépendantes des précédentes puis ... alors
Yn
le nombre de possibilités correspondant à l’ensemble de ces actions est N = ni .
i=1
n
Y
On appelle factorielle et on le note n! = i par convention on a 0! = 1.
i=1

Exemple 1.2 5! = 5 × 4 × 3 × 2 × 1 = 120, le nombre de façon de placer 5 étudiants


dans 5 places différentes est 120.

Propriété 1.1

n! = n × (n − 1)!
= n × (n − 1) × (n − 2)!
= n × (n − 1) × (n − 2) × . . . × 1

Cette propriété permet de couper la factorielle en n’importe quelle partie de son


développement.

Remarque 1.1 Dès que n dépasse la dizaine n! se compte en millier ? Il est bon
des fois d’utiliser la formule d’approximation dites de Sterling :
 n n √
n! = 2πn
e
avec π ' 3.14 et e ' 2.71.

1.2 Arrangements
Définition 1.4 Etant donné un ensemble E de n éléménts, on appelle arrangement
de p éléments toute suite ordonnée pris parmi les n éléments.
Le nombre d’arrangements de p éléments pris parmi n éléments est noté Apn .

Remarque 1.2 On a nécessairement 1 ≤ p ≤ n, p ∈ N∗ . Si n < p alors Apn = 0.

M.Badaoui UH1-ENSAK
7 Statistique et Probabilité

1.2.1 Arrangements sans répétition


Définition 1.5 Lorsque chaque objet ne peut être observé qu’une seule fois dans un
arrangements sans répétition (sans remise) de p éléments parmi n est alors
n!
Apn = avec 1 ≤ p ≤ n.
(n − p)!
Dénombrement de Apn
Pour le premier élément tiré, il y a n manières de ranger l’élément parmi n. Pour
le second élément tiré, il n’existe que n − 1 manières de ranger l’élément, car le
premier élément ne plus être pris en compte ( on parle aussi de tirage sans remise).
Ainsi pour les éléments tirés parmi n.
Si 1 ≤ p ≤ n il aura :

Apn = n(n − 1)(n − 2) . . . (n − p + 1)


(n − p)(n − p − 1) · · · 1
= n(n − 1)(n − 2) . . . (n − p + 1)
(n − p)(n − p − 1) · · · 1
n!
=
(n − p)!

Exemple 1.3 Dans un course de 10 chevaux, il y a A310 = 10×9×8 = 720 manières


d’avoir un tiersé dans l’ordre.

Propriété 1.2
Apn = Apn−1 + pAn−1
p−1

1.2.2 Arrangements avec répétition


Définition 1.6 Lorsqu’un élément peut être observé plusieurs fois dans un arran-
gement, le nombre d’arrangements avec répétition (ou avec remise) de p éléments
pris parmi n est alors
Apn = np .

Dénombrement de Apn
Pour le premier élément tiré, il y a n manières de le faire, si on le remait il va y
avoir encore n manières de le faire comme il y’en a p, il va y avoir n | ×n× {z· · · × n}
p f ois
p fois arrangements possible soit np . En effet on a n possibilités pour chaque place.

Exemple 1.4 Si on considère une urne qui contient 9 boules (3 rouges, 3 noires et
3 blanches). On tire 4 boules avec remise de cette urne. Il s’agit d’un arrangement
avec répétition, le nombre de tirage possible est de 94

M.Badaoui UH1-ENSAK
8 Statistique et Probabilité

1.3 Permutations
1.3.1 Permutations sans répétition
Définition 1.7 Etant donné un ensemble E de n éléments ; on appelle permutation
de n éléments distincts, toute suite ordonnée de n éléments ou tout arrangement n
à n de ces éléments. Le nombre de permutation de n éléments est noté Pn = n!.
Remarque 1.3 La permutation sans répétition constitue un cas particulier d’ar-
rangement lorsque n = p.
Exemple 1.5 Le nombre de façons de placer 3 étudiants dans 3 places différentes
est de 3! = 3 × 2 × 1.

1.3.2 Permutations avec répétition


Soit EPun ensemble tel que Card(E) = n et soit n1 , n2 , . . . , nr des entiers naturels
tels que ri=1 ni = n. On appelle (n1 , n2 , . . . , nr )-permutations avec répétition de E
une disposition ordonnée de n éléments. Parmi les n éléments on trouve n1 éléments
a1 , n2 éléments a2 ,. . ., nr éléments ar .
 
 
(a1 , . . . , a1 ); (a2 , . . . , a2 ); . . . ; (ar , . . . , ar )
| {z } | {z } | {z }
n1 n2 nr

Le nombre de permutations est


n!
Pn1 ,n2 ,...,nr = .
n1 !n2 ! . . . nr !
Exemple 1.6 Combient de mots différents peut on écrire en permutant les lettres
du mot ”Yassine”.
Le nombre de mots que l’on peut former est le nombre des {1, 1, 2, 1, 1, 1}-permutations
(avec répétition) de l’ensemble des lettres ”Yassine”, soit
7! 7!
P1,1,2,1,1,1 = = = 2520.
1!1!2!1!1!1! 2!

1.4 Combinaison
1.4.1 Combinaison sans répétition
Définition 1.8 Etant donné un ensemble de n éléments ; on appelle combinaison
de p éléments, tout ensemble de p éléments pris parmis les n éléments sans remise.
Le nombre de combinaison de p éléments pris parmi n est noté Cnp .

M.Badaoui UH1-ENSAK
9 Statistique et Probabilité

Dénombrement de Cnp
Pour une disposition ordonnée de p éléments parmis n sans répétition, il y a Apn
possibilités. Parmi celle ci p! permutations correspondant à la même disposition non
ordonnée. On en déduit que ∀(n; p) ∈ N2 avec p ≤ n

Apn n!
Cnp = = .
p! p!(n − p)!
4
Exemple 1.7 Dans un jeu de 32 cartes, on tire 4 cartes au hazard, on a donc C32
tirages possibles.
4 32 × 31 × 30 × 29
C32 = = 35960.
4×3×2×1
Propriété 1.3
– C01 = Cnn = 1
– Si n ≥ 1, Cn1 = Cnn−1 = n
– Si n ≥ 2, Cn2 = Cnn−2 = n(n−1)
2
– Si n ≤ p, Cnp = Cnn−p
p p−1
– Si 0 ≤ n ≤ p − 1, Cnp = Cn−1 + Cn−1

1.4.2 Combinaison avec répétition


Définition 1.9 Le nombre de combinaison de p éléments parmis n éléments avec
répétition (remise) est
p (n + p − 1)!
Cn+p−1 = .
p!(n − 1)!

Exemple 1.8 Soit la constitution de mots de 3 lettres à partir d’un alphabet à 5


lettres avec remise, on distingue 3 cas possibles.
C53 : nombre de mots de 3 lettres différents.
2.C52 : nombre de mots de 2 lettres différents et 1 lettre redondante.
C51 : nombre de mots de 3 lettres identiques.
D’àù au total C53 + 2.C52 + C51 = C73 soit 35 mots.

C73 = C5+3−1
3 n
= Cn+p−1 n = 5, p = 3

M.Badaoui UH1-ENSAK
Chapitre 2

Calcul de probabilité

2.1 Terminologie
Définition 2.1 Une expérience aléatoire ξ est une expérience qui est répétée dans
des conditions apparement identiques, peut produire des résultats différents.
L’ensemble des résultats possibles d’une expérience aléatoire ξ s’appelle ensemble
fondamental (ou univers ou espace des résultats) et on le note Ω. Ses éléments sont
appelés résultats ou événements élémentaires.

Exemple 2.1 On lance une pièce de monnaie Ω={P ; F}, lancer la pièce est une
expérience aléatoire.

Définition 2.2 Un événement aléatoire, un événement qui peut ou non se réaliser


au cours d’une expérience aléatoire ; c’est un ensemble d’éventualités qu’on note
souvent par A ; c’est donc aussi une partie de Ω ; A ∈ P(Ω).

Exemple 2.2
Jet de dé : expérience aléatoire.
Univers Ω = {1, 2, 3, 4, 5, 6}.
Eventualités : {1}, {2}, {3}, {4}, {5}, {6}.
Evénement A : tomber sur un pair {2, 4, 6}.

2.1.1 Algèbre des événements


– Événement contraire A : A se réalise si et seulement si A n’est pas réalisable.
– Événement A ∩ B : A ∩ B est réalisé si et seulement si A et B sont simul-
tanément réalisés.
Si A ∩ B = ∅ c-à-d la réalisation simultanée des événements A et B est im-
possible ; les événements A et B sont dits incompatibles.

10
11 Statistique et Probabilité

– Événement A ∪ B : A ∪ B est réalisé si et seulement si l’un au moins des


événements A ou B est réalisé.
– Événement A ⊂ B signifie dans tout les cas où B est réalisé A est aussi réalisé.

On arrive au point éssentiel de définir la probabilité d’un événement A (A ⊂ Ω),


qui doit mésurer la chance que l’événement A à de se réaliser lors qu’on effectue une
experience.
La complixité de la définition dépend de celle de Ω : Ω fini ; Ω infini dénombrable
où Ω infini non dénombrable.

2.2 Probabilité dans le cas général


Définition 2.3 Soit Ω un univers, P(Ω) (l’ensemble des parties de Ω) et A ⊂ P(Ω).
On appelle probabilité P sur (Ω, A) une application :

P : A → [0, 1]
ω 7−→ P(ω)

telle que,
– P(Ω) = 1
– Si A et B deux événements incompatibles (A ∩ B = ∅) alors P(A ∪ B) =
P(A) + P(B).
(Ω, P(Ω), P) est appelé espace probabilisé.

Propriété 2.1
1. P(Ā) = 1 − P(A)
2. ∀A ∈ P(Ω); 0 ≤ P(A) ≤ 1
3. P(∅) = 0
4. A ⊂ B ⇒ P(A) ≤ P(B)
5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

2.2.1 Probabilité uniforme sur Ω


Définition 2.4 Lorsque Ω est de cardinal fini et que l’on affecte la même probabilité
à chaque événement élémentaire, on dit qu’on choisit une probabilité P uniforme,
on dit aussi qu’on a une équiprobabilité. On a alors :
1
1. ∀ω ∈ Ω, P(ω) = Card(Ω)
.
Card(E) nombre de cas favorables
2. Pour tout événement E : P(E) = = .
Card(Ω) nombre de cas possibles

M.Badaoui UH1-ENSAK
12 Statistique et Probabilité

Principe à suivre pour résoudre un exercice en probabilité :


1. Définir l’éxpérience aléatoire E et trouver l’univers Ω. C’est la phase la plus
importante.
2. Chercher le Cardinal de Ω : Card(Ω).
3. Définir l’événement dont on veut lui calculer la probabilité en lui attribuant
un nom ”A” par exemple.
4. Chercher le Cardinal de A en s’appuyant sur le dénombrement (chapitre précédent).
5. Appliquer la formule de probabilités pour répondre aux questions.

Exemple 2.3 Une urne contient 7 boules blanches et 5 boules noires, on tire 3
boules de l’urne simultanément et sans remise. Quelle est la probabilité d’avoir 3
boules blanches.

L’expérience aléatoire ξ est de tirer 3 boules de l’urne contenant au total 12 boules


sans remise et sans ordre.
Ω= Ensemble de toutes les événentualités possibles, c-à-d tirer 3 boules parmi 12,
comme le tirage se fait sans remise et l’ordre n’a pas d’importance, il s’agit bien du
3
nombre de combinaison de 3 parmi 12, le cardinal de Ω est C12 .
Soit E l’événement ”avoir 3 boules blanches”.
On a, Card(E)= le choix de 3 boules blanches parmi 7 c’est C73 .
C73
Finalment P(E) = Card(E)
Card(Ω)
= C3
.
12

2.2.2 Probabilité conditionnelle


Définition 2.5 Soit (Ω, P(Ω), P) un espace probabilisé fini et A un événement donné
tel que P(A) 6= 0, B un événement quelconque. On appelle probabilité conditionnelle
de B sachant que A est réalisé le nombre :
P(A ∩ B)
P(B | A) =
P(A)
Exemple 2.4 On tire au hasard une carte parmi 10 (numérotées de 1 à 10).
soit S l’événement ”le numéro tiré est multiple de 3 à condition qu’il soit supérieur
ou égal à 7”

Soient E l’événement ”le numéro tiré est multiple de 3” et F l’événement ”le numéro
tiré est supérieur ou égal à 7”.
On a Ω l’esemble de toute les ventualités possibles, c’est l’ensemble {1, 2, . . . , 10},
3
son cardinal est 10. On a E = {3, 6, 9} donc Card(E) = 3 et P(E) = 10 .
4 1
On a F = {7, 8, 9, 10} donc P(F ) = 10 , comme E ∩ F = {9}, donc P(E ∩ F ) = 10 .
1
P(E∩F ) 1
Si on cherche la probabilité conditionnelle P(E | F ) = P(F )
= 10
4 = 4
10

M.Badaoui UH1-ENSAK
13 Statistique et Probabilité

Remarque 2.1
1. L’événement contraire de A | B est Ā | B.
2. Cas particulier si A ⊂ B alors P(A) ≤ P(B) et P(A ∩ B) = P(A) d’où

P(A ∩ B) P(A)
P(A | B) = = .
P(B) P(B)

2.2.2.1 Formules des probabilités composées


Si A et B sont tels que P(A) > 0, P(B) > 0 on peut écrire :

P(A ∩ B)
P(A | B) = =⇒ P(A ∩ B) = P(A | B).P(B).
P(B)

De même :
P(A ∩ B)
P(B | A) = =⇒ P(A ∩ B) = P(B | A).P(A).
P(A)

– A : l’événement dont on cherche à prévoir la probabilité.


– B : l’élément additionnel qui aide à prévoir la probabilité de A.
– P(A) : c’est la probabilité à priori.
– P(A | B) : probabilité à posteriori de A contenu de B.
– P(B) : à calculer par la formule des probabilités totale.
– P(B | A) : fiabilité informationnelle de B par rapport à A.

Propriété 2.2 (Formules des probabilités totale)


Soit Ω un univers muni d’une probabilité P. Si des parties B1 , B2 . . . Bn constituent
une partition de Ω (i.e Bi ∩ Bj = ∅ pour i 6= j et B1 ∪ B2 ∪ . . . ∪ Bn = Ω) alors pour
tout élément A on a :
n
X n
X
P(A) = P(A ∩ Bk ) = P(A | Bk )P(Bk ).
k=1 k=1

Théorème 2.1 (de Bayes)


n
[
Soit {Bi , i = 1 . . . n} tel que Bi = Ω et Bi ∩ Bj = ∅ pour tout i 6= j avec
k=1
P(Bi ) > 0. Soit A ∈ P(Ω) on a :

P(A | Bk ) P(Bk )
P(Bk | A) = Pn .
i=1 P(A | Bi ) P(Bi )

M.Badaoui UH1-ENSAK
14 Statistique et Probabilité

Exemple 2.5 Chez une banque 20% des employés ont un diplôme en Finance ;
parmi ceux-si ; 70% ont des postes de cadre. Toute fois, parmi ceux qui n’ont pas
de diplôme en finance ; 15% occupent un poste de cadre. Si un cadre de cette banque
est séléctionné au hazard ; quelle est la probabilité qu’il soit un diplômé de finance ?

Les employés sont divisés en deux catégories disjointes :


B1 : employé ayant un diplôme en finance.
B2 : employé n’ayant pas de diplôme en finance.
D’aprés l’information initiale : P(B1 ) = 0.2 et P(B2 ) = 0.8 (1 − P(B1 )).
Notons par A l’événement l’employé choisi est un cadre. On sait que : P(A | B1 ) =
0.7 et P(A | B2 ) = 0.15.
On cherche à déterminer, pour un événement observé ”l’employé choisi est un cadre”,
la probabilité qu’une cause donné ”l’employé diplômé en finance” en soit l’origine :
P(B1 | A) = P(l’employé soit diplômé en finance sachant qu’il est cadre). Par la
formule de Bayes pour le cas n = 2, on a

P(A | B1 )P(B1 )
P(B1 | A) =
P(A | B1 )P(B1 ) + P(A | B2 )P(B2 )
0.2 × 0.7
=
0.2 × 0.7 + 0.8 × 0.15
= 0.5384

2.2.2.2 Indépendances d’événements


Définition 2.6 On dit que 2 événements A et B (de probabilité non nulles) sont
indépendants, lorsque la réalisation de l’un n’a pas d’influence sur la probabilité de
la réalisation de l’autre, c-à-d P(B | A) = P(B) et P(A | B) = P(A).

Théorème 2.2 (Critère d’indépendance)


Deux événements A et B sont indépendants si et seulement si P(A∩B) = P(A)P(B)

M.Badaoui UH1-ENSAK
Chapitre 3

Variables aléatoires discrètes

3.1 Généralités
3.1.1 Définition
Définition 3.1 Soit (Ω, P(Ω), P) un espace probabilisé fini.
On appelle variable aléatoire discrète (v.a.d) toute application

X : Ω → R ou C
ω → X(ω) = a

telle que :
1. Elle prend un nembre fini ou infini dénombrable de valeurs, c-à-d si l’image
X(Ω) de Ω est fini ou infini dénombrable. Autrement dit il existe une suite de
réelles (xi )i∈N distinctes telque X(Ω) = {xi , i ∈ N}
2. Pour tout xk ∈ S : X −1 ({xk }) ∈ P(Ω)

Notation : l’événement X −1 {xk } = {ω ∈ Ω/X(ω) = xk } sera


noté (X = xk ).

Remarque 3.1
1. Le plus souvent, on aura X : Ω → N ou X : Ω → Z.
X
2. Si on note, pour k ∈ N, pk = P(X = xk ) on doit avoir pk = 1.
k∈N
En effet :
[ [ [
S= {xk } ⇒ X −1 (S) = X −1 ({xk }) = (X = xk ) = Ω
k≥1 k≥1 k≥1

15
16 Statistique et Probabilité

or P(Ω) = 1 donc P(X −1 (S)) = 1, mais


X X
P(X −1 (S)) = P(X −1 ({xk })) = P(X = xk ) = 1
k≥1 k≥1

3. On note S = X(Ω) = {x1 , . . . , xk , . . .}, alors ∀xk ∈ S : X −1 ({xk }) ∈ P(Ω).


4. Si B ∈ P(S) alors [
B= {xk }
k: xk ∈B

donc [
X −1 (B) = X −1 {xk } ∈ P(Ω)
k: xk ∈B

et

!
[
P(X −1 (B)) = P X −1 ({xk })
k: xk ∈B
X
= P(X −1 ({xk }))
k: xk ∈B
X
= P(X = xk ).
k: xk ∈B

5. X : Ω −→ R ou C et Y : Ω −→ R ou C deux v.a.d avec X(Ω) = S et


Y (Ω) = S 0 .
Alors αX + βY (α, β ∈ R ou C), XY, X ◦ Y sont des v.a.d.

Exemple 3.1 On jet deux dés bien équilibrés simultanément. Soit X la v.a.d qui
vaut la somme des numéros obtenus.
Ω = {1, . . . , 6} × {1, . . . , 6} = {ω = (ω1 , ω2 ), ωi ∈ {1, . . . , 6}, i = 1, 2}.
X(ω) = ω1 + ω2 , ω ∈ Ω.
X(ω) = {2, 3, . . . , 12} = S et X −1 ({x}) ∈ P(Ω) si x ∈ S.

3.1.2 Loi de probabilité associée à une v.a.d


Définition 3.2 Soit P une probabilité sur un univers Ω.
Soit X une v.a.d définie sur Ω telle que X(Ω) soit fini de cardinal n. Lorsque à
chaque valeur xk (1 ≤ k ≤ n) de X on associé les probabilités pk de l’événement
(X = xk ). On dit qu’on définit la loi de probabilité PX de la v.a.d X.

M.Badaoui UH1-ENSAK
17 Statistique et Probabilité

Théorème 3.1 {(xk ; pk ); 1 ≤ k ≤ n} est la loi de probabilité d’une v.a.d si et


n
X
seulement si pk sont positives et pk = 1.
i=k

Remarque 3.2 kkk


La loi de probabilité d’une v.a.d X est entièrement déterminée par :

X(Ω) et PX ({xk }), xk ∈ X(Ω)

Exemple 3.2 On lance successivement 2 fois une pièce de monnaie. Soit la v.a.d
X représentant le nombre de faces obtenues après ces 2 lancements
1. Donner les valeurs de X.
2. Définir la loi de probabilité de X.
Solution : Ω = {(P ; P ); (P ; F ); (F ; P ); (F ; F )} événement équiprobable.

X : Ω −→ R et X(Ω) = {0; 1; 2}

Valeur de X 0 1 2
1 1 1
PX 4 2 4

Remarque 3.3 Soit X : Ω −→ R une v.a.d, on peut définir la loi de probabilité


PX de X comme étant une fonction d’ensembles par :
PX : P(S) −→ [0, 1], S = X(Ω).
B ; P(X −1 (B)) = PX (B)
PX est une probabilité sur (S, P(S)), en effet :
1) PX (Ω) = P(X −1 (S)) = P(Ω) = 1.
2) Si (Bn )n≥1 est une suite d’événements deux à deux disjoints alors

! !! !
[ [ [
PX Bn =P X −1 Bn =P X −1 (Bn ) PX kkkkk
n≥1 n≥1 n≥1
X
PX kkkkkkkkkkkkkkkkk = P(X −1 (Bn ))
n≥1
X
PX kkkkkkkkkkkkk = PX (Bn ).
n≥1

Notation : on écrira :
PX (B) = P(X −1 (B)) = P(ω/X(ω) ∈ B) = P(X ∈ B)

M.Badaoui UH1-ENSAK
18 Statistique et Probabilité

3.1.3 Fonction de répartition


Définition 3.3 Soit X une v.a.d, on appelle fonction de répartition de X (f.d.r),
la fonction réelle FX définie sur R par :

FX (x) = PX (] − ∞, x]) = P(X ≤ x).

Remarque 3.4 Il est facile de voir que


X
FX (x) = P(X = xk ),
k: xk ∈S
xk ≤x

et si X(Ω) = S = {x1 , . . . , xn } alors :




 0 x < x1

P(X = x1 ) x1 ≤ x < x2





 ..
 .
FX (x) =

 P(X = x1 ) + . . . + P(X = xi−1 ) xi−1 ≤ x < xi
.

 ..





1 x ≥ xn

Proposition 3.1 FX est à valeurs dans [0,1], croissante et continue à droite en


tout point de R.

Exemple 3.3 On lance successivement 2 fois une pièce de monnaie. Soit la v.a.d
X représentant le nombre de faces obtenues après ces 2 lancements.
– Déterminer la fonction de répartition de X.
Solution : d’aprés ce qui précède la loi de probabilité de X est
Valeur de X 0 1 2
1 1 1
PX 4 2 4

la fonction de répartition de X est définit comme suit




 0 x<0
 1

0≤x<1
4
FX (x) = 3
 1≤x<2
 4


1 x≥2

M.Badaoui UH1-ENSAK
19 Statistique et Probabilité

3.2 Lois de probabilités usuelles


3.2.1 Loi de Bernoulli
Soit (Ω, P(Ω), P) un espace probabilisé, A ∈ P(Ω) tel que P(A) = p (0 ≤ p ≤ 1)
on note : 
1, ω ∈ A;
IA (x) =
0, ω 6∈ A.
IA est une v.a.d telle que X(Ω) = {0, 1}, on l’appellera variable aléatoire indicatrice.

P(IA = 0) = P(ω /ω 6∈ A) = P(Ac ) = 1 − p

P(IA = 1) = P(ω /ω ∈ A) = P(A) = pkkkk

Définition 3.4 X : (Ω, P(Ω), P) −→ R est une v.a.d qui suit une loi de Bernoulli
de paramètre p (0 ≤ p ≤ 1) si :
1) X(Ω) = {0, 1}.
2) PX ({1}) = P(X = 1) = p, PX ({0}) = P(X = 0) = 1 − p.
On écrira : X ∼ B(p).

Exemple 3.4 On jette une fois une pièce de monaie dont la probabilité d’avoir pile
est p (0 ≤ p ≤ 1), on considère la v.a.d X définie par :

1, si la pièce fait pile ;
X(ω) =
0, sinon.
comme Ω = {π, F }, π : pile, F : f ace.
Si ω ∈ {π, F } alors

P(X = 1) = p, si ω = π ;
PX ({ω}) =
P(X = 0) = 1 − p, si ω = F .

3.2.2 Loi Uniforme


Définition 3.5 On dit qu’une v.a.d X suit la loi Uniforme sur S = {x1 , . . . , xn }
si :
1) X(Ω) = S.
1 1
2) P({X = xk }) = n
= Card(S)
, ∀k = 1, . . . , n.
On écrira : X ∼ U{x1 ,...,xn } .

M.Badaoui UH1-ENSAK
20 Statistique et Probabilité

Exemple 3.5 On jette un dé bien équilibré, on considère la v.a.d X définie par X
= le point marqué par le dé.

Ω = {1, . . . , 6}, X(Ω) = {1, . . . , 6} = S,


si k ∈ S,
1 1
PX ({k}) = P(X = k) = =
6 Card(S)

3.2.3 Loi Binomiale


Définition 3.6 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Binomiale
de pramètres n, p (0 ≤ p ≤ 1) si :
1) X(Ω) = S = {0, 1, . . . , n}.
2) ∀k ∈ S PX ({k}) = P(X = k) = Cnk pk (1 − p)n−k .
On note : X ∼ B(n, p).

Remarque 3.5 kkk


On vérifie facilement que P est une probabilité sur ({0, 1, . . . , n}, P({0, 1, . . . , n})).

Exemple 3.6 kkk


On jette une pièce de monnaie n fois dans les mêmes conditions.
La probabilité d’avoir pile est p (0 ≤ p ≤ 1).
On considère la v.a.d X égale au nombre de piles lors des n jets.

Ω = {(ω1 , . . . , ωn )/ωi ∈ {π, F }, i = 1, . . . , n}



p, si ωi = π 5cmi = 1, . . . , n ;
P({ωi }) =
1 − p, si ωi = F .
et P({ω}) = pk (1 − p)n−k où k est le nombre de piles, k = 0, 1, . . . , n.

X(Ω) = S = {0, 1, . . . , n}, B = P(S).


Si k ∈ S,
PX ({k}) = P(X = k).
Considérons l’événement (X = k), s’il est réalisé, on a donc k piles et (n − k)
faces.
Les k piles ont été obtenue lors des jets numéros n1 , . . . , nk .
Soit Bn1 ,...,nk = {les jets de rangs n1 , . . . , nk f ont piles et les autres f ont f aces}.
Or
Bn1 ,...,nk = An1 ∩ . . . ∩ Ank ∩ Acnk+1 ∩ . . . ∩ Acn

M.Badaoui UH1-ENSAK
21 Statistique et Probabilité

où Anj = {le j ième jet fait pile}.


Les événements Anj sont indépendants, donc

P(An1 ) . . . P(Ank )P(Acnk+1 ) . . . P(Acn ) = pk (1 − p)n−k .

Or
[
(X = x) = Bn1 ,...,nk ,
n1 ,...,nk ⊂{1,...,n}

réunion disjointe ; donc :


X
P(X = x) = P(Bn1 ,...,nk )
n1 ,...,nk ⊂{1,...,n}
X
P(X = x)k = pk (1 − p)n−k
n1 ,...,nk ⊂{1,...,n}

= Cnk pk (1 − p)n−k .

Remarque 3.6 kkk


Si A1 , . . . , An sont des événements indépendants de même probabilité p, alors la
v.a.d n
X
X= IAk ∼ B(n, p),
k=1

la somme de n Bernoulli B(p) est un Binomiale B(n, p).

3.2.4 Loi de Poisson


Considérons une loi Binomiale B(n, p), 0 < p < 1, telle que np = λ > 0,
quand n −→ +∞, le produit np restant égale à λ, on a

n! p k k k
Cnk pk (1 − p)n−k = (1 − p)n ( ) C p (1 − p)n−k kkkkkkk
(n − k)!k! 1−p n

λ λk n(n − 1) · · · (n − k + 1) λ −k −λ λ
k
kkkkkkkCnk pk (1 − p)n−k = (1− )n . . .(1− ) −→ e , (n → +∞)
n k! λk n k!
k
Donc si X ∼ B(n, p), np = λ ( n est grand et p est petit ), alors P(X = k) ' e−λ λk! ,
on obtient ainsi une nouvelle loi.

Définition 3.7 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi de
Poisson de paramètre λ (λ > 0) si :

M.Badaoui UH1-ENSAK
22 Statistique et Probabilité

1) X(Ω) = N.
k
2) ∀k ∈ N, PX ({k}) = P(X = k) = e−λ λk! .
On note X ∼ P(λ).

On vérifie facilement que PX est une loi de probabilité.

3.2.5 Loi Géométrique


Définition 3.8 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Géométrique
de paramètres p (0 < p < 1) si :
1) X(Ω) = N∗ .
2) ∀l ∈ N∗ , PX ({l}) = P(X = l) = p(1 − p)l−1 .
On note X ∼ G(p).

On vérifie que PX est une probabilité sur (N∗ , P(N∗ )).

Exemple 3.7 kkk


On jette une pièce de monnaie une infinité de fois dans les même conditions telle
que la probabilité de faire pile vaut p (0 < p < 1).
On considère la v.a.d X définie par :

X : le premier indice i tel que pile apparaı̂t.

Ω = {(ω1 , . . . , ωn , . . .)/ωi ∈ {π, F }, i ≥ 1},

X(Ω) = N∗ .

Si l ∈ N∗ , (X = l) = Ac1 ∩ . . . ∩ Acl−1 ∩ Al
où Aj = {pile apparaı̂t au jème jet} avec P(Aj ) = p.
(Aj )j≥1 sont indépendants.

Donc
P(X = l) = PX ({l})P(X = l)
P(X = l)kkkk = P(Ac1 ∩ . . . ∩ Acl−1 ∩ Al )
P(X = l)kkkk = P(Ac1 ) . . . P(Acl−1 )P(Al )
k = p(1 − p)l−1

Proposition 3.2 Si X ∼ G(p) (0 < p < 1) alors ∀k ≥ 1,

P(X = n + k | X > n) = P(X = k), ∀n.

M.Badaoui UH1-ENSAK
23 Statistique et Probabilité

Démonstration

P(X = n + k, X > n) P(X = n + k)


P(X = n + k | X > n) = =
P(X > n) P(X > n)
car (X = n + k, X > n) = (X = n + k).
mais

P(X > n) = 1 − P(X ≤ n)


n
X
P(X > n)kk = 1 − P(X = j)
j=1
n
X
P(X > n)kkkk = 1 − p(1 − p)j−1
j=1
p
P(X > n)kkkk = 1 − (1 − (1 − p)n )
p
M = (1 − p)n
donc
p(1 − p)n+k−1
P(X = n + k | X > n) = = p(1 − p)k−1 .
(1 − p)n

3.2.6 Loi Hypergéométrique


Définition 3.9 On dit qu’une v.a.d X définie sur (Ω, P(Ω), P) suit une loi Hypergéométrique
de paramètres N, n, k si :
1) X(Ω) = {l ∈ N/l ≤ k, l ≤ k, k − l ≤ N − n} = S.
l C k−l
Cn N −n
2) ∀l ∈ S, PX ({l}) = P(X = l) = CNk .
On note X ∼ H(N, n, k).

Exemple 3.8 kkk


Dans un lot de N objets, dont n sont déféctueux, on tire au hasard et sans remise
k objets parmi N . On considère la v.a.d X égale au nombre d’objets défectueux dans
l’échantillon tiré.
Ω = {les sous ensembles de k objets parmi N}, P : probabilité Uniforme.
Si l ∈ S, (X=l)=(l objets déféctueux parmi n et (k-l) objets non déféctueux
parmi N-n)=A.
cardA C l C k−l
−n
P(X = l) = = n N k
cardΩ CN

M.Badaoui UH1-ENSAK
24 Statistique et Probabilité

Remarque 3.7 kkk


n
Lorsque N −→ +∞ et N
−→ p on a :

P(X = l) −→ Clk pl (1 − p)k−l

3.3 Intégration des variables aléatoires discrètes


3.3.1 Espérance mathématique
Définition 3.10 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S au plus
dénombrable, si X
|x|P(X = x) < +∞,
x∈S

on appelle espérance mathématique de X (e.m) et on note E(X) la quantité


X
x P(X = x).
x∈S

Remarque 3.8 kkk


1) Si on suppose que S = {x1 , . . . , xn , . . .}, alors la condition
X
|x|P(X = x) < +∞,
x∈S

revient à affirmer que la série


X
xn P(X = xn ),
n≥1

est absolument convergente.


2) Si S = {un nombre fini d’éléments}, alors E(X) existe toujours.
3) Si X = c (c constante) alors E(X) = c, car S = {c} et
X
E(X) = x P(X = x) = c P(X = c) = c, car P(X = c) = 1 .
x∈S

4) Si X = IA , A ∈ P(Ω), alors E(X) = P(A), car S = {0, 1} et


X
E(X) = x P(X = x) = 0×P(X = 0)+1×P(X = 1) = P(X = 1) = P(A).
x∈S

Exemple 3.9 kkk

M.Badaoui UH1-ENSAK
25 Statistique et Probabilité

1) X ∼ U{x1 ,...,xn } alors


n
1X
E(X) = xi ,
n i=1

car S = {x1 , . . . , xn } et P(X = xi ) = n1 , ∀i = 1, . . . , n.


En particulier si X ∼ U{1,...,n} alors E(X) = n1 ni=1 i = n+1
P
2
.
2) X ∼ B(p), 0 ≤ p ≤ 1 alors E(X) = p, car S = {0, 1} et
E(X) = 0 × P(X = 0) + 1 × P(X = 1) = P(X = 1) = p.
3) X ∼ B(n, p), 0 ≤ p ≤ 1 alors E(X) = np, car
n
X
S = {1, . . . , n}, E(X) = k Cnk pk (1 − p)n−k
k=0

n
X (n − 1)!
E(X) = np pk−1 (1 − p)n−k
k=1
(k − 1)!(n − k)!
n
X (n − 1)!
E(X)llllllllllllllll = np pk−1 (1 − p)n−1−(k−1)
k=1
(k − 1)!(n − 1 − (k − 1))!

on a écrit n − k = n − 1 − (k − 1) donc,
n−1
X (n − 1)!
kkkkkkkE(X) = np p` (1 − p)n−1−`
`=0
`!(n − 1 − `)!

= np(p + (1 − p))n−1
= npkkkkkkkkkkkkkk
4) X ∼ P(λ), λ > 0 alors E(X) = λ, car S = N et
∞ ∞ k ∞
X X
−λ λ −λ
X λk−1
k P(X = k) = ke =e λ < +∞.
k=0 k=0
k! k=1
(k − 1)!

En plus
∞ ∞
X λk−1 X λ`
= = eλ ,
k=1
(k − 1)! `=0
`!

donc E(X) = λe−λ eλ = λ.

Propriété 3.1

M.Badaoui UH1-ENSAK
26 Statistique et Probabilité

1) ∀a, b ∈ R ou C et si X, Y sont deux v.a.d possédant chacune une e.m alors la


v.a.d Z = aX + bY possède une e.m et on a,

E(aX + bY ) = aE(X) + bE(Y ).

2) Si X, Y sont deux v.a.d possédant chacune une e.m et vérifient X ≤ Y alors,

E(X) ≤ E(Y ).

3) S’il existe M > 0 tel que |X| ≤ M alors X possède une e.m et on a,

E(|X|) ≤ M.

La démonstration est laissé au lecteur à titre d’exercice.

Si X est une v.a.d et Y = φ(X) est une v.a.d fonction de X, alors nous allons
donner une proposition qui ramène le calcul de E(Y) en fonction de celui de E(X),
plus précisément :

Proposition 3.3 kkk


Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S, φ : S = X(Ω) −→ R
telle que φ(X) = Y est une v.a.d. On suppose que
X
|φ(x)|P(X = x) < +∞,
x∈S

alors, X
E(Y ) = E(φ(X)) = φ(x)P(X = x).
x∈S

Démonstration : On pose Y (Ω) = S 0 , on a,


[
∀y ∈ S 0 , (Y = y) = (X = x) (∗)
x∈S
φ(x)=y

en effet,
ω ∈ (Y = y) ⇔ Y (ω) ∈ {y} ⇔ X(ω) ∈ φ({y})
ω ∈ (Y = y) ⇔ X(ω) ∈ S et X(ω) ∈ φ−1 ({y})
ω ∈ (Y = y)llllllllll ⇔ ∃ x ∈ S/X(ω) = x et X(ω) ∈ φ−1 ({y})
ω ∈ (Y = y) ⇔ ∃ x ∈ S/X(ω) = x et φ(x) = y

M.Badaoui UH1-ENSAK
27 Statistique et Probabilité

[
ω⇔ω∈ (X = x),
x∈S
φ(x)=y

la dérnière réunion est dénombrable.


Supposons que X
|φ(x)|P(X = x) < +∞,
x∈S

et montrons que X
|y|P(Y = y) < +∞,
y∈S 0

pour cela, d’après (*)


X X X
|y|P(Y = y) = |y| P(X = x)
y∈S 0 y∈S 0 x∈S
φ(x)=y

X X X
|y|P(Y = y) = |y|P(X = x)
y∈S 0 y∈S 0 x∈S
φ(x)=y
X XX
|y|P(Y = y)llllllll = |y|I{φ(x)} (y)P(X = x)
y∈S 0 y∈S 0 x∈S

|y|I{φ(x)} (y)}P(X = x), (d0 après F ubini)


P P P
y∈S 0 |y|P(Y = y)llllllllllllllllllllllllll = x∈S { y∈S 0

or X
|y|I{φ(x)} (y) = |φ(x)|
y∈S 0

donc X X
|y|P(Y = y) = |φ(x)|P(X = x) < +∞.
y∈S 0 x∈S

En conséquences X
E(Y ) = φ(x)P(X = x).
x∈S

3.3.2 Application : Moments d’ordre p, p≥1


Définition 3.11 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S.
Le moment d’ordre p (p ≥ 1) de X est définie par
X
E(X p ) = xp P(X = x)
x∈S

M.Badaoui UH1-ENSAK
28 Statistique et Probabilité

à condition que X
|x|p P(X = x) < +∞.
x∈S

Proposition 3.4 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S,
p, q ∈ R, 1 ≤ p < q.
On suppose que E(|X|q ) < +∞ alors E(|X|p ) < +∞.

Démonstration |X|p = |X|p I{Ω} , Ω = {(|X| ≤ 1) ∪ (|X| > 1)},


donc
|X|p = |X|p I(|X|≤1) + |X|p I(|X|>1) ≤ 1 + |X|q ,
car
E(|X|p ) ≤ 1 + E(|X|q ) < +∞.

Remarque 3.9 kkk


Si q = 2 et p = 1 alors

E(|X|2 ) < +∞ ⇒ E(|X|) < +∞.

3.3.3 Variance d’une variable aléatoire discrète


Définition 3.12 Soit X une v.a.d définie sur (Ω, P(Ω), P), X(Ω) = S,
telle que E(|X|2 ) < +∞.
2
On appelle variance de X et on note V(X), σX la quantité :
X
E[(X − E(X))2 ] = (x − E(X))2 P(X = x).
x∈S

Remarque 3.10 kkk


– E(|X|)p< +∞ car E(|X|2 ) < +∞ en vertu de la proposition 3.4
– σX = V (X) est appelé ecart-type de X.
– X possède une variance si et seulement si E(|X|2 ) < +∞.

Propriété 3.2 Soit X une v.a.d telle que E(|X|2 ) < +∞.
1) V (X) ≥ 0
2) ∀a, b ∈ R ou C, V (aX + b) = a2 V (X).
3) V (X) = E(X 2 ) − (E(X))2 .
X−E(X)
4) On pose Y = σX
, on dit qu’on a centré et réduit X et on a :

E(Y ) = 0, V (Y ) = 1.

M.Badaoui UH1-ENSAK
29 Statistique et Probabilité

Démonstration
On propose la démonstration de la propiété 3), les autres sont laissés au lecteur.
X
V (X) = (x − E(X))2 P(X = x)V (X)kkkkkkkkkkkkkkkkk
x∈S
X
V (X) = [(x2 − 2xE(X) + (E(X))2 ]P(X = x)V (X)kkkkk
x∈S
X X X
V (X)kkkkkkkkkkkk = x2 P(X = x)−2E(X) xP(X = x)+(E(X))2 P(X = x).
x∈S x∈S x∈S
2
On a pu partager les sommes car E(X ) < +∞ et E(|X|) < +∞ car V(X)
existe.
Or X
x2 P(X = x) = E(X 2 ),
x∈S
X
xP(X = x) = E(X)
x∈S

et X
P(X = x) = PX (S) = P(X −1 (S)) = P(Ω) = 1.
x∈S

Donc

V (X) = E(X 2 ) − 2(E(X))2 + (E(X))2 = E(X 2 ) − (E(X))2 .

Exemple 3.10 kkk


(n+1)(2n+1)
1) X ∼ U{1,...,n} alors V (X) = 6
.
2) X ∼ B(p) alors V (X) = p(1 − p).
3) X ∼ B(n, p) alors V (X) = np(1 − p).
4) X ∼ P(λ) alors V (X) = λ.

3.4 Variables aléatoires discrètes indépendantes


La notion d’indépendance de deux v.a.d X et Y est liée naturellement aux
événements (X = x) et (Y = y), x ∈ X(Ω) et y ∈ Y (Ω). On dira que X et Y sont
indépendantes si ∀x ∈ X(Ω), ∀y ∈ Y (Ω), (X = x) et (Y = y) sont indépendants.
Plus généralement on a la définition suivante :

M.Badaoui UH1-ENSAK
30 Statistique et Probabilité

Définition 3.13 Soit X1 , . . . , Xn n v.a.d définies sur (Ω, P(Ω), P), X(Ω) = S,
elles sont indépendantes si et seulement si :
n
Y
∀xi ∈ Xi (Ω), i = 1, . . . , n, P(X1 = x1 , . . . , Xn = xn ) = P(Xi = xi ).
i=1

Proposition 3.5 Si X1 , . . . , Xn n v.a.d indépendantes alors :


1) g1 (X1 ), . . . , gn (Xn ) sont n v.a.d indépendantes, avec gi : Si = Xi (Ω) ; Ti sont
des fonctions continues.
2) Pour tout 1 < m1 < . . . < mk = n, Y1 , . . . , Yk sont indépendantes où

Y1 = (X1 , . . . , Xm1 ), Y2 = (Xm1 +1 , . . . , Xm2 ), . . . , Yk = (Xmk−1 +1 , . . . , Xn ).

Exemple 3.11 kkk


1) Si X1 , X2 , X3 , X4 sont quatre v.a.d à valeurs dans N, alors, si elles sont
indépendantes, il en est de même de (X1 , X3 ), (X2 , X4 ) et de X1 +X3 , X2 −X4 .
2) Si X, Y deux v.a.d indépendantes telles que X ∼ P(λ) et Y ∼ P(µ) alors
X + Y ∼ P(λ + µ).

Proposition 3.6 Si X1 , . . . , Xn sont n v.a.d indépendantes, telles que E(Xi2 ) <


+∞ alors !
Xn Xn
V Xi = V (Xi ).
i=1 i=1

Démonstration Par reccurence sur n :


n=2:

V (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 ) + E(X2 ))2 V (X1 + X2 )kkkk


V (X1 + X2 )kkkkkkkk = E(X12 +2X1 X2 +X2 )−(E(X1 ))2 −(E(X2 ))2 −2E(X1 )E(X2 )
V kk = V (X1 ) + V (X2 ) + 2(E(X1 X2 ) − E(X1 )E(X2 ))
mais E(X1 X2 ) = E(X1 )E(X2 ), (proposition 3.5)
H.R : !
n
X Xn
V Xi = V (Xi ).
i=1 i=1

Montrons que !
n+1
X n+1
X
V Xi = V (Xi )
i=1 i=1

M.Badaoui UH1-ENSAK
31 Statistique et Probabilité

mais ! ! !
n+1
X n
X n
X
V Xi =V Xi + Xn+1 =V Xi + V (Xn+1 )
i=1 i=1 i=1
Pn
car i=1 Xi et Xn+1 sont indépendantes (proposition 3.5).
Pn Pn
HR ⇒ V ( i=1 Xi ) = i=1 V (Xi ).
Donc !
n+1
X n+1
X
V Xi = V (Xi ).
i=1 i=1

M.Badaoui UH1-ENSAK
Chapitre 4

Variables aléatoires réelles

4.1 Définition et propriétés


Définition 4.1 Soit f une fonction de R −→ R, on dit que f est une densité de
probabilité si et seulement si :
1. f ≥ 0 sur R.
2. f est continue sur R sauf en nombre fini de points.
R +∞
3. −∞ f (x)dx = 1.

Définition 4.2 Une application X : Ω → R est appelée variable aléatoire continue


(ou de loi continue) s’il existe une fonction de densité f telque :
pour tout (a, b) ∈ R
Z b
P(a ≤ X ≤ b) = f (x)dx.
a

Propriété 4.1
– ∀a ∈ R, P(X = a) = 0.
– ∀a, b ∈ R, P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b).

Remarque 4.1 Soit (Ω, P(Ω), P) un espace probabilisé, X une variable aléatoire :

X : Ω −→ E

1. Si E = R : X est une v.a.r ssi ∀a ∈ R (X < a) ∈ P(Ω).


2. Si E = C : X est une v.a.c ssi X = u + i v, u, v v.a.r .
k
3. Si E = R : X est un vecteur aléatoire ssi ∀a1 , . . . , ak (X < a1 , . . . , X <
ak ) ∈ P(Ω).

32
33 Statistique et Probabilité

4.1.1 Loi d’une v.a.r


Définition 4.3 Soit X : Ω −→ E une v.a. On appelle loi de X sous P
la probabilité image de P par X. Elle sera notée PX si

B ∈ P(E) PX (B) = P(X −1 (B)) = P(ω/X(ω) ∈ B) = P(X ∈ B)

Remarque 4.2
1. PX est une probabilité sur E.
2. Si E = R, le calcul de la loi d’une v.a.r X se ramène au calcul de
PX (] − ∞, x]), x ∈ R.

4.1.2 Fonction de répartition


Définition 4.4 Même Définition que pour une v.a.d. Si X est continue de densité
f alors
Rx
1. ∀x ∈ R FX (x) = P(X ≤ x) = −∞ f (x)dx.
2. FX est croissante et continue à droite.
3. On remarque que FX0 (x) = f (x).
Rb
4. P(a ≤ X ≤ b) = a f (x)dx = FX (b) − FX (a).
Ra
5. P(X > a) = 1 − P(X ≤ a) = 1 − −∞ f (x)dx = 1 − FX (a).

Remarque 4.3

1. La fonction de répartition FX est une application de R vers R+ , qui tend vers


0 quand x → −∞ et tend vers une limite ` ∈ R+ quand x → +∞.
2. Si X est une v.a.r, PX sa loi, la f.d.r FX associée à X est définie par FX (x) =
PX (] − ∞, x]), x ∈ R.
3. On a aussi

P(X < x) = lim FX (x + h) = lim FX (x + hn )


h→0 hn %0

car FX est %.
En effet si hn % h donc (x + hn ) % (x + h), (n → +∞), ∀x ∈ R.
[
An =] − ∞, (x + hn )], hn % 0, An ⊂ An+1 ⇒ An % An .
n≥1

Or [
An =] − ∞, x],
n≥1

M.Badaoui UH1-ENSAK
34 Statistique et Probabilité

d’où
PX (An ) % PX (] − ∞, x].
Si bien que FX (x + h) % FX (x− ) = P(X < x).

Le calcul de la loi d’une v.a.r X se résume au calcul de sa f.d.r FX , la proposition


suivante renforce cette idée par le fait que FX caractérise la loi.

Proposition 4.1 Soit X et Y deux v.a.r définies sur (Ω, P(Ω), P), FX , FY leurs
f.d.r si ∀x ∈ R FX (x) = FY (y) alors PX = PY .

4.2 Lois de probabilités usuelles


4.2.1 Loi Uniforme sur [a,b], −∞ < a < b < +∞
X v.a.r suit une loi Unif orme sur [a, b], si elle apour densité la fonction f (x) =
 0, x<a
1 x−a
I
b−a [a,b]
(x), on note X ∼ U[a,b] . Sa f.d.r F X (x) = , a ≤x≤b
 b−a
1, x>b

4.2.2 Loi Normale de paramètres, m ∈ R, σ 2 ≥ 0


X v.a.r suit une loi normale (de Gauss ou Gaussiènne), si elle a pour densité la
(x−m)2
1
fonction f (x) = √2πσ exp −1
2 σ2
, ∀x ∈ R. On écrit X ∼ N (m, σ 2 ).
Si m = 0, on dit que X est centrée.
Si m = 0 et σ 2 = 1, on dit que X est centréeR réduite, on écrit X ∼ N (0, 1), sa
u
f.d.r FX notée souvent Φ est donnée par Φ(u) = −∞ fX (x)dx, et on montre que
Φ(u) + Φ(−u) = 1, ∀u ∈ R.

4.2.3 Loi Exponentielle de paramètre λ, λ > 0


X v.a.r suit une exponentielle de paramètre λ, si elle a pour densité la fonction

f (x) = λe−λx I[0,+∞[ (x),


on écrit X ∼ E(λ).
Sa f.d.r FX est donnée par FX (x) = (1 − e−λx )I[0,+∞[ .

M.Badaoui UH1-ENSAK
35 Statistique et Probabilité

4.2.4 Loi de Cauchy de paramètres a, b ∈ R, a 6= 0


X v.a.r suit une loi de Cauchy, si elle a pour densité la fonction
1 a
f (x) = , x ∈ R.
π a + (x − b)2
2

On écrit X ∼ C(a, b) ; si a =1, b=0, on écrit X ∼ C(1).


Sa f.d.r FX est donnée par :
a x x−b
Z Z
a dλ(t) dt a 1
FX (x) = 2 2
= 2 2
= arctan( )+ .
π ]−∞,x] a + (t − b) π −∞ a + (t − b) π a 2

4.2.5 Loi de Laplace


X v.a.r suit une loi de Laplace, si elle a pour densité la fonction
1
f (x) = e−|x| , x ∈ R.
2
Sa f.d.r est donnée par  1 x
2
e , x < 0;
FX = 1 −x
1 − 2 e , x ≥ 0.

4.2.6 Loi Gamma de paramètres p > 0 et θ > 0


X v.a.r suit une loi de gamma γ(p, θ) de paramètres p > 0 et θ > 0, si elle a
pour densité la fonction
θp p−1 −θx
f (x) = x e I[0,+∞[ (x),
Γ(p)
R∞
où Γ(p) est la fonction eulérienne définie par l’intégrale pour p > 0 Γ(p) = 0
tp−1 e−t dt.
Propriété 4.2 (de la fonction Γ )
– Γ(1) = 1. √
– Γ(1/2) = π.
– Γ(x) = (x − 1)Γ(x − 1) pour x > 1.
– Si x = n ∈ N∗ alors Γ(n) = (n − 1)!.

4.2.7 Loi du Khi-deux


X v.a.r suit une loi du Khi-deux χ2 (ν) à ν degrés de liberté, si elle a pour densité
la fonction
1 ν x
f (x) = ν ν
x 2 −1 e− 2 I[0,+∞[ (x),
2 Γ( 2 )
2

M.Badaoui UH1-ENSAK
36 Statistique et Probabilité

Théorème 4.1 Soit X1 ; X2 ; . . . ; Xk des variables aléatoires indépendantes et iden-


tiquement distribuées selon une loi normale N (0, 1). Alors la variable aléatoire
Y = X12 + X22 + . . . + Xk2 suit une loi du khi-deux à k degrés de liberté.
Théorème 4.2 (Additivité la loi du khi-deux) Soient X1 ; X2 ; . . . ; Xp des v.a.
khi-deux à k1 ; k2 ; . . . ; kp degrés de liberté respectivement. Alors Y = X1 +X2 +. . .+Xp
suit une loi du khi-deux à k = k1 + k2 + . . . kp degrés de liberté.

4.2.8 Loi de Student


X v.a.r suit une loi de Student T (ν) à ν degrés de liberté, si elle a pour densité
la fonction
− ν+1
1 Γ( ν+1 x2

2
) 2
f (x) = √ ν 1+ , x∈R
νπ Γ( 2 ) ν
Propriété 4.3
– La fonction de densité f (x) est symétrique par rapport à sa moyenne 0.
– La loi T (ν) est approximativement identique à une loi normale N (0, 1) lorsque
ν est grand.
Théorème 4.3 Soit X une variable aléatoire normale N (0, 1) et Y une variable
aléatoire du khi-deux à k degrés de liberté. Si X et Y sont indépendantes alors la
variable aléatoire
X
T =p
Y /k
suit une loi T (k) de Student avec k degrés de liberté.

4.2.9 Loi de Fisher


X v.a.r suit la loi de Fisher F(ν1 ; ν2 ), si elle a pour densité la fonction
  ν21   ν22
1 ν1 x ν1 x
f (x) = 1− I[0,+∞[ (x),
β ν21 , ν22 x ν1 x + ν2

ν1 x + ν2
 R 1 ν1 ν2
où β ν21 , ν22 = 0 t 2 −1 (1 − t) 2 −1 dt
Propriété 4.4 Par la définition de la loi de Fisher, 1/X ∼ F(ν2 ; ν1 )
Théorème 4.4 Soient X et Y deux variables aléatoires indépendantes suivant une
loi du khi-deux avec u et v degrés de liberté, respectivement. Alors la variable aléatoire
X/u
Z=
Y /v
suit une loi de Fisher à u et v degrés de liberté.

M.Badaoui UH1-ENSAK
37 Statistique et Probabilité

4.3 Intégration des v.a.r


4.3.1 Espérance Mathématique
Soit X une v.a.r définie sur (Ω, P(Ω), P).
Si X ≥ 0 ou X ∈ L1 (P) 1 , on définit l’espérance mathématique de X par le
nombre Z
E(X) = X(ω)dP(ω).

Pour le calcul de l’e.m on dispose de la proposition suivante :

Proposition 4.2 Si X admet une densité f alors


E(g(X)) existe si et seulement si fg est intégrable et on a
Z Z
E(g(X)) = g(X)dP = f (x)g(x)dx.
Ω R

Remarque 4.4

1- E(X) n’existe pas toujours.


Exemple : X ∼ C(1) donc X admet la densité f donnée par
1
f (x) = π(1+x 2) , x ∈ R.

|x|
Z
E(|X|) = dx = +∞,
R π(1 + x2 )
|x|
car la fonction h(x) = π(1+x2 )
est paire, et on a :
+∞ +∞
|x|
Z Z
x
dx = 2 dx
−∞ π(1 + x2 ) 0 π(1 + x2 )
x
mais 1+x2
∼ x1 (au voisinage de + ∞),
et Z +∞ Z +∞
dx xdx
= +∞ ⇒ = +∞ ⇒ E(|X|) = +∞.
1 x 0 π(1 + x2 )
2- X = c (c une constante) alors E(X) = c.
3- X, Y ∈ L1 (P), α, β ∈ R E(αX + βY ) = αE(X) + βE(Y ).
1. L1 (P) = {f /
R

|f (ω)|dP(ω)} < ∞

M.Badaoui UH1-ENSAK
38 Statistique et Probabilité

4.3.2 Variance d’une v.a.r, Moments d’une v.a.r


Soit n ≥ 1, on défnit le moment d’ordre n d’une v.a.r X quand il existe

Z
n
E(X ) = xn f (x)dx.
R

Le moment centré d’ordre n, est µn = E[(X − E(X))n ].


Si n = 2, E[(X −RE(X))2 ] = V (X) = σX 2
= variance de X.
2 2
Et nous avons σX = R (x − E(X)) f (x)dx.

Proposition 4.3 Soit X une v.a.r définie sur (Ω, P(Ω), P), n ≥ 1.
1- Si E(|X|n ) < +∞ alors ∀k : 1 ≤ k ≤ n E(|X|k ) < +∞.
2- E(X n ) existe si et seulement si E(X − a)n existe ∀ a ∈ R.
2
3- σX existe si et seulement si E(X 2 ) < +∞ et on a V (X) = σX
2
= E(X 2 ) −
2
(E(X)) .
2
4- σX = 0 si et seulement si X = c presque partout (c constante réelle).

Démonstration
1- On a |X|k = |X|k I{(|X|≥1)} + |X|k I{|X|<1} ≤ |X|n + 1,
donc E(|X|k ) ≤ 1 + E(|X|n ) < +∞.
2- On constate que (X − a)n = nk=0 Cnk (−a)n−k X k ,
P
comme E(|X|k ) < +∞, ∀k : 0 ≤ k ≤ n, on en déduit le résultat.
2
3- Si σX = V (X) existe donc E(X) existe et on a :

X 2 = (X − E(X) + E(X))2 ≤ (X − E(X))2 + 2XE(X)


⇒ E(X 2 ) ≤ V (X) + 2(E(X))2 < +∞.
Si E(X 2 ) < +∞ donc E(|X|) < +∞ d’après 1), on a aussi

(X − E(X))2 ≤ X 2 + 2|XE(X)| + (E(X))2

⇒ E[(X − E(X))2 ] ≤ E(X 2 ) + 2E|XE(X)| + (E(X))2 < +∞.


Il est facile de voir que V (X) = E(X 2 ) − (E(X))2 .
4- Si X = c ⇒ E(X) = c et V (X) = E(X − c)2 , V (X) = E(X 2 ) − c2 .
Or X 2 = c2 ⇒ E(X 2 ) = c2 d’où V (X) = 0. R
Réciproquement si V (X) = 0 ⇒ E[(X − E(X))2 ] = 0 = (X − E(X))2 dP,
donc (X − E(X))2 = 0 ⇒ X = E(X) = c 

Exemple 4.1 kkk

M.Badaoui UH1-ENSAK
39 Statistique et Probabilité

1- X ∼ U[a,b] , Z Z
1
E(X) = xf dλ(x) = xI[a,b] (x)dλ(x),
b−a
donc Z b
1 (a + b)
E(X) = xdx = ,
b−a a 2
de même
(b − a)2
V (X) = .
12
2- X ∼ N (m, σ 2 ), m ∈ R, σ 2 ≥ 0.

−1 (x − m)2 −(x − m)2


Z Z
1 x 1
E(X) = √ exp dλ(x) = √ x exp dλ(x) = m,
2π R σ 2 σ2 2πσ R 2σ 2

de même V (X) = σ 2 .

Remarque 4.5 kkk


Si σ 2 = 0 alors X est une constante.

4.3.3 Médiane, Quantiles, modes d’une v.a.r


Soit X une v.a.r définie sur (Ω, P(Ω), P), de loi PX .

4.3.3.1 Médiane
On appelle valeur médiane de X tout réel λ tel que :
1
PX (] − ∞, λ]) = FX (λ) ≤
2
et
1
PX ([λ, +∞[) = P(X ≥ λ) ≤ ,
2
donc λ est une valeur médiane si et seulement si FX (λ− ) ≥ 12 ≥ FX (λ),
si FX est continue sur R donc FX (λ− ) = FX (λ), par conséquent λ est une valeur
médiane si et seulement si FX (λ) = 12 .

Exemple 4.2 kkk


1- X v.a.r telle que PX = 21
(δ0 + δ1 ).
 0, x < 0
1
Dans ce cas FX (x) = , 0≤x<1
 2
1, x ≥ 1

M.Badaoui UH1-ENSAK
40 Statistique et Probabilité

Soit λ ∈ R,
si λ > 1 alors PX ([λ, +∞[) = P(X ≥ λ) = 0,
si 0 < λ ≤ 1 alors PX ([λ, +∞[) = P(X ≥ λ) = 12 ,
si 0 ≥ λ alors PX ([λ, +∞[) = P(X ≥ λ) = 1.
En conclusion si λ est tel que 0 ≤ λ ≤ 1 alors
1 1
P(X ≥ λ) = et P(X ≤ λ) ≥ .
2 2
Si bien que toutes les valeurs de l’intervalle [0, 1] sont des valeurs médianes.

2- Soit X une v.a.r telle que X ∼ C(1).


1
Donc elle admet la fonction f (x) = π(1+x 2) , x ∈ R comme densité.
0 est la médiane de X, en effet,
P(X ≥ λ) = 1 − P(X ≤ λ) = 1 − FX (λ),
car FX continue, donc λ est une valeur médiane si et seulement FX (λ) = 12
si et seulement si π1 arctan λ + 12 = 12
si et seulement si arctan λ = 0
si et seulement si λ = 0.
3- En général si X est une v.a.r de densité f alors si f (x) = f (−x), ∀x ∈ R,
donc 0 est la médiane de X.

4.3.3.2 Mode d’une v.a.r


Si X une v.a.r admet une densité f , le mode de X quand il existe est la valeur
pour laquelle f est maximale.

4.3.3.3 Quantiles d’ordre α, α ∈]0, 1[


Le quantile d’ordre α, α ∈]0, 1[, d’une v.a.r X est le réel qα tel que :
P(X ≥ qα ) ≥ 1 − α et P(X ≤ qα ) ≥ α.
Si α = 21 , q 1 = médiane de X.
2

4.3.4 Inégalités de Markov et de Bienaymé-Tchebychef


Proposition 4.4
1- Si X est une v.a.r positive et g : R+ −→ R+ strictement croissante alors
E(g(X))
∀ λ > 0 P(X ≥ λ) ≤ . (Inégalité de Markov)
g(λ)

M.Badaoui UH1-ENSAK
41 Statistique et Probabilité

2- Si X possède une variance finie alors


2
σX
∀λ > 0 P(|X − E(X)| ≥ λ) ≤ λ2
(Inégalité de BT )

Démonstration
1- On a
Z Z Z
E(g(X)) = g(X)dP = g(X)dP + g(X)dP
(g(X)≥g(λ)) (g(X)<g(λ))
Z
≥ g(X)dP
(g(X)≥g(λ))

car Z
g(X)dP ≥ 0.
(g(X)<g(λ))

Or
Z Z
g(X)dP ≥ g(λ) dP = g(λ)P(g(X) ≥ g(λ)),
(g(X)≥g(λ)) (g(X)≥g(λ))

mais g est strictement croissante donc si

X(ω) ≥ λ ⇔ g(X(ω)) ≥ g(λ),

donc
(X ≥ λ) = (g(X) ≥ g(λ)),
par conséquent
E(g(X)) ≥ g(λ)P(X ≥ λ).
Si g ≡ id on obtient l’inégalité :

E(X) ≥ λP(X ≥ λ).

2- Considérer Y = |X − E(X)|, g(x) = x2 , x ≥ 0 et appliquer 1).

4.4 Types de convergences


4.4.1 Convergence en probabilité
Soit (Xn ) une suite de variables aléatoires

Définition 4.5 On dit que la suite (Xn ) converge en probabilité vers une constante
p
a, qu’on note Xn −→ a, si :

M.Badaoui UH1-ENSAK
42 Statistique et Probabilité

∀ > 0 lim P (|Xn − a| ≥ ) = 0


n→+∞

Ce qui revient à dire que :


∀ > 0 lim P ({ω ∈ Ω/|Xn (ω) − a| ≥ }) = 0
n→+∞

Ou encore :
∀ > 0, ∀η > 0, ∃n0 > 0 tel que n > n0 =⇒ P (|Xn − a| ≥ ) < η
On dit aussi que la suite (Xn ) converge en probabilité vers une variable aléatoire X,
qu’on note :
p
Xn −→ X,
si et seulement si la variable aléatoire Xn − X converge vers la constante 0 :
p p
Xn −→ X ⇔ Xn − X −→ 0.

4.4.2 Convergence en loi


C’est une convergence liée aux fonction de répartitions des variables concernées.
Définition 4.6 On dit que la suite (Xn ) de v.a., de fonction de répartitions Fn ,
converge en loi vers une variable aléatoire X, de fonction de répartition F , on note
L
Xn −→ X, si :
lim Fn (x) = F (x)
n→+∞

pour tout point x de continuité de F .

4.4.3 Convergence presque sûre


Définition 4.7 On dit que la suite (Xn ) de v.a., converge presque sûrement vers
p.s
une variable X, on note Xn −→ X, si :
 
P lim Xn = X = 1
n→+∞

ce qui revient à dire :


 
P lim Xn 6= X =0
n→+∞

Remarque 4.6 On dit que deux variables Xet Y sont équivalantes si :


P (X 6= Y ) = 0
Propriété 4.5 On a :
convergence p.s ⇒ convergence en probabilité ⇒ convergence en loi

M.Badaoui UH1-ENSAK
43 Statistique et Probabilité

4.4.4 Loi faible des grands nombres


Théorème 4.5 Soit (Xn ) une suite de v.a. deux à deux indépendants, telles que
n
2 1X p
σ = V (Xi ) et m = E(Xi ) soient finies. posons X n = Xi , alors : X n −→ m
n i=1

4.4.5 Théorème central-imite


Le théorème central-limite est le théorème le plus important de la théorie de la
probabilités et qui joue un rôle primordial en statistique.

Théorème 4.6 Soient X1 ; . . . ; Xn n v.a. indépendantes, et équiditribuées telles que


n √
1X
2
σ = V (Xi ) et m = E(Xi ) soient finies. posons X n = Xi , alors : n(Xσn −m)
n i=1
converge en loi vers la loi normale N (0, 1) quand n tend vers l’infini.

Ce qui veut dire qu’une fois n est suffisamment grand (n > 30), on peut rapprocher
la distribution de la variable :
n
X
Zn = Xi par une loi normale N (E(Zn ), V (Zn ))
i=1

On signale que :

E(Zn ) = n.m et V (Zn ) = n.σ 2

4.4.6 Approximation
Sur un plan plus général, les lois de probabilités mentionnées dans ce chapitre
satisfont à un ensemble de convergences, essentielles pour les applications en statis-
tique, et qui s’énoncent comme suit :
– La loi Hypergéométrique converge, pour N grand, vers la loi Binomiale B(n, p)
(condition le plus souvent satisfaite dès lors qu’on est amené à pratiquer un
sondage).

N
Pratiquement, cette convergence est satisfaite pour n
≥ 10.

– La loi Binomiale B(n, p) converge, pour n assez grand et p ni trop voisin de 1


ni de 0 vers la loi normale N (m = n.p, σ 2 = n.p.q).

C’est le théorème de MOIVRE-LAPLACE qui résulte de l’application du


théorème central limite au cas particulier de la somme de n variables aléatoires

M.Badaoui UH1-ENSAK
44 Statistique et Probabilité

de Bernoulli indépendantes.

Au plan pratique, plusieurs conditions de validité de cette convergence sont


applicables. On peut retenir entre autres, n ≥ 30 et n.p > 5 et n.q > 5, ou,
n ≥ 30 et n.p ≥ 15 et n.p.q > 5.

– La loi Binomiale B(n, p) converge, pour n assez grand, et p faible (ou voisin
de 1) vers la loi de Poisson de paramètre λ = n.p.

Au plan pratique, on peut citer, entre autres, la condition n ≥ 30 et p ≤ 0, 1


et n.p < 15.

– La loi de Poisson de paramètre λ converge, pour n assez grand, vers la loi


normale N (m = λ, σ 2 = λ).

Au plan pratique, la convergence en question devient satisfaisante dès que


λ > 15.

– La loi de Student, T (n), converge, pour n assez grand, vers la loi normale
centrée réduite N (0, 1).

Au plan pratique, cette approximation devient satisfaisante dès que n ≥ 30.

– La loi de Khi-deux, χ2 (n), converge, pour n assez grand, vers la loi normale
N (0, 1).

Ici encore, cette approximation est vérifiée à partir de n = 30.

Le schéma ci-dessous résume les propriétés de convergence susmentionnées :

M.Badaoui UH1-ENSAK
45 Statistique et Probabilité

M.Badaoui UH1-ENSAK
Chapitre 5

Estimation

Le calcul des probabilités apporte les outils nécessaires aux techniques de la


statistique mathématique, c’est-à-dire les modèles qui vont être utilisés pour décrire
des phénomènes réels où le hasard intervient. La statistique est un ensemble de
méthodes permettant de prendre de bonnes décisions en présence de l’incertain.

5.1 Échantillonnage
Une étude statistique portant sur tous les éléments d’une population étant, soit
impossible à réaliser (trop grand nombre d’individus à étudier), soit trop onéreuse, il
faut obtenir des résultats fiables sur les caractéristiques d’une population en se limi-
tant à l’étude des éléments ou unités d’un échantillon. Cet échantillon doit non seule-
ment donner des estimations non biaisées des paramètres mais permettre, de plus,
d’évaluer la marge d’erreurs dues aux fluctuations d’échantillonnage. L’échantillon
doit être représentatif de la population ; il en résulte, en particulier, que chaque
unité doit avoir une probabilité non nulle d’être tirée, un tel échantillon est qualifié
d’aléatoire.

5.1.1 Terminologie
• Population : ensemble des unités sur lesquelles porte l’étude (notons N la taille
de la population).
• Échantillon : sous-ensemble d’unités de population (notons n la taille de l’échantillon).
• Sondage : toute forme d’échantillonnage qui permet de constituer un échantillon
à partir de la population.
• Base de sondage : liste des unités de la population. Il existe de types de bases :

46
47 Statistique et Probabilité

– Les nomenclatures : Liste de noms et d’adresses qui donnent directement


accès à des unités (exemple : liste des élèves inscrit au cycle ingénieur de
l’ENSAK)
– Les bases aléatoires : Liste de régions qui donnent accès indirectement à
des unités (exemple : Départements de l’ENSAK)
• Taux de sondage : rapport entre la taille de l’échantillon et la taille de la popula-
tion.
• Estimateur : résultat estimé à partir des données observées dans l’échantillon qui
représente la valeur vraie du phénomène dans la population, avec un certain
degré d’incertitude.

5.1.2 Méthodes de sondage


Toute démarche statistique consiste à prélever un échantillon représentatif de la
population par des techniques appropriées. Les différentes méthodes utilisées pour
obtenir un tel échantillon relèvent de la théorie de l’échantillonnage.
L’ensemble des techniques de prélèvement de l’échantillon se compose essentiel-
lement de deux approches :
– Méthodes aléatoires (probabiliste).
– Méthodes non aléatoires (non probabiliste).

5.1.2.1 Méthodes probabilistes


Ensemble de méthodes appelées sondages probabilistes, parce que chaque unité
échantillonnée (sélectionnée) a une probabilité connue à l’avance de figurer dans
l’échantillon.
Ceci permet de généraliser l’estimation du phénomène à la population dont est
issu l’échantillon d’apprécier la marge d’erreur, le degré d’incertitude de l’estimateur.
• Sondage aléatoire simple : consiste à choisir des individus de telle sorte que chaque
membre de la population a une chance égale à Nn de figurer dans l’échantillon.
Ce choix peut se faire avec remise (N n échantillons possibles) ou sans remise
n
(CN échantillons possibles).
– Avantage de cette méthode : On peut espérer un échantillon représentatif
puisque la méthode donne à chaque individu de la population une chance
égale.
– Désavantages : la méthode n’est applicable que lorsqu’il existe une liste
exhaustive de toute la population.
• Sondage systématique (pseudo-aléatoire) : est une méthode qui exige aussi l’exis-
tence d’une liste de la population où chaque individu est numéroté de 1 jusqu’à
N . L’entier voisin de N/n sera noté r et appelé raison de sondage ou pas de

M.Badaoui UH1-ENSAK
48 Statistique et Probabilité

sondage.
Pour constituer l’échantillon, on choisit au hasard un entier naturel d entre 1
et r (cet entier sera le point de départ). L’individu dont le numéro correspond
à d est le premier individu, pour sélectionner les autres, il suffit d’ajouter à d
la raison de sondage : les individus choisis seront alors ceux dont les numéros
correspondent à d + r, d + 2r, d + 3r, etc.
– Avantages : facile à sélectionner parce qu’un seul individu est choisi au
hasard, ainsi on peut obtenir une bonne précision parce que la méthode
permet de répartir l’échantillon dans l’ensemble de la liste.
– Désavantages : Les données peuvent être biaisées à cause de la périodicité.
• Sondage avec une probabilité proportionnelle à la taille : Si la base de sondage
renferme de l’information sur la taille de chaque unité (comme le nombre des
élèves d’une école) et si la taille des ces unité varie, on peut utiliser cette
information pour accroı̂tre l’efficacité de l’échantillonnage. Plus la taille de
l’unité est grande, plus sa chance d’être incluse dans l’échantillon est élevée.
• Sondage stratifié : lorsque la population est très hétérogène, cette procédure per-
met d’améliorer la précision des estimateurs retenus à partir d’un sondage
aléatoire. La stratification consiste à découper la population étudiée en groupes
homogènes, appelés strates, et à tirer indépendamment un échantillon aléatoire
dans chaque strate.
– Avantages : Il est peu probable de choisir un échantillon absurde puisqu’on
s’assure de la présence proportionnelle de tous les divers sous-groupes com-
posant la population.
– Désavantages : La méthode suppose l’existence d’une liste de la population.
Il faut aussi connaı̂tre comment cette population se répartit selon certaines
strates.
• Sondage en grappes : Dans certains cas, il est difficile d’obtenir un échantillon
d’individus indépendants les uns des autres. Il peut être plus facile d’enquêter
dans un lieu où ils sont rassemblés (exemple : les sujets d’un même foyer). Le
sous-groupe de la population définit une grappe. Ce sont les grappes qui sont
tirées au sort dans la population et l’ensemble des sujets d’une grappe tirée
au sort sera enquêté.
– Avantages : il n’est pas nécessaire de disposer d’une base de sondage des
individus, une liste des grappes suffit ce qui permet de réduire les coûts de
déplacement, de suivi et de supervision.
– Désavantages : le sondage est moins précis que le sondage aléatoire simple
et l’analyse doit prendre en compte l’effet grappe, ce qui est plus complexe.
• Sondage à plusieurs degrés : Les données de base sont collectées auprès d’un
échantillon d’unité de grande taille, ensuite pour un sous-échantillon de ces

M.Badaoui UH1-ENSAK
49 Statistique et Probabilité

unités, la collecte des données est plus détaillée. Le plus couramment on utilise
deux phase ou échantillonnage double

5.1.2.2 Méthodes non probabilistes


Les méthodes non aléatoires sont des méthodes où le concept de chance égale est
absent, en générale ces méthodes sont peu fiables. Elles ne nécessite pas de base de
sondage et elles sont souvent utilisées pour des études exploratoires, pour réduire
les coûts ou lorsqu’il est impossible ou non envisageable d’utiliser les méthodes
aléatoires. On distingue :
• Sondage à l’aveuglette ou de commodité (exemple : déguster un échantillon de
boisson).
• Sondage de volontaires (exemple : expériences médicales ou psychologiques).
• Sondage au jugé : cette méthode implique la sélection d’individus en fonction de
l’idée qu’on se fait de la composition de la population. On le fait pour des
essais auprès des groupes cibles.
• Sondage par quotas : il est largement utilisé dans les enquêtes d’opinion et les
études de marché notamment parce qu’il ne suppose pas de liste des individus
de la population. On parle aussi de sondage dirigé ou par choix raisonné. On
demande aux enquêteurs de faire un nombre d’entrevues dans divers groupes
établis en fonction du secteur géographique, de l’âge, du sexe ou d’autres
caractéristiques etc. L’enquêteur doit respecter son quota.

5.1.2.3 Sources d’erreurs dans une enquête


Les méthodes de sondage peuvent être sources d’erreurs. Un certain nombre
d’erreurs pourront être éliminées, certaines pourront être réduites, mais d’autres
persisteront. On distingue :
• Erreur d’échantillonnage : Le fait d’étudier un échantillon plutôt qu’un autre
engendre forcément une erreur. Cette erreur est inévitable.
• Erreur de mesure : erreur due à l’appareil de mesure. Un instrument est fidèle s’il
répond exactement de la même façon quand il est placé dans deux situations
identiques. Exemple le thermomètre. Une question claire est dite fidèle quand
tout le monde la comprend de la même façon. Il est valide lorsqu’il mesure
vraiment ce qu’il est censé mesurer.
• Erreur de couverture : erreur liée au fait que la population échantillonnée n’est
pas celle que l’on voulait étudier.
• Non-réponses : absence de mesure pour certaines unités de l’échantillon.

M.Badaoui UH1-ENSAK
50 Statistique et Probabilité

5.1.3 Échantillon aléatoire


Soit X une variable aléatoire réelle. Un échantillon aléatoire d’effectif n ≥ 1 est
un vecteur aléatoire Xn = (X1 , X2 , . . . , Xn ) à n composantes qui sont n variables
aléatoires indépendantes suivant la même loi que X, appelée variable aléatoire pa-
rente.

Remarque 5.1 Pour des raisons de commodité, nous avons supposé que les Xi
sont mutuellement indépendantes. Dans certains cas, l’indépendance deux à deux
sera suffisante.

5.1.4 Statistique de l’échantillon


Toute variable aléatoire T, fonction de l’échantillon aléatoire Xn = (X1 , X2 , . . . , Xn ),
est appelée statistique de l’échantillon.

Remarque 5.2
1. Une statistique peut être à valeurs dans R ou Rp . Dans le dernier cas, nous
parlerons de statistique vectorielle.
2. La difficulté de cette notion est la suivante : nous avons une double concep-
tion, qui est la base de la statistique mathématique. Les valeurs observées
(x1 , x2 , . . . , xn ) (noter que ce sont des minuscules) constituent n réalisations
indépendantes d’une variable aléatoire X ou encore, une réalisation unique du
vecteur aléatoire Xn = (X1 , X2 , . . . , Xn ) à n composantes où les Xi sont n
variables aléatoires indépendantes et de même loi.

La théorie de l’échantillonnage se propose d’étudier les propriétés du vecteur aléatoire


à n composantes et des caractéristiques le résumant, encore appelées statistiques, à
partir de la distribution supposée connue de la variable parente X, et d’étudier en
particulier ce qui se passe lorsque la taille de l’échantillon est de plus en plus élevée.
C’est généralement ce qui préoccupe les statisticiens bien que depuis quelques années
des théories concernant les petits échantillons se développent également.

5.1.5 Distributions échantillonnales


5.1.5.1 Moyenne empirique
Par définition la moyenne empirique d’un échantillon aléatoire X1 , X2 , . . . , Xn
est la statistique suivante :
n
1X
Xn = Xi
n i=1

M.Badaoui UH1-ENSAK
51 Statistique et Probabilité

Puisque les variables de l’échantillon X1 , X2 , . . . , Xn ont la même loi que X, alors


E (Xi ) = E (X) ∀i
En plus, ces variables sont indépendantes, ce qui veut dire que leurs covariances sont
nulles :
Cov (Xi ; Xj ) = 0 ∀ i 6= j
Propriété 5.1 Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une loi parente X
alors :

V X n = n1 V (X) Cov X n ; Xj = n1 V (X)


  
E X n = E (X), et
Ces résultats découlent directement des règles de combinaisons linéaires.

5.1.5.2 Variance empirique


On appelle variance empirique de l’échantillon aléatoire X1 , X2 , . . . , Xn la statis-
tique suivante :
n
1X
Sn2 = (Xi − X n )2
n i=1

Propriété 5.2 Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une loi parente X


alors :

n−1 n−1
(X − E (X))3

E (Sn2 ) = n
V (X) et Cov X n ; Sn2 = n2
E

Donc Cov X n ; Sn2 = 0 si la distribution de X est symétrique.

5.1.5.3 Fonction de répartition empirique


On considère un échantillon X1 , X2 , . . . , Xn d’une variable aléatoire X. On note
F la fonction de répartition de X, c’est-à-dire :
∀t ∈ R ; F (t) = P (X ≤ t) = P (Xi ≤ t)
Définition 5.1 La fonction de répartition empirique associée à cet échantillon est
la fonction :
R −→ [0; 1]
n
1X
t → Fn (t) = I{Xi ≤t}
n i=1

M.Badaoui UH1-ENSAK
52 Statistique et Probabilité

Remarques 5.1
– Pour tout t ∈ R, la variable aléatoire nFn (t) suit la loi Binomiale B(n, F (t)). 
– Pour représenter la fonction Fn , on introduit la statistique d’ordre X(1) , X(2) , . . . , X(n)
associée
 à l’échantillon (X 1 , X2 , . . . , Xn ) définie par
X(1) , X(2) , . . . , X(n) = {X1 , X2 , . . . , Xn } et X(1) ≤ X(2) ≤ . . . ≤ X(n)
On a alors : n
1X
∀t ∈ R; Fn (t) = I{X(i) ≤t}
n i=1

5.2 Estimateur et propriétés d’un estimateur


Un aspect important de la statistique mathématique (dite aussi statistique inférentielle)
consiste à obtenir des estimations fiables des caractéristiques d’une population à
partir d’un échantillon extrait de cette population. C’est un problème de décision
concernant des paramètres tels que :
– l’espérance mathématique notée m ou µ (pour un caractère mesurable),
– la variance ou l’écart-type notée σ,
– la proportion p (pour un caractère dénombrable).
Comme un échantillon ne peut donner qu’une information partielle sur la population,
les estimations ainsi obtenues seront inévitablement entachées d’erreurs que l’on doit
minimiser autant que possible. En résumé :
Estimer un paramètre θ, c’est donner une valeur approchée de θ, à partir des résultats
obtenus sur un échantillon aléatoire extrait de la population.

5.2.1 Estimateur et estimation


Estimateur
Si (X1 , . . . , Xn ) est un échantillon aléatoire d’effectif n de loi parente la loi de X,
alors nous appelons estimateur du paramètre θ. toute fonction hn de l’échantillon
aléatoire (X1 , . . . , Xn ), noté θbn :

θbn = hn (X1, . . . , Xn)

Remarque 5.3
1. priori l’estimateur θbn est à valeurs dans un ensemble Θ, contenant l’ensemble
des valeurs possibles du paramètre θ.
2. θbn est une v.a. de loi de probabilité qui dépend du paramètre θ.
3. θbn peut être univarié ou multivarié.

M.Badaoui UH1-ENSAK
53 Statistique et Probabilité

Estimation
Une fois l’échantillon prélevé, nous disposons de n valeurs observées x1 , . . . , xn , ce
qui nous fournit une valeur hn (x1 , . . . , xn ) qui est une réalisation de θbn et que nous
appelons estimation.

Remarque 5.4
1. Nous distinguons la variable aléatoire θbn de sa valeur observée, notée θbn (x1 , . . . , xn ).
2. Nous utiliserons les notations suivantes :
(i) (X1 , . . . , Xn ) désigne l’échantillon aléatoire de taille n et les n observations
ne sont pas encore à disposition.
(ii) (x1 , . . . , xn ) désigne une réalisation de l’échantillon aléatoire et les n ob-
servations sont à disposition
3. Il faut systématiquement se demander :  suis-je entrain de manipuler une
variable aléatoire ou l’une de ses réalisations ? 

5.2.2 Propriétés d’un estimateur


Le choix d’un estimateur va reposer sur ses qualités. Le premier défaut possible
concerne la possibilité de comporter un biais.
• Bias d’un estimateur
Le biais de θbn se définit par b(n, θ) = E(θbn ) − θ
• Estimateur sans biais
θbn est un estimateur sans biais (ou non biaisé) du paramètre θ si b(n, θ) = 0
c’est-à-dire si E(θbn ) = θ
• Estimateur asymptotiquement sans biais
Un estimateur θbn est asymptotiquement sans biais pour θ si lim E(θbn ) = θ
n→+∞

• Écart quadratique moyen


Si θbn est un estimateur de θ, nous mesurons la précision de θbn par l’écart
quadratique moyen, noté EQM :
 
EQM (θbn ) = E (θbn − θ)2 = V (θbn ) + b(n, θ)2

Remarque 5.5 Si θbn est un estimateur sans biais, c’est-à-dire si b(n, θ) = 0,


alors :EQM (θbn ) = V (θbn )
Propriété 5.3 Entre deux estimateurs de θ, nous choisissons celui dont l’écart
quadratique moyen ou le risque est le plus faible.

M.Badaoui UH1-ENSAK
54 Statistique et Probabilité

• Estimateur relativement plus efficace


Un estimateur θbn1 est relativement plus efficace qu’un estimateur θbn2 s’il est plus
précis que le second, c’est-à-dire si :
   
EQM θbn1 ≤ EQM θbn2

• Estimateur sans biais optimal


Nous appelons estimateur sans biais optimal parmi les estimateurs sans biais,
un estimateur θbn préférable à tout autre au sens de la variance c’est-à-dire
l’estimateur le plus efficace parmi tous les estimateurs sans biais.
• Estimateur convergent
Un estimateur θbn est un estimateur convergent s’il converge en probabilité vers
θ quand n tend vers l’infini.
Propriété 5.4 Si un estimateur est sans biais et que sa variance tend vers
zéro quand n tend vers l’infini, alors cet estimateur est convergent.

5.2.3 Trois exemples


Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X.
• Estimateur de la moyenne
L’estimateur X n est égal à
n
1X
Xn = Xi
n i=1

Propriété 5.5 Pour un échantillon aléatoire dont la loi parente admet une
espérance notée µ, X n est un estimateur sans biais de la moyenne µ, c’est-
à-dire E(X n ) = µ. Lorsque la loi parente admet une variance, notée σ 2 , la
variance de lestimateur µbn est égale à V (X n ) = σ 2 /n et X n est un estimateur
convergent de la moyenne µ.
• Estimateur de la variance
L’estimateur Sn2 est égal à
n
1X
Sn2 = (Xi − X n )2
n i=1

Propriété 5.6 Pour un échantillon aléatoire dont la loi parente admet une
espérance notée µ et une variance notée σ 2 , Sn2 est un estimateur biaisé de la
variance σ 2 et le biais b(n, σ 2 ) est égal à −σ 2 /n.

M.Badaoui UH1-ENSAK
55 Statistique et Probabilité

Sn2 est donc un estimateur asymptotiquement sans biais.

En effet :
On a
n
1X
Sn2 = (Xi − X n )2
n i=1
n
1X 2 2
= (Xi − 2Xi X n + X n )
n i=1
n n n
1X 2 Xn X 1X 2
= X −2 Xi + X
n i=1 i n i=1 n i=1 n
n
1X 2 Xn 1 2
= Xi − 2 n X n + nX n
n i=1 n n
n
1X 2 2
= Xi − X n
n i=1

d’autre part
E(X 2 ) = V (X) + (E(X))2
donc
n
!
1 X 2
E(Sn2 ) = E X2 − Xn
n i=1 i
n
1X  2
E Xi2 − E X n

=
n i=1
n
1 X 2
 2 
= V (Xi ) + (E(Xi )) − V (X n ) + E(X n )
n i=1
 
2 1 2
= V (X) + (E(X)) − V (X) + (E(X))
n
1 1
= V (X) − V (X) = σ 2 − σ 2
n n
• Estimateur corrigé de la variance
2
L’estimateur corrigé de la variance Snc est égal à
n
2 n Sn2 1 X
Snc = = (Xi − X n )2
n−1 n − 1 i=1

M.Badaoui UH1-ENSAK
56 Statistique et Probabilité

Propriété 5.7 Pour un échantillon aléatoire dont la loi parente admet une
espérance notée µ et une variance notée σ 2 , Sn,c
2
est un estimateur sans biais
2
de la variance σ .
En effet
1 2
E(Sn2 ) = σ 2 − σ
n
n
E(Sn2 ) = σ 2
n
 − 1 
n 2
E S = σ2
n−1 n
2
= σ2

E Snc

5.2.4 Vraisemblance d’un échantillon


La vraisemblance des observations x = (x1 , . . . , xn ) d’un échantillon aléatoire de
loi parente la loi de X est définie de la façon suivante :
– Si X est une variable aléatoire continue :
n
Y
θ ∈ Θ 7→ L(x1 , . . . , xn |θ) = f (xi , θ),
i=1

où Θ et l’ensemble des valeurs possibles du paramètre θ.


– Si X est une variable aléatoire discrète :
n
Y
θ ∈ Θ 7→ L(x1 , . . . , xn |θ) = P(X = xi ).
i=1

Remarque 5.6 Les expressions des vraisemblances ci-dessus ne sont valables que
parce que les variables aléatoires X1 , . . . , Xn sont indépendantes par définition d’un
échantillon aléatoire.

En fait, vu la forme des densités des lois usuelles de probabilité, il est aussi aisé
d’utiliser le logarithme de la vraisemblance, log L(x1 , . . . , xn |θ), si f (x, θ) > 0, pour
tout x ∈ Rn , pour tout θ ∈ Θ :
n
!
Y
log L(x1 , . . . , xn |θ) = log f (xi , θ)
i=1
n
X
= log (f (xi , θ))
i=1

M.Badaoui UH1-ENSAK
57 Statistique et Probabilité

5.2.4.1 Information de Fisher


Définition 5.2 L’information de Fisher, quand elle existe, apportée par les n ob-
servations x1 , . . . , xn sur le paramètre θ est :
" 2 #
∂ log(L(x|θ))
In (θ) = E
∂θ

Evidement, que le log(L(x|θ)) soit défini et dérivable par rapport à θ. Si de plus


cette fonction est deux fois dérivables, on a la propriété suivante :

Proposition 5.1 Si le domaine de définition de la densité de probalité f (x, θ) de


la variable X est indépendante de θ, alors :
 2 
∂ log(L(x|θ))
1. In (θ) = −E si cette dernière expression existe,
∂θ2
2. In (θ) = nI1 (θ) où I1 (θ) est l’information relative à un xi .

Exemple 5.1 Soit X une variable aléatoire de loi exponentielle de paramètre 1/θ
avec θ > 0, de densité pour x > 0 :
1 −x/θ
f (x, θ) = e
θ
la vraisemblance admet ici pour expression :
n n
!
Y 1 1X
L(x1 , . . . , xn |θ) = f (xi , θ) = n exp − xi
i=1
θ θ i=1

pour calculer la quantité d’information de Fisher nous écrivons la log-vraisemblance :


n
1X
log L(x1 , . . . , xn |θ) = −n log θ − xi
θ i=1

nous dérivons par rapport au paramètre :


n
∂ log L n 1 X
= − + 2 xi
∂θ θ θ i=1

Comme X(Ω) = R+ est indépendant de θ, on peut utiliser l’expression de la propo-


sition,
n
∂ 2 log L n 2 X
= 2− 3 xi
∂θ2 θ θ i=1

M.Badaoui UH1-ENSAK
58 Statistique et Probabilité

ce qui permet d’obtenir :


n
!
∂ 2 log L
 
n 2 X
In (θ) = −E = −E − Xi
∂θ2 θ2 θ3 i=1
n
!
n 2 X
= − 2 + 3E Xi
θ θ i=1
Pn
comme E ( i=1 Xi ) = nE (X) = nθ on obtient :
n 2 n
In (θ) = −2
+ 3 nθ = 2
θ θ θ
Le théorème suivant va préciser la borne inférieure pour la variance des estima-
teurs sans biais, sous certaines hypothèsess de régularités de la loi de probabilité
de X et que nous appellerons hypothèses de Cramer-Rao. Nous ne donnerons pas
le détail de ces hypothèses qui sont essentiellement des conditions techniques sur la
densité f de X.
Théorème 5.1 sous les hypothèses de Cramer-Rao, en particulier si X(Ω) est
indépendant du paramètre à estimer θ, pour tout estimateur θbn de θ on a :
 2
h i 1 + ∂b(n,θ)
∂θ
E (θbn − θ)2 ≥
In (θ)
Si l’estimateur θbn est sans bias, alors
h i 1
E (θbn − θ)2 = V (θbn ) ≥
In (θ)
2
(1+ ∂b(n,θ)
∂θ )
La quantité BF (θ) = In (θ)
est la borne inférieure de Fréchet-Darmois-
Cramer-Rao (FDCR en abrégé).

La variance d’un estimateur sans biais est minorée par une quantité indépendante
de cet estimateur, elle ne peut donc pas être inférieure à une certaine borne.
Remarque 5.7 Si on estime g(θ) au lieu de θ, ou g est une fonction supposé
connue est dérivable, et si la statistique T est l’estimateur de g(θ), alors l’inégalité
précédente de FDCR devient :
 2
0 ∂b(n,θ)
g (θ) + ∂θ
E (T − g(θ))2 ≥
 
In (θ)
2
(g0 (θ)+ ∂b(n,θ)
∂θ )
et BF (θ) = In (θ)

M.Badaoui UH1-ENSAK
59 Statistique et Probabilité

Définition 5.3 (Estimateur efficace) Un estimateur sans biais θbn est dit efficace
si sa variance est égale à la borne inférieure de FDCR :
1
V (θbn ) =
In (θ)

Exemple 5.2 Si on reprenons l’exemple de la loi exponentielle de paramètre 1/θ,


comme E(X) = θ, on sait que θbn = X n est un estimateur sans biais et convergent.
De plus :
V (X) θ2 1
V (θbn ) = V (X n ) = = =
n n In (θ)
donc X n est efficace.

5.3 Estimateurs ponctuelles


L’estimation θb d’un paramètre quelconque θ est ponctuelle si on lui associe une
seule valeur à partir d’un échantillon aléatoire donné.

5.3.1 Méthode du maximum de vraisemblance


La vraisemblance L(x1 , . . . , xn |θ) représente la probabilité d’observer le n-uplet
(x1 , . . . , xn ) pour une valeur fixée de θ. Dans la situation inverse ici où on a observé
(x1 , . . . , xn ) sans connaı̂tre la valeur de θ, on va attribuer à θ la valeur qui paraı̂t la
plus vraisemblable, compte tenu de l’observation dont on dispose, c’est-à-dire celle
qui va lui attribuer la plus forte probabilité. On se fixe donc la règle suivante : à
(x1 , . . . , xn ) fixé, on considère la vraiszemblance L comme une fonction de θ et on
attribue à θ la valeur qui maximise cette fonction.

5.3.1.1 Estimateur du maximum de vraisemblance


Définition 5.4 Un estimateur du maximum de vraisemblance (EMV) du paramètre
θ est une statistique de l’échantillon :
n
θbn : DX → Θ
x = (x1 , . . . , xn ) 7→ θbn (x1 , . . . , xn )

telle que ∀θ ∈ Θ, L(x1 , . . . , xn |θbn ) ≥ L(x1 , . . . , xn |θ).

Remarques 5.2
1. L(x|θ) n’a aucune raison d’être différentiable en θ.

M.Badaoui UH1-ENSAK
60 Statistique et Probabilité

2. L(x|θ) étant une densité de probabilité, cette méthode revient à supposer que
l’événement qui s’est produit était le plus probable.
3. Il n’y a aucune raison pour qu’un EMV soit sans biais.
4. Un EMV n’a aucune raison d’être unique.
Remarque 5.8 Le principe de vraisemblance, à la base de la procédure d’estima-
tion du maximum de vraisemblance, revient à rechercher la valeur de θ, fonction des
observations (x1 , . . . , xn ), qui assure la plus grande probabilité d’obtenir ces obser-
vations.
La recherche d’un maximum de la vraisemblance n’est pas forcément réduite à un
simple calcul des zéros de la dérivée de L.
Cependant, ce cas étant le plus fréquent, il est logique de poser l’hypothèse suivante :
n
♣ ∀x ∈ DX , ∀θ ∈ Θ, L est deux fois continûment dérivable par rapport à θ.
Alors θbn , EMV, est solution du système d’équations en θ suivant :
∂L


 (x|θ) = 0 (1)
∂θ
2
 ∂ L (x|θ) < 0 (2)

∂θ2
Ainsi, on préfère souvant travailler avec la fonction Logarithme qui est rappelons
le strictement croissante, par conséquent notre système d’équations devient
∂ log L
(1) ⇔ (x|θ) = 0
∂θ
et
∂ 2 log L
(2) ⇔ (x|θ) < 0
∂θ2
Exemple 5.3 Soit X une variable aléatoire de loi exponentielle de paramètre 1/θ
avec θ > 0, de densité pour x > 0 :
1 −x/θ
f (x, θ) = e
θ
la vraisemblance admet ici pour expression :
n n
!
Y 1 1X
L(x1 , . . . , xn |θ) = f (xi , θ) = n exp − xi
i=1
θ θ i=1

pour faciliter le calcul de la quantité, nous écrivons la log-vraisemblance :


n
1X
log L(x1 , . . . , xn |θ) = −n log θ − xi
θ i=1

M.Badaoui UH1-ENSAK
61 Statistique et Probabilité

Cherchons l’EMV pour la famille de lois exponentielle . La log-vraisemblance est


indéfiniment dérivable pour θ > 0 :
n
∂ log L n 1 X
= − + 2 xi
∂θ θ θ i=1
1
Pn
qui s’annule en changeant de signe pour θ = n i=1 xi = xn , avec :

n
∂ 2 log L n 2 X n
2
= 2− 3 xi = 3 (θ − 2xn )
∂θ θ θ i=1 θ

soit pour θ = xn :
∂ 2 log L
 
n
= − <0
∂θ2 θ=xn x2n

donc l’EMV est θbn = X n

Propriété 5.8
– propriété d’invariance fonctionnelle : Si θbn est l’estimateur de θ par la méthode
du maximum de vraisemblance, f (θbn ) est l’estimateur de f (θ) par la méthode
du maximum de vraisemblance.
– Si un estimateur θbn de θ est efficace et sans biais alors nécessairement il est
donné par la méthode du maximum de vraisemblance.
– propriété asymptotique de l’EMV : Si θbn est l’estimateur  de θ par la méthode
p
du maximum de vraisemblance, La variable aléatoire θn − θ b In (θ) suit la
loi normal centrée et réduite N (0, 1), quand n tend vers l’infini.

5.3.2 Méthode des moments


Dans le cas où le paramètre à estimer est θ = E(X), moyenne théorique de la
loi, nous avons vu que l’estimateur naturel était la moyenne empirique, ou moyenne
de l’échantillion, X n . De même, pour estimer le paramètre θ = V (X), variance de
la loi, nous retenons logiquement comme estimateur la variance empirique Sn2 . Plus
généralement, si l’un des moments d’ordre k ∈ N∗ , non centré mk = E(X k ) = mk (θ),
ou centré µk = E(X −m1 )k = µk (θ), dépend de θ, nous allons chercher un estimateur
par résolution de l’équation en θ obtenue en égalant moment théorique et moment
empirique correspondant, soit :
n n
1X k 1X
mkn = Xi = mk (θ) ou µkn = (Xi − X n )k = µk (θ)
n i=1 n i=1

M.Badaoui UH1-ENSAK
62 Statistique et Probabilité

La solution de l’équation, si elle existe et est unique, sera appelée estimateur


obtenu par la méthode des moments. Dans les exemples introductifs où θ = E(X)
et θ = V (X), les équations à résoudre s’écrivaient sous sous forme résolue θ = X n
et θ = Sn2 .

Exemple 5.4 Si X suit une loi exponentielle de paramètre θ, on sait que E(X) =
1/θ et l’équation à résoudre s’écrit X n = 1/θ, de solution immédiate θ = 1/X n qui
correspond à l’estimateur obtenu par la méthode des moments :
1
θbn =
Xn
Bien entendu, on pourrait utiliser cette méthode avec des moments d’ordres plus
élevés et obtenir ainsi d’autres estimateurs. En utisant par exemple la variance
V (X) = 1/θ2 on obtient le nouvel estimateur θbn = 1/Sn .

Cette méthode intuitive se justifie par les propriétés de convergence des moments
empiriques vers les moments théoriques correspondants au chapitre précédent (les
deux théorèmes fondamentaux de la statistique asymptotique : la loi des grands
nombres et le central limite).
D’une manière générale, pour construire des estimateurs θb = (θb1 , θb2 , . . . , θbK ) relatifs
aux paramètres θ = (θ1 , θ2 , . . . , θK ) en utilisant la méthode des moments, on est
amené à résoudre un système à K équations et K inconnus :
n
1X
1. m1 = E(X) = Xi = m1n
n i=1
n
1X 2
2. m2 = E(X 2 ) = X = m2n
n i=1 i
3. . . . . . .
n
1X K
K
K. mK = E(X ) = X = mKn
n i=1 i
Ainsi, à partir de ces K équations et K inconnus θ1 , θ2 , . . . , θK on trouve les solutions
θb1 , θb2 , . . . , θbK qui forment les estimateurs, suivant la méthode des moments, des
paramètres θ1 , θ2 , . . . , θK .
Exemple 5.5 Soit (X1 , . . . , Xn ) un échantillon d’une v.a. X de loi gamma γ(p, θ).
On sait que :
p p
E(X) = et V (X) = 2
θ θ
On voit clairement qu’aucun des paramètres p et θ ne représente un moment de
la variable X, cependant les deux paramètres apparaissent dans la moyenne et la

M.Badaoui UH1-ENSAK
63 Statistique et Probabilité

variance de cette variable. Ainsi, la méthode des moments nous donne le systèm
suivant :
p
1. = X n
θ
p
2. 2 = Sn2
θ
se qui donne facilement la solution :

(X n )2 Xn
pb = et θb = 2
Sn2 Sn

5.4 Estimation par intervalle de confiance


5.4.0.1 Exemple introductif
Un industriel commande un lot de tiges métalliques qu’il ne peut utiliser que si
leur longueur est comprise entre 23.60 mm et 23.70 mm. Ces tiges ont été fabriquées
par une machine qui, lorsqu’elle est réglée à la valeur m, produit des tiges dont la
longueur peut être considérée comme une v.a. X de loi normale N (m, σ), où l’écart
type σ est une caractéristique de la machine, de valeur connue, ici σ = 0.02 mm.
Compte tenu de la symétrie de la distribution normale, la proportion des tiges
utilisables par l’industriel sera maximale si le réglage a été effectué à m0 = 23.65 mm.
Ne connaissant pas cette valeur, à la réception d’un lot de tiges l’industriel prélève
au hazard n tiges dont il mesure les longueurs X1 , . . . , Xn pour se faire une idée de
la valeur du paramètre de réglage m. Il calcule la moyenne des longueurs observées
et ayant obtenu la valeur X n = 23.63, il en conclut que, s’il est peu réaliste de
croire que la valeur de m est exactement 22.63 mm, elle doit malgré tout être très
proche de cette valeur moyenne observée sur l’échantillon. Il lui paraı̂t raisonnable
d’aboutir à une conclusion de la forme ”il y a 95 chances sur 100 que la valeur
de m soit comprise entre 23.63 − a et 23.63 + b”. Le problème consiste alors à
fixer des valeurs précises pour a et b et on conçoit bien qu’elles doivent dépendre des
”chances” que l’on a attribué à cet intervalle de contenir effectivement la vraie valeur
de m. L’intervalle ainsi obtenu s’appellera intervalle de confiance et sa probabilité qui
permis de le déterminer, niveau de confiance. La longueur de cet intervalle sera bien
sûr proportionnelle à ce niveau de confiance. On peut par exemple toujours fournir
un intervalle qui contient avec certitude le paramètre en le choisissant suffisamment
large ; mais dans ce cas, cet intervalle ne nous renseigne en aucune façon sur la vraie
valeur du paramètre. Il faut donc arriver à un compromis entre un intervalle pas
trop grand et une probabilité assez élevée de contenir la paramètre.
Pour une famille quelconque de lois de probabililté (Pθ ; θ ∈ Θ) on peut donner la
définition suivante

M.Badaoui UH1-ENSAK
64 Statistique et Probabilité

Définition 5.5 Un intervalle de confiance pour le paramètre θ, de niveau de confiance


β = 1 − α ∈]0, 1[, est un intervalle qui a la probabilité β de contenir la vraie valeur
du paramètre θ.
La probabilité complémentaire α mesure le risque d’erreur de l’intervalle, c’est-à-dire
la probabilité que l’intervalle ne contienne pas la vraie valeur de θ.

5.4.0.2 Principe de construcion


La donnée de départ, outre l’échantillon, sera la connaissance de la loi de proba-
bilité de la statistique T, Fonction d’un ”bon” estimateur ponctuel θb de θ, utilisée
pour l’estimation par intervalle de confiance du paramètre θ. En réalité il n’existe
pas une méthode de résolution générale de ce problème ; cependant on peut citer la
démarche suivante :
Dans l’exemple précédent, nous avions abouti à un intervalle de la forme X n − a <
m < X n + b qui correspond à la réalisation d’un événement devant se produire avec
une probabilité fixée 1 − α. La détermination des valeur a et b va donc se faire à
partir de la valeur 1−α de la probabilité, fixé par le staticien, à partir de la condition
qui s’écrit ici :

1 − α = P (X n − a < m < X n + b)

qui est équivalente à :

1 − α = P (−b < X n − m < a)

Il n’y a donc qu’une seule condition pour déterminer ces deux valeurs ; cependant, la
loi de la v.a. X n − m qui sert à construire cet intervalle étant symétrique, on choisit
b = a et on utilise la variable centrée et réduite pour déterminer la valeur de a qui
vérifie la condition :
 
a Xn − m a
1−α = P − √ < √ < √
σ/ n σ/ n σ/ n
Si F est la fonction de répartition de la loi N (0, 1), alors a est solution de :
√ √ √
1 − α = F (a n/σ) − F (−a n/σ) = 2F (a n/σ) − 1
√ √
ou 1 − α/2 = F (a n/σ), soit a n/σ = F −1 (1 − α/2). Pour un niveau de confiance
de 0.95, soit α = 0.05, et pour une taille d’échantillon n = 100, le fractille d’ordre
0.975 de la loi N (0, 1) a pour valeur 1.96 et on en déduit a = 0.004, d’ou l’intervalle :

23.626 < m < 23.634

obtenu pour cet échantillon particulier.

M.Badaoui UH1-ENSAK
65 Statistique et Probabilité

5.4.1 Estimation usuels


5.4.1.1 Estimation de la moyenne : cas de la loi normale
Soit X1 , . . . , Xn un échantillon aléatoire simple extrait d’une variable X suivant
la loi normale N (m, σ). Cette fois-ci le paramètre θ = m, on distingue deux cas :

a) Variance σ 2 connue :
La moyenne empirique X n est le meilleur estimateur de m et on sait que√X n suit
pour tout n exactement la loi normale N (m, √σn ). Donc la statistique T = n X nσ−m
suit la loi normale centrée et réduite N (0, 1). Dés lors pour α donnée on peut trouver
u telle :
√ X n − m
 
P n
<u
= 1−α
σ
qui est équivalente à :
 
σ σ
P Xn − √ u < m < Xn + √ u = 1−α
n n
Par conséquent, l’intervalle de confiance cherché est le suivant :
 
σ σ
X n − √ u, X n + √ u
n n

b) Variance σ 2 inconnue :

La statistique T = n X nσ−m utilisée dans la situatuion précédente, et dont la loi
était connue, était la variable centrée et réduite. Elle ne peut convenir ici puisque
le paramètre σ est inconnu et va donc devoir être remplacé par un estimateur, basé
sur la variance empirique modifiée qui est un estimateur sans biais de la variance
théorique σ 2 .
n
2 1 X
Snc = (Xi − X n )2
n − 1 i=1

On utilise donc comme nouvelle statistique :


√ Xn − m
Tn−1 = n
Snc
qui suit la loi de Student à n − 1 degrés de liberté. Dés lors pour α donnée on peut
déterminer la valeur de t, par lecture du tableau de fractile de la loi de student, telle

M.Badaoui UH1-ENSAK
66 Statistique et Probabilité

que :

√ Xn − m
 
P −t < n <t = 1−α
Snc

L’intervalle a bien sûr été choisi symétrique puisque la loi utilisée est symétrique.
Par inversion de cet intervalle, on obtient :
 
Snc Snc
P Xn − t√ < m < Xn + t√ = 1−α
n n

ce qui fournit l’intervalle de confiance pour m de niveau 1 − α, centré en X n et de


longueur aléatoire Ln = 2t S√ncn :
 
Snc Snc
Xn − t√ , Xn + t√
n n

Remarque 5.9 Pour n > 30, et grâce au théorème central-limite, les deux procédures
précédentes restent encore valables même si l’échantillon n’est pas nécessairement
extrait d’une loi normale.

Exemple 5.6 Sur un échantillon de n = 30 durées de vie d’un certain modèle


de lampe on a obtenu comme moments empiriques x30 = 2000h et s30 = 300h.
L’intervalle de confiance de niveau 0.95 pour la durée de vie moyenne m est donc :
s30 s30
x30 − t √ < m < x30 + t √
30 30
où t est défini par P (−t < T29 < t) = 0.95 ou P (T29 < t) = 0.975 soit t = 2.045
d’où l’intervalle :
1888 < m < 2112
de longueur l = 224h observé sur cet échantillon. Si σ avait été connu, de même
valeur que celle observée sur l’échantillon, soit σ = 300, l’intervalle correspondant
aurait été :
σ σ
x30 − u √ < m < x30 + u √
30 30
avec u = F −1 (0.975) = 1.96 soit l’intervalle 1893 < m < 2107, de longueur l =
214h, inferieure à la précédente. Ainsi, la connaissance du paramètre σ conduit
logiquement à un intervalle plus précis.

M.Badaoui UH1-ENSAK
67 Statistique et Probabilité

5.4.1.2 Estimation de la variance : cas de la loi normale


a) La moyenne m connue :
On a θ = σ, or le meilleur estimateur de σ 2 est σ bn2 = n1 ni=1 (Xi − m)2 cet un
P
estimateur sans biais, convergent et efficace. De plus la statistique :
n
X b2
σ
T = (Xi − m)2 = n n2
i=1
σ
est de loi connue χ2n à n degrés de liberté. Dès lors pour α donnée on peut déterminer
les valeurs de a et b telles que :
bn2
 
σ
P a<n 2 <b = 1−α
σ
ce qui conduit à l’intervalle de confiance défini par :
 2
bn2

σ
bn 2 σ
P n <σ <n = 1−α
b a
Par conséquent l’intervalle de confiance cherché est le suivant :
 2
bn2

σ
bn σ
n ,n
b a
Cependant, il n’y a qu’une seule condition pour déterminer les deux valeurs a et b et
il reste à un degré d’incertitude puisque loi utilisé n’est pas symétrique. si on pose
α1 = P (χ2n < a) et α2 = P (χ2n > b), la soule contrainte dans le choix de α1 et α2
est α1 + α2 = α.
Exemple 5.7 Pour estimer la précision d’un thermomètre, on réalise 15 mesures
independantes de la température d’un liquide qui maintenu à température constante,
égale à 20 degrés celsius. Compte tenu des erreurs de mesure, la valeur indiquée
par le thermomètre peut être considérée comme une v.a normale dont la moyenne
m est la valeur exacte de la température, soit ici m = 20, et dont l’écart type σ est
inconnu et caractérise la précision du thermomètre. On a observé sur l’échantillion
2
de taille 15 la valeur σ b15 = 18 et qu’on retient un intervalle à erreurs symétriques
(choix le moins arbitraire), pour un niveau de confiance 1 − α = 0, 99 on lit dans la
table des fonction de répartition de la loi χ2n les valeurs a = 4, 60 et b = 32, 8 d’où
l’intervalle :
8, 23 < σ 2 < 58, 70
Mais compte tenu de l’interprétation du paramètre qui mesure ici un degré d’imprécision,
on souhaite qu’il soit le plus faible possible et on retient plus logiquement un inter-
valle unilatéral à gauche, de la forme σ 2 < constante, ce qui corresppond au choix
α1 = α = 0, 01 et α2 = 0, soit a = 5, 23 et l’intervalle :
σ 2 < 51, 63

M.Badaoui UH1-ENSAK
68 Statistique et Probabilité

b) La moyenne m inconnue :
bn2 , ainsi
On a m est inconnue donc on va la remplacer par son estimateur X n dans σ
l’estimateur sans biais et convergent de qu’il faut retenir est :
n
2 1 X
Snc = (Xi − X n )2
n − 1 i=1

Or on sait que la statistique


2
Snc
T = (n − 1) 2
σ
suit une distribution de χ2n−1 à n − 1 degrés de liberté, et on doit donc déterminer
les valeurs de a et b telles que :
2
 
Snc
P a < (n − 1) <b = 1−α
σ

ce qui conduit un intervalle de confiance défini par :


2 2
 
Snc Snc
P (n − 1) < σ < (n − 1) = 1−α
b a

Par conséquent l’intervalle de confiance cherché est le suivant :


2 2
 
Snc Snc
(n − 1) , (n − 1)
b a

Là encore, il n’y a qu’une seule contrainte pour déterminer


 les valeurs de a et b ; si
2 2
nous posons α1 = P χn−1 < a et α2 = P χn−1 > b , la contrainte est α1 + α2 = α.

Exemple 5.8 Sur un échantillion de seize chifres d’affaires de magasins d’une


chaine de grandes surfaces on a observé s216 = 72, 53. L’intervalle de niveau 0, 95 à
risques symétriques est définit à partir de α1 = α2 = 0, 025 et on lit dans la table
de fonction de répartition de la loi de χ2n−1 , a = 6, 26 et b = 27, 49 d’où l’intervalle
39, 59 < σ < 173, 79. Si on fait le choix d’un intervalle unilatéral à gauche, soit
α = α1 = 0, 05 et α2 = 0 on obtient a = 7, 26 et l’intervalle σ 2 < 149, 86 qui est de
longueur plus grande que le précédent.

5.5 Estimation d’une proportion


Soit une population formé d’individus ayant ou non un caractère A avec une
propbabilité p d’obtenir le caractère (paramètre d’une loi Binomiale). On cherche à

M.Badaoui UH1-ENSAK
69 Statistique et Probabilité

déterminer cette probabilité inconnue en prélevant un échantillon (avec remise si la


population est finie) de taille n dans cette population. On constate que x éléments
pami les n idividus possèdent le caractère A. On considére maintenant la variable
fréquence X/n, elle a les propriétés d’un estimateur sans biais de p et convergent.
Soit une population où une proportion des individus possède un caractère A avec
une propbabilité p d’obtenir le caractère (paramètre d’une loi Binomiale), cette po-
pulation est supposée infinie (ou finie si le tirage s’effectue avec remise). Le problème
consiste à déterminer un intervalle de confiance pour la probabilité p à partir des
résultats apportés par un échantillon de taille n. cet échantillon, on associe la va-
riable aléatoire X qui compte le nombre de succès (avoir ce caractère) au cours de
n essais indépendants, cette variable suit la loi Binomiale B(n; p). Le paramètre à
estimer est la probabilité p de succès au cours d’une épreuve.
Un estimateur sans biais du paramètre p est la fréquence f = X/n de succès à
l’issue de n épreuves, X étant le nombre de succès (de personnes ayant le caractère
A) obtenus au cours de ces n épreuves :
r
p(1 − p)
E(f ) = p V (f ) =
n
Selon les valeurs de n et de p, cette loi admet différentes lois limites qui sont utilisées
pour déterminer un intervalle de confiance. Dans la pratique, on peut :
– utiliser les tables statistiques qui donnent les limites inférieures et supérieures
d’un intervalle de confiance calculées pour différents seuils et différentes valeurs
de n et k,
– utiliser et justifier l’approximation normale.
Intervalle de confiance d’une proportion calculée avec l’approximation normale : si
n ≥ 50, np > 5 et n(1−p) > 5, la loi de la variable aléatoire f (fréquence des succès)
peut être approchée par la loi normale :
r !
p(1 − p)
N p,
n

Donc la statistique T = q f −p suit asymptotiquement une loi normale centrée


f (1−f )
n
réduite N (0, 1) (théorème de Stutsky).
Un intervalle bilatéral à risques symétriques (f est la fréquence observée sur l’échantillon)
est donné par :
 
f −p
P −t < q < t = 1 − α
f (1−f )
n

M.Badaoui UH1-ENSAK
70 Statistique et Probabilité

ce qui fournit l’intervalle de confiance suivant :


" r r #
f (1 − f ) f (1 − f )
f −t ,f + t
n n

Exemple 5.9 Soit un échantillon de taille n = 100 et une proportion estimée f =


0.6. Quel intervalle qui donne une confiance de 0.9 ?
On a ici : 1 − α = 0.9 donc α = 0.1 et t = 1.96.
L’intervalle de confiance autour de la proportion estimée est donc :
" r r #
f (1 − f ) f (1 − f )
f −t ,f + t = [0.5194, 0.6808] .
n n

M.Badaoui UH1-ENSAK
Chapitre 6

Les Tests

6.1 Introduction
La théorie de tests d’hypothèses a un intérêt primordial en pratique. En fait elle
consiste à partir d’un échantillon de prendre une décision concernant la population
tout entière. Cette décision est sous forme d’une réponse à une question par oui
ou non. Puisque la réponse sera due uniquement aux informations données par un
échantillon de la population, alors on accepte évidemment un risque d’erreur, fixé
d’avance, concernant notre réponse. Ces décisions peuvent concerner différents do-
maines d’applications.
Si la loi de probabilité PX de la population d’où il est extrait l’échantillon est sup-
posée appartenir à une famille connue de lois de probabilités mais dépendre d’un
paramètre θ, on parle alors des tests paramétriques. Par contre si cette loi appar-
tient plutôt à une large classe de lois de probabilités qui ne met pas en évidence
des paramétriques, on parle alors des tests non paramétriques. Ces derniers test ne
mettent aucun hypothèses sur l’origine de provenance de l’échantillon, en plus ils
restent en général valables même si la taille de celui-ci est petit.

6.2 Hypothèses nulle et alternative


Un test statistique est une procédure qui, à partir d’un échantillon, permet de
prendre une décision en choisissant entre deux possibilités que nous avons définies
nous même. Ces possibilités sont dites des hypothèses, et notées H0 et H1 :
H0 s’applelle hypothèse nulle, et H1 s’appelle hypothèse alternative.
L’hypothèse nulle H0 est souvent l’hypothèse priviligiée, c’est celle qu’on souhaite
prendre comme décision.
Dans un modèle paramétrique, la loi de probabilité Pθ de la variable alétoire X est
supposée appartenir à une famille connue de lois de probabilités mais dépendante

71
72 Statistique et Probabilité

d’un paramètre inconnu θ ∈ Θ. C’est ce paramètre θ qui nous intéresse. Ainsi, on


partition l’ensemble Θ en deux parties disjoints Θ0 et Θ1 , pour tester l’hypothèse
nulle :
H0 : θ ∈ Θ0
Contre l’hypothèse alternative :

H1 : θ ∈ Θ1

Définition 6.1 Une hypothèse Hi (i=0 ou 1) est dite simple si Θi contient qu’un
seul élément, et elle est dite composite sinon.

Exemple 6.1 Deux tests d’hypothèses sont intéressants en pratique, il s’agit des
tests suivants :
– Test d’une hypothèse simple contre une hypothèse simple :

H0 : θ = θ0
H1 : θ = θ1

– Test d’une hypothèse simple contre une hypothèse composite :

H0 : θ = θ0
H1 : θ 6= θ0 (ou bien H1 : θ > θ0 )

6.3 Risque de 1er et 2eme espèce


Pour effectuer un test, on doit choisir une statistique T (critère de test) conve-
nable de telle manière que :
– On accepte l’hypothèse nulle H0 si T ∈ I0 S T
– On accepte l’hypothèse alternative H1 si T ∈ I1 , où I0 I1 = R et I0 I1 = ∅

Définition 6.2 On appelle région critique, la partie R de R qui permet de refuser


H0 en faveur H1 . Elle est donnée par : R = {t ∈ R/T ∈ I1 }

Donc, l’ensemble des valeurs observées pour lesquelles l’hypothèse nulle est admis-
sible forme la région d’acceptation ou de non-rejet et les autres valeurs constituent
la région de rejet ou domaine de rejet ou région critique.
Dans ce cas la statistique T s’appelle aussi le test T . En autre, suite à un test on
doit choisir une seule décision à savoir : accepeter H0 ou bien H1 . par suite, on peut
distinguer quatre possibilités suivantes :

M.Badaoui UH1-ENSAK
73 Statistique et Probabilité

Tableau des erreurs

Réalité H0 vraie H0 fausse


Décision
Accepter H0 Bonne décision erreur de 2eme espèce
Refuser H0 erreur de 1er espèce Bonne décision

Tableau des risques


Réalité H0 vraie H0 fausse
Décision
Accepter H0 1−α β
Refuser H0 α 1−β

Le risque de 1er espèce, notée α, est la probabilité de refuser l’hypothèse H0 , alors


qu’elle est vraie :

α = P (T ∈ I1 /H0 vraie)

Le risque de 2eme espèce, notée β, est la probabilité d’accepter l’hypothèse H0 , alors


qu’elle est fausse :

β = P (T ∈ I0 /H1 vraie)

Définition 6.3 On appelle puissance d’un test T , la probabilité de refuser H0 lors-


qu’elle est fausse. C’est donc la quantité : 1-β.

Remarques 6.1
i. Le choix de l’hypothèse nulle est fait de façons à pouvoir déterminer la loi du
critère T.
ii. Ne pas rejeter l’hypothèse nulle ne signifie pas qu’on doit automatiquement l’ac-
cepter et la considérer comme vraie ! Cela signifie simplement qu’au vue des
informations disponibles, on n’a pas de raison de la considérer comme fausse.
iii. Lorsque le critère de test appartient à la zone de rejet, il se peut que
– l’hypothèse H0 soit fausse.
– H0 soit vraie mais que l’échantillon corresponde à l’un des cas rares obser-
valbes sous cette hypothèse,
– l’échantillon n’ait pas été tiré au hazard.

M.Badaoui UH1-ENSAK
74 Statistique et Probabilité

6.4 Exemples d’utilisation


6.4.0.3 Comparer un échantillon à une référence théorique
L’hypothèse H0 consiste à supposer que les différences observées sont suffisement
faibles pour être explicables par le hazards du tirage au sort. Il s’agit d’un test de
conformité.

6.4.0.4 Comparer plusieurs échantillons


L’hypothèse H0 consiste à supposer qu’il proviennent d’une même population,
c’est-à-dire que les différences observées sont explicables par la fluctuations d’échantillonage.
Il s’agit d’un test d’homogénité.

Exemple 6.2 (Risque du vendeur, risque de l’acheteur) en économie, le rsique


de première espèce α s’appelle le risque du vendeur, et le risque de deuxième espèce
β le risque d’acheteur. Pourquoi ?
Un acheteur passe une commande très importante, avec des spécifications à respec-
ter.
À la livraison, l’acheteur ne peut pas tout contrôler. Il analyse un échantillon de
produits, en faisant attention au caractère aléatoire du prélèvement.
En général, il n’y a pas de problème. Mais deux types de décision erronée peuvent
apparaı̂tre :
♣ Le prélèvement ne respecte pas les spécifications et la commande est refusée, alors
qu’elle était globalement bonne (H0 est déclarer fausse, alors qu’elle est vraie).
C’est le risque α ; supporté par le vendeur.
♣ Le prélèvement respecte les spécifications et la commande est accpetée, alors
qu’elle était globalement mauvaise (H0 est déclarer vraie, alors qu’elle est
fausse). C’est le risque β ; supporté par l’acheteur.

6.5 Choix d’un test suivant le procédure de Ney-


man
Pour effectuer un test il faut en premier lieu :
– Choisir une statistique pour effectuer ce test.
Mais, pour que cette statistique soit convenable, il faut, en principe, avoir à la fois
une puissance maximale et une erreur de 1er espèce minimal. Cependant, ces deux
grandeurs ne sont pas symétriques, d’où l’impossibilité de satisfaire ces deux condi-
tions en mêmes temps. C’est pour cette raison que les deux statisticiens Neyman et
Pearson ont proposé, pour effectuer un test, de :

M.Badaoui UH1-ENSAK
75 Statistique et Probabilité

1. Préciser l’hypothèse nulle H0


2. Choisir le test statistique T approprié pour tester H0
3. Trouver la distribution d’échantillonnage de la statistique T sous H0
4. Spécifier un niveau α de signification
5. Sur la base de 2, 3 et 4 définir la région critique par α = P (T ∈ I1 /H0 vraie)
6. Finalement, determiner la valeur t0 de la statistique T à partir de l’échantillon
disponible. Si t0 ∈ I1 on rejète l’hypothèse nulle H0 sinon on accepte H0 .

6.6 La classification des tests


Très vaste est la palette des tests qui peuvent être mis en œuvre pour traiter des
problèmes ayant pour objet :
– la conformité d’un paramètre à une valeur standard donnée, les cas les plus
courants étant ceux d’une moyenne, d’une proportion, et d’une variance ;
– la comparaison d’un paramètre ou plus généralement d’une distribution de
probabilités entre K groupes (populations, échantillons...), le cas K = 2 étant
plus particulièrement développé ici ;
– l’ajustement d’une distribution théorique donnée aux données observées ;
– l’indépendance entre variables aléatoires ;
– ···
• A cet effet, les deux grandes familles à considérer sont celles ;
– des tests paramétriques qui portent sur le paramètre de la distribution as-
sociée aux données considérées ;
– des tests non paramétriques qui ne font pas d’hypothèse sur ladite distribu-
tion.
• Le choix du test à utiliser est également fonction de la nature des données pro-
posées :
– paramétrique ou non, dans le cas de valeurs représentatives des écarts, telles
des mesures (variables dites quantitatives) ;
– non paramétrique, dans le cas contraire de variables qualitatives ou ordi-
nales à valeurs en nombre fini, telles oui-non, homme-femme, peu satisfait-
satisfait-très satisfait...
• Enfin, dans le cadre des problèmes de comparaison, on distinguera :
– les échantillons indépendants dans lesquels les observations faites sont indépendantes
à l’intérieur d’un groupe et entre les groupes considérés ;
– les échantillons appariés dans lesquels d’un groupe à l’autre les données sont
liées, tel le cas le plus courant où il est procédé à des mesures répétées sur
les mêmes sujets (par exemple, le poids d’une personne avant et après un
régime).

M.Badaoui UH1-ENSAK
76 Statistique et Probabilité

6.7 Quelques tests paramétriques usuels : cas d’un


échantillion
On suppose dans ce chapitre que les échantillons sont issus d’une loi normale ou
peuvent être approximés par une loi normale.

6.7.1 Test d’une espérence


On suppose que l’on a un échantillon de loi parente la variable X, qui suit une
loi normale N (m, σ). On propose de tester si la moyenne m de X est égale à une
valeur m0 donnée ou une valeur plus grande que m0 . Donc on a :
l’hypothèse nulle H0 : m = m0
l’hypothèse alternative H1 : m > m0 (test unilatéral).
Ainsi, à partir d’un échantillion X1 , X2 , . . . , Xn extrait de X. On distinguera deux
cas :
a) le cas où l’écart-type σ est connu.
b) le cas où σ est inconnu.

a) σ connu :
La moyenne empirique X n est le meilleur estimateur de m et sous l’hypothèse nulle
H0 il suit pour tout n exactement la loi normale N (m, √σn ). Donc la statistique

T = n X nσ−m suit la loi normale centrée et réduite N (0, 1). Dés lors pour un niveau
de signification α donnée on peut trouver la région critique par :

√ Xn − m
 
 
α = P T ∈ I1 H0 vraie = P n > uα
σ

où 1 − α = FN (0,1) (uα ). Donc la région critique est définie par :


σ
X n > m0 + √ uα
n

ce qui veut dire qu’on rejette l’hypothèse nulle si la valeur de X n pour notre
échantillion est supérieure à m0 + √σn uα .

Exemple 6.3 En supposant que la variable X suit une loi normale N (m, 1), on
désire tester si la moyenne m = 2 contre l’hypothèse unilatéral m > 2. Pour le faire,
on dispose l’échantillion suivant :
2.099 2.771 2.306 2.011 1.236 1.591 1.362 1.868 3.018 2.181
2.513 2.74 1.984 2.279 2.162 2.428 1.525 1.304 5.048 1.714

M.Badaoui UH1-ENSAK
77 Statistique et Probabilité

au niveau α = 0.05, en regardant la table de la loi normale N (0, 1) on trouve uα =


1.75. Donc k = m0 + √σn uα = 2+0.37 = 2.37. Or la valeur de X n pour cet échantillion
est : X n = 2.205 qui inférieur à k = 2.37. Donc on accepte l’hypothèse nulle m0 = 2.
Remarque 6.1 pour le test de l’hypothèse nulle
H0 : m = m0 contre l’hypothèse alternative
H1 : m 6= m0 (test bilatéral). On aura :

√ X n − m
 
 
α = P T ∈ I1 H0 vraie = P n > uα
σ 2

Donc la région critique sera définie cette fois-ci par la réunion de deux parties :
X n > m0 + √σ u α et X n < m0 − √σ u α
n 2 n 2

b) σ inconnu :
Puisque σ est inconnu, on utilise alors la statistique :
√ X n − m0
Tn−1 = n
Snc
qui suit la loi de Student à n − 1 degrés de liberté. Dés lors pour α donnée on peut
déterminer la valeur de tα , telle que :
√ Xn − m
 
P n > tα = α
Snc
Donc la région critique est définie par :

√ X n − m0
Tn−1 = n > k = tα
Snc
Exemple 6.4 On reprend l’exemple précédent. On a n = 20, donc au niveau
α = 0.05 si on regarde la table de la loi de Student de n − 1 = 19 de degrés de
libertés on trouve k = tα = 1.729. En autre, nous avons

X n = 2.205 et Snc = √20 0.838.
19
Donc :
√ X n − m0
Tn−1 = n = 1.068 < k = 1.729
Snc
donc on accepte l’hypothèse nulle H0 m0 = 2.
Remarque 6.2 pour n > 30, et grâce au théorème central limite, les deux pràcédures
précedentes restent encore valables même si l’échantillion n’est pas extrait d’une loi
normale.

M.Badaoui UH1-ENSAK
78 Statistique et Probabilité

6.7.2 Test d’un écart-type


On suppose toujours avoir une variable normale N (m, σ), pour laquelle on s’intéresse
à l’écart-type σ : on désir tester si l’écart-type σ de X est égale à une valeur, c-à-d :

l’hypothèse nulle H0 : σ = σ0

l’hypothèse alternative H1 : σ > σ0 (test unilatéral)


a) m est connue :
On a θ = σ, or le meilleur estimateur de σ 2 est D = n1 ni=1 (Xi − m)2 cet un
P
estimateur sans biais, convergent et efficace. De plus la statistique :
n
X D
T = (Xi − m)2 = n 2
i=1
σ0

est de loi connue χ2n à n degrés de liberté. Dès lors pour un niveau α donnée on peut
déterminer la valeurs de aα telle que :
 
D
P n 2 > aα = α
σ0

ce qui définie la région critique par


1 2
D> σ aα
n 0
Remarque 6.3 Si on a une hypothèse alternative H1 : σ 6= σ0 on fera un test
bilatéral, Pour un risque d’erreur α fixé on a donc (en choisissant un intervalle
symétrique) :
 
D
P a 2 < n 2 < b1− 2
α α = 1−α
σ0

avec a α2 et b1− α2 les quantiles d’ordre α2 et 1 − α2 de la loi χ2n . Donc la région de rejet
est
[0; a α2 [∪]b1− α2 ; +∞[

b) m est inconnue :
On a m est inconnue donc on va la remplacer par son estimateur X n dans D, ainsi
nous obtenons l’estimateur :
n
1X
Sn2 = (Xi − X n )2
n i=1

M.Badaoui UH1-ENSAK
79 Statistique et Probabilité

Or on sait que la statistique


Sn2
T = n 2
σ0
suit une distribution de χ2n−1 à n − 1 degrés de liberté. Ce qui détermine la région
critique par :
 2 
Sn
P n > aα = α
σ
ce qui conduit à
1 2
Sn2 > k =
σ aα
n 0
Exemple 6.5 On garde toujours le même exemple ; pour lequel on veut tester :

l’hypothèse nulle H0 : σ = 1

l’hypothèse alternative H1 : σ > 1 (test unilatéral)

Sous l’hypothèse nulle H0 , notre échantillion est issu d’une loi normale N (m, 1).
On a n = 20, donc au niveau α = 0.05 si on regarde la table de la loi de χ2n−1 de
n − 1 = 19 de degrés de libertés on trouve aα = 30.1 ce qui done k = n1 σ02 aα = 1.505.
Or :
Sn2 = 0.701 < k
Donc on accepte l’hypothèse nulle H0 .

6.7.3 Test d’un pourcentage


On dispose d’une population dans laquelle chaque individu présente ou non un
certain caractère, la proportion d’individus présentant le caracère étant notée p0 ,
et un échantillon aléatoire de taille n extrait de cette population. La proportion f
calculée à partir de l’échantillon est considérée comme une réalisation d’une v.a. de
loi Binomiale B(n;
 p) qu’on peut assimiler, si n est assez grand, à une loi normale
q
N p, p(1−p) n
. On veut tester
Hypothèses :
H0 : p = p0
H1 : p 6= p0 ,
dans le cas bilatéral. On obtient la région de rejet pour un risque α
" r " # r "
p0 (1 − p0 ) p0 (1 − p0 )
−∞; p0 − q1− α2 ∪ p0 + q1− α2 ; +∞
n n

M.Badaoui UH1-ENSAK
80 Statistique et Probabilité

α
avec q1− α2 le quantile d’ordre 1 − 2
de la loi N (0; 1).

Exemple 6.6 Sur un échantillon de 730 poussins d’une entreprise productrice des
poulets, 570 arrivent à survivre. Les responsables de l’usine proposent de tester au
niveau α = 0.05 l’hypothèse nulle H0 : p = 0.75 contre l’hypothèse H1 : p 6= 0.75
(test bilatéral). q q
570 p0 (1−p0 ) 0.75(1−0.75)
On a f = 730
= 0.767 et q1− α2 n
= 1.96 730
= 0.031 et comme

f = 0.767 ∈
/ [−∞; 0.75 − 0.031[ ∪ ]0.75 + 0.031; +∞[

on accepte l’hypothèse nulle H0 au niveau α = 0.05.

6.8 Tests d’homogénéité


La comparaison des résultats de deux groupes est naturellement une tâche fon-
damentale dans les études statistiques, épidémiologiques, sociologiques· · · .
A cet effet, le schéma le plus classique, est de s’appuyer sur un critère quan-
titatif donné (par exemple, les résultats sportifs entre hommes et femmes) et de
raisonner à travers deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ) issus respective-
ment des deux populations considérées et formés pour chacun de variables aléatoires
indépendantes et de même loi. En outre, on suppose dans cette partie que les Xi et
les Yi sont indépendantes deux à deux, c’est à dire l’indépendance des observations
entre les deux populations en cause.
A la question de l’identité ou non des distributions des variables parentes X et Y
dans chacune des deux populations considérées, les tests non paramétriques offrent
une réponse sans faire d’hypothèse spécifique sur le type de loi considéré.
Autrement, la comparaison de moyennes, proportions, et variances, par le biais
de tests paramétriques, reste fondamentale ici, l’hypothèse d’échantillons de type
gaussien (loi normale) étant supposée vérifiée ci-après (encore que ce champ d’ap-
plication peut être élargi lorsqu’on travaille sur de grands échantillons, n1 ≥ 30,
n2 ≥ 30, et que le théorème central limite est applicable).
Le test de comparaison de variance est nécessaire lors de la comparaison de deux
moyennes lorsque les variances des populations σ12 et σ22 ne sont pas connues (on
teste l’hypothèse dite ”d’homoscédasticité” σ12 = σ22 ). C’est également la statistique
associee à l’analyse de variance. C’est donc plutôt par la comparaison des variances
qu’il convient logiquement de commencer, en principe.

M.Badaoui UH1-ENSAK
81 Statistique et Probabilité

6.8.1 Test de comparaison de deux variances ou test de


Fisher-Snedecor
On suppose que l’on a deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ) qui suivent
une loi normale N (m1 ; σ12 ) et N (m2 ; σ22 ).
On teste l’hypothèse :
H0 : σ12 = σ22
H1 : σ12 6= σ22 .

On considère
n1 n2
1 X 1 X
Sn21 = (Xi − X n1 )2 et Sn22 = (Xi − Y n2 )2
n1 i=1 n2 i=1
2
Sn
et on sait que n1 σ12
1
suit une distribution de χ2n−1 à n − 1 degrés de liberté et la
S2
même chose pour la statistique n2 σn22 .
2
Donc, sous l’hypothèse H0 : σ12 = σ22 la statistique
2
n1 Sn 1
(n1 −1)σ12 n1 (n2 − 1)Sn21
F = 2 =
n2 Sn 2 n2 (n1 − 1)Sn22
(n2 −1)σ22

suit une loi de Fisher-Snedecor à (n1 − 1, n2 − 1) degrés de liberté. On a l’habitude


de choisir le numérateur plus grand que le dominaeur, le rapport des variances doit
être supérieur à 1. Ainsi, en regardant la table de la distribution de Fisher-Snedecor,
pour un risque d’erreur α fixé on obtient la région critique

[0; t1 [ ∪ ]t2 ; +∞[


Comme on peut le constater à travers la table de la distribution, la loi de Fisher-
Snedecor n’est pas symétrique. Mais, dans le cas du test bilatéral considéré ici, on se
contentera pour trouver t1 et t2 de raisonner suivant la symétrie des risques (et non
des valeurs), les risques P (F ≤ t1 ) et P (F ≥ t2 ) étant donc supposés être égaux à
α
2
. La lecture dans la table des valeurs de t1 pour P (F ≤ t1 ) = α2 , et de t2 pour
P (F ≤ t2 ) = 1 − α2 permet de conclure quant à la détermination de cette région
critique et à la décision à retenir en conséquence.

Exemple 6.7 On propose deux échantillons de tailles respectivement n1 = 11 et


n2 = 15 extraits de deux variables X et Y de lois normales :

– Premier échantillon :
0.521; 2.332; 1.158; −0.656; 2.356; 1.287; 1.514; 1.223; 1.727; 0.866; 0.094

M.Badaoui UH1-ENSAK
82 Statistique et Probabilité

– Deuxième échantillon :
1.915; 2.557; 2.563; 0.918; 1.118; 0.528; 1.538; 2.421;
1.563; 2.940; 3.124; 2.336; 1.475; 2.261; 3.583
On a :
Sn21 = 0.862 et Sn22 = 0.743
Donc
n1 (n2 − 1)Sn21
F = = 1.078,
n2 (n1 − 1)Sn22
pour α = 0.05 on trouve t1 = 0.282 et t2 = 3.147 puisque F14;10 (0.282) = 0.025 et
F14;10 (3.147) = 0.975.
Ainsi, on a t1 < F < t2 donc on accepte l’hypothèse nulle H0 : σ12 = σ22

Remarque 6.4
– Lorsque m1 et m2 sont connues on utilise sous l’hypothèse H0 : σ12 = σ22
σ
bn2 /σ 2 σ
bn2
1
la fonction discriminante F = 1
bn2 /σ22
σ 2 = σ
bn2
1
qui suit une loi de Fisher-Snedecor
2
à (n1 , n2 ) degrés de liberté, où les statistiques σ bn2 1 et σ
bn2 2 sont définies par
n1 n2
1 X 1 X
σbn2 1 = (Xi − m1 )2 et σ bn2 2 = (Xi − m2 )2
n1 i=1 n2 i=1
– Il existe d’autres statistiques que celle de Fisher-Snédecor pour comparer deux
variances, notamment le test de Hartley qui impose l’égalité de la taille des
échantillons comparés n1 = n2 mais que nous ne développerons pas dans ce
cours.

6.8.2 Test de comparaison de deux moyennes


On propose de tester :
Hypothèse :
H0 : m1 = m2
H1 : m1 6= m2 .
Comme les variances σ12 et σ22 sont inconnues ; alors on les remplaces par leurs esti-
mateurs non biaisés :
n1 n2
1 X 1 X
Sn21 c = (Xi − X n1 )2 et Sn22 c = (Xi − Y n2 )2
n1 − 1 i=1 n2 − 1 i=1
(n1 −1)S 2 (n2 −1)S 2
or, les variables σ12
n1 c
et σ22
n2 c
suivent une loi de Khi-deux χ2 à (n1 − 1) et
à (n2 − 1) degrés de libertés respectivement, iI s’ensuit que la variable
(n1 − 1)Sn21 c (n2 − 1)Sn22 c
T = +
σ12 σ22

M.Badaoui UH1-ENSAK
83 Statistique et Probabilité

suit une loi de Khi-deux χ2 à n1 + n2 − 2 degrés de libertés.  


σ2 σ2
D’autre part, la variable de décision X n1 −Y n2 suit la loi normale N m1 − m2 ; n11 + n22 ,
(X n1 −Yrn2 )−(m1 −m2 )
d’où la variable U = σ2 σ2
suit la loi normale centrée réduite N (0; 1),
1+ 2
n1 n2

ce qui prouve que la statistique


U
Z=q
T
n1 +n2 −2

suit la loi de Student de n1 + n2 − 2 degrés de libertés.


Si le test de Fisher-Snedecor a permis de conclure à l’égalité des variances des deux
populations σ12 = σ22 = σ 2 (homoscédasticité), et sous l’hypothèse H0 la statistique
Z se réduit à
X n1 − Y n2 √
Z=r   n1 + n2 − 2
  1 1
(n1 − 1)Sn21 c + (n2 − 1)Sn22 c n1 + n2

et constitue la fonction de décision cherchée.


Pour un risque d’erreur α fixé et pour un test bilatéral, la région critique est de la
forme |Z| > tα , c-à-d P (|Z| > tα ) = α.
Exemple 6.8 On garde les deux échantillons de l’exemple précédent pour lesquels
on a accepté σ12 = σ22 . On tente cette fois-ci de tester l’hypothèse nulle H0 : m1 = m2 .
On a X 11 = 1.022 et Y 15 = 1.811, donc :

X n1 − Y n2 √
Z=r
  n1 + n2 − 2 = −2.653
1 1

(n1 − 1)Sn21 c + (n2 − 1)Sn22 c n1
+ n2

Or pour α = 0.05 et d’après la table de Student à 24 degrés de libertés, on a tα =


2.064, donc on rejette l’hypothèse nulle en faveur de l’ypothèse alternative H1 : m1 6=
m2 .
Remarque 6.5
– Si les deux échantillons ont la même taille n1 = n2 . Le test se ramène à une
test à une moyenne nulle de l’échantillon (Z1 ; . . . ; Zn ), avec Zi = Xi − Yi .
– Lorsque σ12 et σ22 sont connues on utilise sous l’hypothèse H0 : m1 = m2
la fonction
X n − Y n2
U = q 12 ,
σ1 σ22
n1
+ n2

qui suit la loi normale centrée réduite, comme fonction de décision.

M.Badaoui UH1-ENSAK
84 Statistique et Probabilité

– Lorsque σ12 6= σ22 on utilise, sous l’hypothèse H0 : m1 = m2 , comme fonction


de décision la statistique

X n − Y n2
Z=p 2 1 ,
Sn1 c /n1 + Sn22 c /n2

qui suit une loi de Student à n degrés de liberté, où n est l’entier le plus proche
de 2
Sn21 c /n1 + Sn22 c /n2
(n1 − 1)Sn41 c /n41 + (n2 − 1)Sn42 c /n42
– Lorsque n1 et n2 sont supérieurs à 30, on utilise, sous l’hypothèse H0 : m1 =
m2 , la fonction de décision

X n − Y n2
Z=p 2 1 ,
Sn1 c /n1 + Sn22 c /n2

qui peut être approximé par une loi normale centrée réduite.

6.8.3 Test de comparaison de deux proportions


On veut comparer deux proportions p1 et p2 à partir de deux échantillons. Le
modèle mathématique est le suivant. On considère les proportions f1 et f2 associés
aux deux échantillons. On veut tester
H0 : p1 = p2 contre
H1 : p1 6= p2 .
On prend la statistique
f1 − f2 n1 f1 + n2 f2
Z=p avec F =
F (1 − F )(1/n1 + 1/n2) n1 + n2

On obtient la région de rejet pour un risque α ; |Z| > q1− α2 c-à-d


   
−∞; −q1− α2 ∪ q1− α2 ; +∞
α
avec q1− α2 le quantile d’ordre 1 − 2
de la loi N (0; 1).

Exemple 6.9 Dans un échantillon de 328 étudiants (118 qui n’ont pas assisté aux
cours et 210 qui y ont assisté), on observe que 71 parmi ceux qui n’ont pas assisté
aux cours échouent contre 45 seulement parmi ceux qui y ont assisté.On propose
de tester l’hypothèse nulle selon laquelle le taux de réussite est le même dans la
population des étudiants qui n’assistent pas (P1 ) aux cours que dans la population
des étudiants qui y assistent (P2 ).

M.Badaoui UH1-ENSAK
85 Statistique et Probabilité

On a : n1 = 118, n2 = 210 et n1 + n2 = 328,


f1 = 118−71
118
= 0.4 (taux de réussite pour (P1 )), et f2 = 210−45
210
= 0.79 (taux de
réussite pour (P2 )),
d’autre part F = n1nf11 +n
+n2 f2
2
= 47+165
328
= 0.65.
Ainsi au niveau α = 0.05 du test, on a
f1 − f2 0.39
Z=p = = 6.84 > 1.96
F (1 − F )(1/n1 + 1/n2) 0.057

Par conséquent, on rejète l’hypothèse nulle pour laquelle le taux de réussite est le
même pour les deux populations.

6.9 Tests de comparaison d’échantillon appariés


Dans ce paragraphe, on reprend les notations du paragraphe antérieur avec no-
tamment les deux échantillons (X1 ; . . . ; Xn1 ) et (Y1 ; . . . ; Yn2 ), mais c’est désormais
sur les mêmes individus que portent les comparaisons dans les deux échantillons
(un seul groupe qui a subi deux expériences ou épreuves différentes), ce qui suppose
n1 = n2 = n et les variables Xi et Yi non indépendantes.
Par exemple, un régime testé sur n individus est-il efficace ou non, le caractère me-
suré avant régime X et après régime Y étant le poids de la personne considérée.
Le but est de comparer ces deux échantillons cependant on se contante de tester
l’égalité des moyennes m1 = m2 .
Hypothèses :
H0 : m1 = m2
H1 : m1 6= m2
La dépendance de ces deux échantillons ne permet pas d’utiliser les méthodes précedentes.
On propose alors d’introduire la variable aléatoire Z = X − Y , qui suit une loi nor-
male d’espérance E(Z) = m1 − m2 et de variance σ 2 , et de tester
Hypothèses :
H0 : E(Z) = 0
H1 : E(Z) 6= 0
La comparaison de la moyenne de deux échantillons appariés est fondée sur l’analyse
des différences observées pour chacune des n paires d’observations i, zi = (xi − yi ).
Comme on ne connaı̂t pas, en général, la variance σ 2 , on fait un test de Student sur
la moyenne des différences :

√ Z
Tn−1 = n−1
Snc

M.Badaoui UH1-ENSAK
86 Statistique et Probabilité

avec v
u n
u 1 X
Snc =t (Zi − Z)2
n − 1 i=1

On rejette H0 si |Tn−1 | > k, la valeur critique k dépend du seuil α choisi.

Exemple 6.10 Un éleveur de bovins désire tester un nouveau régime pour ces
bétails. Ainsi, il sole 10 boeufs adultes pour leur proposer le régime pondant une
période de deux mois. Les données avant et après le régime sont les suivants :
Boeuf num. 1 2 3 4 5 6 7 8 9 10
Avant xi 173 166 150 158 160 160 183 165 142 155
Après yi 182 177 155 165 169 171 185 162 143 153
zi = yi − xi 9 11 5 7 9 11 2 -3 1 -2
Si on admet que les variables X et Y suivent des lois normales. Il est intéressant de
tester : Hypothèses :
H0 : m1 = m2
H1 : m1 < m2
Pour Z = Y − X, on teste
Hypothèses :
H0 : E(Z) = 0
H1 : E(Z) > 0
En plus, il est intéressant de minimiser le risque de premier espèce, on a donc choisie
le niveau α = 0.01. Comme :
√ Z
T9 = n−1 = 3.024 > k = 2.821,
Snc
ce qui signifie qu’il y a bien une amélioration très significative pour le nouveau régime
sur l’ancien.

6.10 Analyse de la variance


L’analyse de variance (ANalysis Of VAriance=ANOVA) permet de comparer les
moyennes de plusieurs échantillons indépendants à fin de tester l’influence d’un ou
de plusieurs facteurs.
L’analyse de variance n’est valable en toute rigueur que pour des échantillons tirés
de populations normales et de même variance (Homoscédasticité). En général, le non
respect de ces conditions n’a pas trop d’influence sur la validité du test (on dit que
l’analyse de variance est une méthode ”robuste”). L’erreur introduite est cependant
d’autant plus forte que les effectifs des échantillons sont faibles et inégaux.

M.Badaoui UH1-ENSAK
87 Statistique et Probabilité

6.10.1 Analyse de la variance à un facteur. Comparaison de


plusieurs moyennes
On dispose de k échantillons indépendants E1 , . . . , Ek extraits de k populations
P1 , . . . , Pk supposées gaussiennes et de mêmes variance σ 2 . Les moyennes respectives
des populations sont notées m1 , . . . , mk .
L’analyse de variance permet de comparer globalement les moyennes des popula-
tions. L’hypothès nulle est donc :
H0 : m1 = m2 = . . . = mk
En général, les k échantillons correspondent à k modalités d’un facteur contrôlé. Par
exemple il peut s’agir de k groupes de malades, chaque groupe recevant un traite-
ment différent : le facteur contrôlé est alors le ”facteur traitement”.
Il est donc équivalent de formuler l’hypothèse nulle sous la forme : H0 : la moyenne
des populations est indépendante du facteur étudié.

6.10.1.1 Variance résiduelle et Variance factorielle


– Pour chaque échantillon Ei , de taille ni , on calcule la moyenne xi et la variance
estimée s2i .
– La réunion de tous les échantillons a pour taille n, pour moyenne x et pour
variance estimée s2 . On a :
k k
X 1X
n= ni et x= ni xi
i=1
n i=1
s2 caractérise la dispersion de l’ensemble des données par rapport à la moyenne
générale x.
– Avec les hypothèses de départ, on dispose d’une première estimation de σ 2
appelée variance résiduelle (ou variance intragroupe) et définie par :
k
1 X
s2R = (ni − 1)s2i .
n − k i=1

s2R est la moyenne des variance estimées s2i affectées des coefficients (ni − 1).
Elle caractérise la dispersion des valeurs à l’interieur des échantillons.
– Sous l’hypothèse H0 , on dispose d’une deuxième estimation de σ 2 appelée
variance factorielle (ou variance intergroupe) et définie par :
k
1 X
s2F = ni (xi − x)2 .
k − 1 i=1

s2F caractérise la dispersion des valeurs d’un échantillon à l’autre, c’est à dire
la variation due à l’influence du facteur étudié.

M.Badaoui UH1-ENSAK
88 Statistique et Probabilité

Théorème 6.1 (d’analyse de variance)

(n − 1)s2 = (n − k)s2R + (k − 1)s2F


(n−k) s2R +(k−1) s2F
soit : s2 = n−1
.

s2 est donc une moyenne pondérée de s2R et s2F . Ce théorème permet d’obtenir s2F
après avoir calculé s2R et s2 , ce qui est plus rapide qu’avec la définition.
s2
– Sous H0 , la statistique F = sF2 suit la loi de Snédécor à (k − 1, n − k) degrés
R
de liberté.
– Soit α le risuqe de première espèce choisi.
On lit dans le tableau de Snédécor la valeur fα telle que :
s2
P sF2 ≥ fα = α.
R
s2F
Si s2R
< fα on peut pas écarter H0 .
s2F
Si ≥ fα , on rejette H0 au risue α, c’est à dire que l’on attribue une influence
s2R
significative au facteur étudié.

Exemple 6.11 On étudie l’activité d’un enzyme serique (PDE). On admettra l’hy-
pothèse de normalité et d’égalité des variances des population parentes.
Femmes non enceintes Femmes enceintes
1.5 4.2
1.6 5.5
1.4 4.6
2.9 5.4
2.2 3.9
1.8 5.4
2.7 2.7
1.9 3.9
2.2 4.1
2.8 4.1
2.1 4.6
1.8 3.9
3.7 3.5
1.8
2.1

– La grossesse a t-elle-une influence significative sur l’activité de la PDE ?


On dispose de deux échantillons :
– Femmes non enceintes :
n1 = 15 x1 = 2.17 s21 = 0.387

M.Badaoui UH1-ENSAK
89 Statistique et Probabilité

– Femmes enceintes :
n2 = 13 x2 = 4.29 s22 = 0.651
– Total :
n = 28 x = 3.15 s2 = 1.655
La variance residuelle vaut :
1
s2R = 14s21 + 12s22 ' 0.51

26
La variance factorielle peut se calculer :
– Soit avec sa définition :
1
s2F = 15(x1 − x)2 + 13(x2 − x)2 ' 31.47

1
– Soit par le Théorème de l’analyse de variance :

27s2 = 26s2R + s2F


D’où
s2F
F = ' 61.9
s2R
On teste H0 : la grossesse n’a pas d’influence significative sur l’activité de la
PDE.
s2
– Sous H0 , on sait que la statistique F = sF2 suit la loi de Snédécor à (1, 26)
R
degrés de liberté.  2 
s
Le nombre fα tel que : P sF2 ≥ fα = α est :
R
f0.05 = 4.23 pour α = 0.05
f0.025 = 5.66 pour α = 0.025
f0.001 = 13.74 pour α = 0.1%
s2
Comme F = sF2 > fα dans tous ces cas l’influence de la grossesse est signifivative
R
même au risque 0.1%.

6.11 Test de Khi-deux


On désigne par les tests de Khi-deux tous les tests qui fonts appelles aux sta-
tistiques qui suivent asymptotiquement la loi de Khi-deux χ2 . On retrouve par
exemple :
• le test d’indépendance : consiste à tester l’indépendance entre deux caractères
qualitatives.
• le test d’ajustement : qui consiste à tester si un échantillon provient ou non d’une
variable aléatoire de loi de probabilité connue.

M.Badaoui UH1-ENSAK
90 Statistique et Probabilité

6.11.1 Test d’indépendance


Pour tester l’indépendance de deux caractères X et Y , qualitatifs ou quantitatifs
(répartis alors en classes), à respectivement r etP s modalités, on relève le nombre
r Ps
nij d’individus d’une population de taille n = i=1 j=1 ij qui possède simul-
n
tanément la modalité i, 1 ≤ i ≤ r, du caratère X et la modalité j, 1 ≤ j ≤ s, du
caractère Y . Soit pij la probabilité théorique correspondante, pour un individu tiré
au hazard dans la population, de posséder Ps simulatnémentPces deux modalités i et
r
j. Les probabilités marginales sont pi. = j=1 pij et p.j = i=1 pij . L’indépendance
de ces deux caractères se traduit par l’hypothèse nulle H0 : pij = pi. p.j . Pour tester
cette hypothèse contre l’alternative H1 : pij 6= pi. p.j , on utilise la statistique :
r X s r Xs
!
X (nij − ni. n.j /n)2 X n2ij
Dn = =n −1
i=1 j=1
n i. n.j /n i=1 j=1
n i. n .j

Sa loi asymptotique,
Ps sous H0 , est la
Ploi du Khi-deux à (r −1)(s−1) degrés de liberté.
r
On a noté ni. = j=1 nij et n.j = i=1 nij les effectifs marginaux. La région critique
de ce test est de la forme :
Dn ≥ C
Pour un risque de première espèce α = P (Dn ≥ C | H0 ), la valeur de C est approxi-
mativement la fractile d’ordre 1 − α de la loi χ2(r−1)(s−1) .
Exemple 6.12 Pour comparer l’éfficacité de deux médicamnents comparables, mais
de prix très différents, la sécurité sociale a effectué une enquête sur les guérisons
obtenus avec ces deux traitements. Les résulltats sont présentés dans le tableau sui-
vant :
Y Médicament cher Médicament bon marché
X
Guérisons 156 44 200
Non-guérisons 44 6 50
200 50 250

On calcule la valeur de la statistique :


1562 442 62
 
Dn = 250 +2 4 + − 1 = 2.5
4.104 10 25.102
cette statistique suit asymptotiquement une loi de χ2 à (2 − 1)(2 − 1) = 1 degrés de
liberté.
Pour un risque de première espèce α = 0.05 le fractille d’ordre 1 − α de la loi de χ21
a pour valeur C = 3.84, c’est à dire P (χ21 ≥ 3.84) = 0.05.
Puisque la valeur observée de la statistique Dn est inférieure, on accepte l’hypothèse
nulle d’indépendance du taux de guérison et du coût du médicamnet.

M.Badaoui UH1-ENSAK
91 Statistique et Probabilité

6.11.2 Test d’ajustement


Le principe général de ce test est le suivant :
On suppose qu’il y a k alternatives A1 , . . . , Ak pourPune certaine expérience aléatoire.
k
Soient p1 , . . . , pk des nombres positifs tels que i=1 pi = 1. On souhaite tester
l’hypothèse :
H0 : P (Ai ) = pi pour tout i ∈ {1, . . . , k}
Pour cela on procède à n répétitions de l’expérience aléatoire. On note xi nombre
de réalisation de Ai . Cette variable suit une loi Binomiale B(n, pi ) de moyenne et
variance :
E(xi ) = npi
Soit la statistique :
k
X (xi − npi )2
T =
i=1
npi
on peut montrer que cette statistique suit approximativement une loi du χ2 de k − 1
degrés de liberté lorsque tous les npi sont assez grands. Dans la pratique, il suffit
npi > 5 ∀i. Cette statistique est une somme de valeurs positives. Elle est grande si
l’une d’elle est grande, donc si la fréquence d’un des événements Ai est loin de la
fréquence théorique.
Le test du χ2 de niveau α rejette l’hypothèse H0 lorsque la statistique de test T est
plus grande qu’un seuil tα tel que :
P χ2k−1 ≥ tα = α


Les tables statistiques permettent de déterminer ce seuil.


Exemple 6.13 On procède à 120 lancers d’un dé à six faces et veut tester, au
niveau 5%, si ce dé est équilibré. On obtient comme nombre d’apparitions des faces
les valeurs
face N 1 2 3 4 5 6
xi 26 20 16 27 15 16
Réponse : on a : n = 120 et Ai = i pour i = 1, . . . , 6 ⇒ pi = 1/6 ∀i.
La valeur théorique est npi = 20 > 5 ∀i. La statistique T vaut donc :
T = (26 − 20)2 /20 + (20 − 20)2 /20 + . . . + (16 − 20)2 /20 = 7.1
Cette statistique est approximativement distribuées comme un χ25 . En regardant la
table on trouve que :
P χ25 ≥ tα = 0.05 ⇒ tα = 11.07


Donc, tα > T on accepte, au niveau 5%, l’hypothèse nulle pour laquelle le dé est
équilibré.

M.Badaoui UH1-ENSAK
92 Statistique et Probabilité

Exemple 6.14 Test d’adéquation à une loi donnée. Soit un échantillon de taille
n = 300 présenté dans le tableau suivant :
classes ≤1 ]1,3] ]3,5] ]5,7] ]7,9] >9
xi 11 38 117 89 41 4
On propose de tester si cet échantillon est issu d’une variable suivant une loi N (5, 2)
Réponse : on a : A1 =] − ∞, 1], A2 =]1, 3], A3 =]3, 5], A4 =]5, 7], A5 =]7, 9],
A6 =]9, +∞[ et n = 300.
Or pour X ∼ N (5, 2), on trouve :
p1 = PX (A1 ) = 0.0228 ; p2 = PX (A2 ) = 0.1359 ; p3 = PX (A3 ) = 0.3413 ;
p4 = PX (A4 ) = 0.1359 ; p5 = PX (A5 ) = 0.0228 ; p6 = PX (A6 ) = 0.0228
k
X (xi − npi )2
T = = 2.55 + 0.19 + 2.08 + 1.75 + 0.001 + 1.17 = 7.75
i=1
npi

En regardant la table on trouve que :


P χ25 ≥ tα = 0.05 ⇒ tα = 11.07


Donc,tα > T on accepte, au niveau 5%, l’hypothèse nulle pour laquelle l’échantillon
est issu d’une variable suivant une loi N (5, 2).

6.12 Le test de Henry


Ce test sert à voir si une série statistique peut être ajustée par une loi normale.

En effet, si X est une variable aléatoire qui suit la loi normale N (m, σ), la va-
riable U = X−mσ
suit la loi normale centrée réduite N (0,
 1).
x−m
Ainsi, pour tout x, on a P (X < x) = P U < t = σ = F (t), F (t) étant la fonc-
tion de répartition de la variable U dont la table des valeurs bien connue.

La transformée de la fonction de répartition dans le plan (U, X), sur un papier


gausso-arithmétique, est une droite de pente 1/σ, appelée droite de Henry.

Le papier gausso-arithmétique (voir la fin de l’exemple d’utilisation suivant) est


un papier style ”papier millimétré” comportant trois axes : l’axe des abscisses à
échelle arithmétique et deux axes pour les ordonnées (celui de droite est à échelle
arithmétique, celui de gauche est à échelle gaussienne). Les valeurs de droite ont
pour probabilités les valeurs de gauche suivant la loi normale N (0, 1) (c-à-d l’axe
des ordonnées à droite est gradué selon les valeurs de F mais proportionnellement
aux valeurs de U à gauche), par exemple :

M.Badaoui UH1-ENSAK
93 Statistique et Probabilité

U =0 F (0) = 0.5
U =1 F (1) = 0.8417 U = −1 F (−1) = 0.1583
U =2 F (2) = 0.9772 U = −2 F (−2) = 0.0228

On répète ce procédé pour toutes les valeurs de la variable U . On peut, de la même


façon choisir les valeurs de F et en déduire les valeurs de U .
Pour vérifier si un échantillon est extrait d’une population normale, on porte :
– en abscisses, les valeurs des observations, c’est-à-dire les limites supérieures
des classes,
– en ordonnées, les fréquences cumulées correspondantes.
Si les données proviennent d’une loi normale, les points devraient s’aligner. Si la loi
n’est pas normale, les points devraient former une courbe quelconque.
L’approximation de la moyenne m et l’écart-type σ de la variable X à partir de
l’ajustement de ces points (droite de Henry) :
L’intersection de la droite de Henry avec la droite U = 0 (F = 0.50) donne la
valeur de l’espérance mathématique E(X) = m. En faite cette valeur x est une
approximation de la médiane puisque F = P (X < x) = 0.50. Or une loi normale
à la particularité que la moyenne égale la médiane. Nous obtenons donc aussi une
approximation de la moyenne.
Quant à l’approximation de la valeur de σ, elle peut être obtenue de deux façons :
– si U = 1, (F = 0.8415), xi − m = σ.
– si U = −1, (F = 0.1585), xi − m = −σ.
Ces deux valeurs sont indiquées sur le papier gausso-arithmétique.

Exemple 6.15 À la demande de la chambre syndicale des fabricants de produits


surgelés, une enquête portant sur les dépenses mensuelles de produits surgelés chez
les ménages dotés d’un réfrigérateur avec conservateur (***) a été faite.
Les résultats de cette enquête sont les suivants :
Nombre de ménages Dépenses mensuelles
dans l’échantillon (en euros)
25 moins de 20
25 20 à moins de 40
45 40 à moins de 60
60 60 à moins de 80
75 80 à moins de 100
85 100 à moins de 120
75 120 à moins de 140
50 140 à moins de 160
45 160 à moins de 200
15 200 et plus

M.Badaoui UH1-ENSAK
94 Statistique et Probabilité

Nous allons d’abord calculer les fréquences cumulées et tracer le graphique sur le
papier gausso-arithmétique page suivante :
l’effectif total N = 500
borne de la classe fréquence cumulée croissante
moins 0
20 0.05
40 0.10
60 0.19
80 0.31
100 0.46
120 0.63
140 0.78
160 0.88
200 0,97
plus 1

M.Badaoui UH1-ENSAK
95 Statistique et Probabilité

Papier gausso-arithmétique

M.Badaoui UH1-ENSAK
96 Statistique et Probabilité

Le graphique nous indique que les points d’abscisse les dépenses et d’ordonnées
(axe de droite) les fréquences cumulées correspondantes sont pratiquement alignés.
L’ajustement de ces points donne la droite de Henry.

Sur notre graphique à la hauteur F = 0.50 sur l’échelle verticale de gauche (ou
U = 0 sur l’échelle de droite), on peut lire environ m = 103 et Pour obtenir une
approximation de l’écart type, on lit à la hauteur F = 0.8415 sur l’échelle verticale
de gauche (ou U = 1 sur l’échelle de droite) la valeur xi = 151, et comme xi −m = σ
on trouve σ = 148.

Autre méthode :

Nous pourrions aussi utiliser la méthode des moindres carrés pour déterminer
l’équation de cette droite mais le graphique nous montre que deux points (40; 0.10)
et (160; 0.88) doivent être situés sur cette droite de Henry.
Nous allons donc plus vite en résolvant le système suivant

0.10 → t = −1.282 et x = 40
0.88 → t = 1.175 et x = 40

Pour trouver son équation du type t = ax + b, il suffit de résoudre le système


suivant :  
−1.282 = 40a + b a = 0.0205

1.175 = 160a + b b = −2.1010
Comme a = σ1 et b = −m σ
, la distribution observée suit approximativement une
loi normale de paramètres m = 102, 61 et σ = 48, 84.

M.Badaoui UH1-ENSAK

Vous aimerez peut-être aussi