Académique Documents
Professionnel Documents
Culture Documents
Chakib Jerry
Année universitaire 2020-2021
Email: c.jerry@umi.ac.ma
TABLE DES MATIÈRES
2 Théorie de l’échantillonnage 12
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Les méthodes d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Les méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Les méthodes aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 15
1
Master G.R.F
4 Estimation 23
1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2 Estimateur de la moyenne empirique . . . . . . . . . . . . . . . . . . 24
1.3 Estimateur de la variance . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4 Estimateur de la proportion . . . . . . . . . . . . . . . . . . . . . . . 25
1.5 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7 Convergent en probabilité . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Estimateur sans biais de variance minimale . . . . . . . . . . . . . . . . . . . 28
2.1 Inégalité de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Estimation par le maximum de La vraisemblance . . . . . . . . . . . 29
3 Estimateur par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Intervalle de confiance pour la moyenne . . . . . . . . . . . . . . . . . 33
3.2.1 cas où σ est connu . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 cas où σ est inconnu . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Intervalle de confiance d’une proportion . . . . . . . . . . . . . . . . 36
3.4 Intervalle de confiance de la variance . . . . . . . . . . . . . . . . . . 38
3.4.1 Cas où la moyenne m est connue : . . . . . . . . . . . . . . 38
3.4.2 Cas où la moyenne m est inconnue : . . . . . . . . . . . . . 39
5 Tests d’hypothèses 43
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2 Test de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1 σ est connu : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2 σ est inconnu : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 Test de la proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Chakib Jerry
Master G.R.F
4 Test de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1 Moyenne connue : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Moyenne inconnue : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Test de comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . 52
5.1 Variance connue : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Variance inconnue avec n1 et n2 supérieurs à 30 : . . . . . . . . . . . 54
5.3 Variance inconnue avec n1 ou n2 inférieur à 30 et σ1 = σ2 : . . . . . . 54
5.4 Variance inconnue avec n1 ou n2 inférieur à 30 et σ1 6= σ2 : . . . . . . 55
6 Test de comparaison de deux variances . . . . . . . . . . . . . . . . . . . . . 55
6.1 moyennes connues : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.2 moyennes inconnues : . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7 Test de comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . 57
7.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8 Test de Khi-deux χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.1 Test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.1.1 Formulation de l’hypothèse nulle : . . . . . . . . . . . . . . 60
8.1.2 Variable de décision : . . . . . . . . . . . . . . . . . . . . . . 60
8.1.3 Région d’acceptation : . . . . . . . . . . . . . . . . . . . . . 61
8.2 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8.2.1 Formulation de l’hypothèse nulle : . . . . . . . . . . . . . . 62
8.2.2 Variable de décision : . . . . . . . . . . . . . . . . . . . . . . 62
8.2.3 Région d’acceptation : . . . . . . . . . . . . . . . . . . . . . 63
Chakib Jerry
CHAPITRE 1
1 Variable aléatoire
4
Master G.R.F
Exemple
X : Ω −→ R
w 7−→ X(w)
1
P (X = 2) = P [w tel que X(w) = 2] = P [X −1 (2)] = P ({2, 3, 5}) = .
2
et aussi
1 1
P (X = −1) = , P (X = 0) = .
3 6
Ainsi, à chaque valeur de X on peut associer une probabilité. Cette correspondance s’ap-
pelle loi de probabilité de X.
Définition
Soit Ω un univers sur lequel on a défini une probabilité P . On appelle variable
X : Ω −→ R
aléatoire réelle X, toute application .
w 7−→ X(w)
On note :
— [X = xi ] = {w ∈ Ω tel que X(w) = xi } est un événement de l’univers Ω.
— X(Ω) = {x ∈ R / ∃w ∈ Ω tel que X(w) = x}. Autrement dit, X(Ω) désigne
l’ensemble des valeurs que peut prendre X.
Chakib Jerry
Master G.R.F
E(X) = µ, V (X) = σ 2
Chakib Jerry
Master G.R.F
X ∼ N (µ, σ)
Y = aX + b ∼ N (aµ + b, |a|σ)
q
Y = X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 )
X ∼ N (0, 1)
X −µ
X ∼ N (µ, σ), alors Y = ∼ N (0, 1)
σ
Chakib Jerry
Master G.R.F
On a :
P (X = a) = 0
P (X < a) = P (X ≤ a)
P (X > a) = 1 − P (X ≤ a)
P (−a ≤ X ≤ a) = 2P (X ≤ a) − 1
Les trois premières règles sont vraies pour toute v.a. X à densité. Les deux dernières sont
vraies pour toute loi symétrique (càd avec densité paire : f (−t) = f (t), comme la loi normale
ou la loi de Student mais pas la loi du χ2 ni du Fisher)
Elle se définit à partir d’une loi N (0, 1) et d’une loi χ2 (n). Soient X et χ2 deux v.a.
X
indépendantes telles que X ∼ N (0, 1) et Y ∼ χ2 (n). Posons, T = r . Par définition, la
χ2
n
v.a. T suit une loi de Student à n degrés de liberté. On note cette loi T (n).
Propriétés
— T (n) admet une densité paire, cette loi est donc symétrique.
n
— E(T ) = 0 et V (T ) = si n > 2.
n−2
— Pour n ≥ 30, T (n) peut être approchée par N (0, 1).
Chakib Jerry
Master G.R.F
m
E(Z) = , m>2
m−2
2m2 (n + m − 2)
V (Z) = , m>4
n(m − 2)2 (m − 4)
Chakib Jerry
Master G.R.F
Chakib Jerry
Master G.R.F
Chakib Jerry
CHAPITRE 2
THÉORIE DE L’ÉCHANTILLONNAGE
1 Introduction
Etude Statistique = étude des caractéristiques (variables statistiques) d’un ensemble
d’objets (population, composée d’individus ou d’éléments).
— Un élément ou in individus est une entité pour laquelle des données sont
collectées.
— Une population est l’ensemble de tous les éléments auxquels on s’intéresse.
— Un échantillon est un sous-ensemble de la population.
La constitution d’un échantillon permet de collecter des données pour répondre à une ques-
tion concernant une population.
— Recensement : les valeurs des variables sont disponibles sur l’ensemble de la popu-
lation =⇒ statistique descriptive (pas besoin de statistique inférentielle).
— Exemple : Recensement de la population marocaine, notes obtenues par tous les
candidats à un examen, salaires de tous les employés d’une entreprise, ...
— Problème : coûteux, long, impossible (population infinie), mesures destructrices
(ex : tests en vieillissement accélérés).
— Sondage :
— On n’étudie qu’une partie de la population : un échantillon. Les méthodes per-
mettant de réaliser un échantillon de bonne qualité sont étudiées en théorie de
l’échantillonnage.
12
Master G.R.F
2 Echantillon
— L’échantillon est un sous ensemble de la population de base qui est interrogé après
sélection lors d’une enquête.
— Après traitement, les résultats obtenus auprès de l’échantillon sont extrapolés à la
population étudiée.
— Pour assurer la fiabilité de cette extrapolation, l’échantillon doit être représentatif.
— Le recours à un plan d’échantillonnage répond en général à une contrainte pratique
(manque de temps, de place, coût financier ...) interdisant l’étude exhaustive de la
population.
Chakib Jerry
Master G.R.F
Les méthodes empiriques sont les plus utilisées par les instituts de sondage. Leur précision
ne peut pas être calculée et leur réussite dépend de l’expertise des enquêteurs.
— Echantillonnage sur la base du jugement : Echantillon prélevé à partir d’avis
d’experts, qui connaissent bien la population et sont capable de dire quelles sont les
entités représentatives.
Problème : l’avis des experts est subjectif.
— Echantillonnage par la méthode des quotas : Echantillon prélevé librement à
condition de respecter une composition donnée à l’avance (sexe, âge, ...).
Problème : repose sur la pertinence des catégories retenues.
— Echantillonnage de commodité : On choisit des individus statistiques qui sont
d’accès facile. Par exemple, un professeur qui mène une expérience à l’université peut
utiliser des étudiants volantaires pour constituer un échantillon simplement parce
qu’ils sont disponible.
Problème : Les échantillons de commodité ont l’avantage d’être facilement constitués
et les données sont facilement collectées ; cependant, il est impossible d’évaluer le degré
de représentativité de la population.
— Echantillonnage par boule de neige : On choisit quelques individus (au sein d’une
Chakib Jerry
Master G.R.F
population humaine) qui sont pertinents pour l’étude, et ensuite on leur demande de
proposer d’autres individus pour l’enquête.
Problème : Il est impossible d’évaluer le degré de représentativité de la population.
Les méthodes aléatoires reposent sur le tirage au hasard d’échantillons et sur le calcul
des probabilités.
— Echantillonnage aléatoire simple :
— On prélève dans la population, des individus au hasard, sans remise : tous les
individus ont la même probabilité d’être prélevés, et ils le sont indépendamment
les uns des autres.
— La procédure de sélection d’un échantillon aléatoite simple, à partir d’une popu-
lation finie, consiste à choisir les éléments de l’échantillon un par un, de façon à
ce que les éléments restants dans la population aient la même probabilité d’être
sélectioné.
— Le nombre d’échantillons aléatoires simples de taille n différents qui peuvent être
sélectionés à partir d’une population de taille N est
N!
CNn =
n!(N − n)!
Chakib Jerry
Master G.R.F
H
Y
CNnhh
h=1
Chakib Jerry
CHAPITRE 3
1 Introduction
Si on considère une population où tous les échantillons ont la même taille n, on calcule
pour chaque échantillon i la moyenne :
n
1X
X̄i = Xj
n j=1
et la variance :
n
1X
Vi = (Xj − X̄)2
n j=1
Après, on considère les deux nouvelles variables aléatoires, moyenne : X̄ = (X̄1 , X̄2 , X̄3 , ...)
et variance : V = (V1 , V2 , V3 , ...).
L’idée du théorème
La somme d’un grand nombre de v.a. indépendantes suit une distribution approxima-
tivement normale, ce théorème est l’un des plus remarquables résultats de la théorie des
probabilités, il explique entre autres que de nombreux phénomènes naturels admettent une
distribution en forme de cloche, c’est à dire normale.
17
Master G.R.F
Version forte
Soit X une v.a. qui suit une loi quelconque sur la population avec E(X) = µ et
σ(X) = σ. On prélève, au hasard, un échantillon de taille n, avec n ≥ 30, de moyenne X̄,
alors la v.a. X̄ suit approximativement une loi normale :
σ
X̄ ∼ N (µ, √ )
n
exemple
Les statistiques des notes obtenues en mathématiques pour l’année 2006 au Bac en France
sont :
moyenne nationale : µ = 10, 44
écart-type : σ = 1, 46
Une classe de Bac comporte 35 élèves en 2006/2007, l’objectif est de calculer la probabilité
que la moyenne de cette classe soit supérieure à 10.
Puisque la loi de probabilité est inconnue, mais l’effectif de l’échantillon n = 35 ≥ 30.
Dans ce cas là, nous pouvons utiliser le T.C.L. version forte.
Soit X̄ la v.a. correspondante au moyenne de l’échantillon, alors :
σ 1, 46
X̄ ∼ N (µ, √ ) ⇒ X̄ ∼ N (10, 44; √ )
n 35
Chakib Jerry
Master G.R.F
Alors,
10 − 10, 44
P (X̄ ≥ 10) = P (T ≥ )
1, 46
√
35
= P (T ≥ −1, 78) = P (T ≤ 1, 78)
Conclusion
Il y’a environ 96% de chance que la moyenne des notes des élèves soit supérieure à 10.
échantillons.
Si X est une v.a. associée à la population, elle suit donc une loi binomiale, puisqu’on
s’intéresse à un caractère bien défini. Soit un échantillon de taille n,
X ∼ B(n, p)
avec
E(X) = np, V (X) = np(1 − p)
et
nombre de cas favorable X
F = =
nombre de cas possible n
Chakib Jerry
Master G.R.F
Un résultat général de probabilité (le théorème central limite, TCL) justifie l’approxima-
tion de certaines lois par des lois normales. On utilisera par la suite les deux approximations
de loi suivantes :
Exemple
Une éléction a eu lieu et un candidat a eu 40% des voix. On prélève un échantillon de
100 bulletins de vote. Quelle est la probabilité que, dans l’échantillon, le candidat ait entre
35% et 45% des voix ?
p = 40% = 0, 4 et n = 100 ≥ 30, alors :
r √
0, 4 · 0, 6 0, 24
F ∼ N (0, 4; ) = N (0, 4; )
100 10
F − 0, 4
Donc, on doit calculer : P (0, 35 ≤ F ≤ 0, 45). Posons : T = √ ∼ N (0, 1). Alors,
0, 24
10
0, 35 − 0, 4 0, 45 − 0, 4
P( √ ≤T ≤ √ ) = P (−1, 02 ≤ T ≤ 1, 02)
0, 24 0, 24
10 10
= 2π(1, 02) − 1
= 2 · 0, 8461 − 1 = 0, 6922
Chakib Jerry
Master G.R.F
Or on a aussi :
X
E(F ) = E( )
n
1
= E(X)
n
1
= ·n·p=p
n
et
X
V (F ) = V ( )
n
1
= V (X)
n2
n · p(1 − p) p(1 − p)
= 2
=
n n
d’où r
p(1 − p)
σ(F ) =
n
n n
2 1X 1X 2
S̄ = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i
Chakib Jerry
Master G.R.F
n−1 2
Où : E(X̄) = µ, comme on a : E(S̄ 2 ) = σ et E(aX) = aE(X), alors :
n
n
E(S̄ 2 ) = σ 2
n−1
n
E( S̄ 2 ) = σ 2
n−1
n
Posons, S 2 = S̄ 2 , où S 2 est la variance corrigée, d’où : E(S 2 ) = σ 2 .
n−1
On a aussi :
n
2 1X
S̄ = (Xi − X̄)2
n i=1
n
S2 = S̄ 2
n−1
n
n 1X
= ( (Xi − X̄)2 )
n − 1 n i=1
n
1 X
= (Xi − X̄)2
n − 1 i=1
On dit que S̄ 2 est une variance biaisée et S 2 est une variance non biaisée.
Chakib Jerry
CHAPITRE 4
ESTIMATION
1 Estimation ponctuelle
1.1 Introduction
L’objectif de la statistique, est de faire l’inférence, sur une (ou plusieurs) variables aléa-
toires par la précision de la loi de probabilité et/ou l’estimation des paramètres.
L’inférence statistique consiste à induire les caractéristiques inconnues d’une population
à partir d’un échantillon issu de cette population. Les caractéristiques de l’échantillon, une
fois connues, reflètent avec une certaine marge d’erreur possible celles de la population.
L’un des problèmes fondamentaux de l’inférence statistiques est l’estimation des carac-
téristiques (paramètres) d’une population à partir de ceux d’un échantillon aléatoire.
L’estimation consiste à rechercher la valeur numérique d’un ou plusieurs paramètres in-
connus d’une loi de probabilité à partir d’observations (échantillon).
23
Master G.R.F
Définition
On cherche à estimer une valeur θ inconnue liée à un certain phénomène aléatoire, en
général, la moyenne µ ou la variance σ 2 ou encore l’écart-type σ de la loi du phénomène.
Pour ce faire, on dispose d’observations indépendantes du phénomènes, càd de v.a.
X1 , ..., Xn indépendantes et de même loi (celle du phénomène). On parle d’un échantillon.
On définit à partir de l’échantillon une nouvelle variable aléatoire notée T dont les valeurs
seront proches de celle de la grandeur θ à estimer. Cette nouvelle v.a. T sera appelée esti-
mateur de θ.
Il peut y avoir plusieurs estimateurs pour une même grandeur θ, certains meilleurs que
d’autres.
Exemple
θ = µ moyenne des poids des nouveaux nés en Maroc. Ici, on prendra comme estimateur
T la v.a. donnée par la moyenne (arithmétique) observée sur un échantillon de 10 nouveaux
nés. On note cet estimateur en général X̄ :
X1 + X2 + ... + X10
X̄ =
10
La valeur de X̄ calculée sur cet échantillon noté x̄ = X̄(ω) sera appelée estimation de µ.
Chakib Jerry
Master G.R.F
Si les données sont issues d’un échantillon, la moyenne est notée X̄ ; si les données sont
issues d’une population, la moyenne est notée µ ou m.
La moyenne estimée pour un échantillon est :
n
1X
X̄ = Xi
n i=1
Avec :
σ2
E(X̄) = µ et V (X̄) =
n
La variance est une mesure de dispersion qui utilise toutes les observations.
La variance est basée sur la différence entre la valeur de chaque observation xi et la
moyenne (X̄ pour un échantillon, µ pour la population). La différence entre chaque observa-
tion xi et la moyenne est appelée écart par rapport à la moyenne.
Pour calculer la variance, les écarts par rapport à la moyenne sont élevés au carré.
La variance estimée pour un échantillon est :
n
1X
S̄ 2 = (Xi − X̄)2
n i=1
n
1 X
S2 = (Xi − X̄)2
n − 1 i=1
On a
n
S2 = S̄ 2
n−1
Et
n−1 2
E(S 2 ) = σ 2 =⇒ E(S̄ 2 ) = σ
n
On considère une population avec p est la proportion d’une caractéristique connue dans
cette population, et f est la proportion ou la fréquence de la même caractéristique dans
Chakib Jerry
Master G.R.F
p(1 − p)
E(f ) = p et V (f ) =
n
Un estimateur est sans biais si, à taille d’échantillon fini et fixé, l’espérance de l’estimateur
égale au paramètre à estimer,
E(Tn ) = θ
lim E(Tn ) = θ
n→+∞
Dans le cas contraire, on parle de l’estimateur biaisé. Si Tn est biaisé, le biais B sera alors :
B = E(Tn ) − θ
n−1 2
E(S̄n2 ) = σ
n
Chakib Jerry
Master G.R.F
n
1 X
— Par contre, La variance empirique corrigée Sn2 = (Xi − X̄)2 est un estimateur
n − 1 i=1
sans biais de la variance, si m est inconnue.
E(Sn2 ) = σ 2
— X̄ et Sn2 sont sans biais, S̄n2 est biaisé mais asymptotiquement sans biais :
n−1 2
lim E(S̄n2 ) = lim σ = σ2
n→+∞ n→+∞ n
V (Tn ) −→n→+∞ 0
Exemples :
σ2
E(X̄) = m, alors V (X̄) = −→n→+∞ 0
n
p(1 − p)
E(f ) = p, alors V (f ) = −→n→+∞ 0
n
Comparaison des estimateurs
Soient Tn et T̃n 2 estimateurs sans biais d’un paramètre θ. Tn est dit plus efficace que
T̃n si :
∀θ ∈ Θ V (Tn ) ≤ V (T̃n )
Chakib Jerry
Master G.R.F
P (| Tn − θ |≥ ε) −→n→+∞ 0
Preuve
Inégalité de Bienyamé-Tchebychev
Soit X une v.a. d’espérance E(X) et de variance V (X). Alors :
V (X)
∀ε > 0, P (| X − E(X) |≥ ε) ≤
ε2
V (Tn )
P (| Tn − E(Tn ) |≥ ε) ≤
ε2
P (| Tn − θ |≥ ε) −→n→+∞ 0
— L’identification et la qualité d’un estimateur sans biais de variance minimale est lié à
Chakib Jerry
Master G.R.F
1
V (Tn ) = − 2
∂ ln(fθ (x))
n·E
∂θ2
Chakib Jerry
Master G.R.F
En voici le principe :
Si un échantillonage a produit la suite finie x1 , ..., xn de nombres et qu’on a choisit de modé-
liser cette situation par un n-échantillon X1 , ..., Xn de v.a. indépendantes de loi L(θ), et si le
choix de la valeur du paramètre θ est le problème auquel on est confronté, on peut considérer
l’évènement
E ∗ = {X1 = x1 , ..., Xn = xn }
et sa probabilité
L’idée est alors que le choix de l’estimateur θ∗ qu’il convient d’effecteur pour θ, est celui
pour lequel cette probabilité est maximale pour les valeurs x1 , ..., xn obtenues
Définition(cas discret)
La fonction
i=n
Y
L(X1 , ..., Xn ; θ) = P (Xi = xi )
i=1
Chakib Jerry
Master G.R.F
Maximum de la vraisemblance
La v.a. obtenue en cherchant le maximum de la vraisemblance L(x1 , ..., xn ; θ) appli-
quée au n-échantillon (X1 , ..., Xn ) s’appelle l’estimateur au maximum de vraisemblance du
paramètre θ de la loi L(θ). Alors si θ∗ est l’estimateur au maximum de vraisemblance du
paramètre θ alors il doit vérifier les conditions de maximisation :
∂L(x1 , ..., xn ; θ)
=0
∂θ
∂ 2 L(x1 , ..., xn ; θ)
<0
∂ 2θ
1 1
− 2
=− 2
∂ ln(fθ (x)) ∂ ln(Lθ (x))
n·E E
∂θ2 ∂θ2
Exemple Soit X une v.a. suivant une loi normale de moyenne µ et d’écart-type σ.
Puisque la loi normale est une loi continue alors la vraisemblance est définie comme suit :
i=n
Y
L(x1 , ..., xn ; θ) = f (xi )
i=1
avec 2
1 x−µ
−
1
f (x) = √ e 2 σ , x ∈ R, µ ∈ R, σ > 0
σ 2π
Supposons que l’écart-type σ est inconnue est nous voulons chercher la meilleur estimation
de ce paramètre. Dans ce cas θ = σ. D’après la définition de la méthode du maximum de
vraisemblance le meilleur estimateur est celui qui maximise la vraisemeblance, or :
i=n
Y
L(x1 , ..., xn ; σ) = f (xi )
i=1 2
i=n
1 xi − µ
Y 1 −
= √ e 2 σ
i=1
σ 2π
n
X (xi − µ)2
n −
1 2σ 2
= √ e i=1
σ 2π
Chakib Jerry
Master G.R.F
n
X n
X
2
3σ 2
(xi − µ) 3 (xi − µ)2
2
∂ ln (L(x1 , ..., xn ; σ)) n i=1 n i=1
2
= 2− = −
∂ σ σ σ6
n
σ2 σ4
X
(xi − µ)2
i=1
En remplaçant σ par sa valeur σ 2 =
n n
X
3 (xi − µ)2
∂ 2 ln (L(x1 , ..., xn ; σ)) n
⇒ 2
= n − ni=1 2
∂ σ X 2 X
(xi − µ) 2
(xi − µ)
i=1 i=1
n
n
n2 3n2 2n2
= n − n =− n <0
X 2
X 2
X 2
(xi − µ) (xi − µ) (xi − µ)
i=1 i=1 i=1
n2 3n2 2n2
= n − n =− n <0
X 2
X 2
X 2
(xi − µ) (xi − µ) (xi − µ)
i=1 i=1 i=1
Chakib Jerry
Master G.R.F
3.1 Introduction
— On souhaite, à partir des observations faites sur un échantillon (X1 , X2 , ..., Xn ), déter-
miner un intervalle de confiance contenant la valeur moyenne avec un risque d’erreur
décidé à l’avance.
— C’est un intervalle dans lequel se trouve θ avec une probabilité grande 1 − α (où α
est un risque qu’on se fixe, en général, petit).
— On peut en théorie choisir 1 − α aussi proche de 1 que l’on veut, mais alors l’intervalle
de confiance grandit et devient imprécis. Il s’agit donc d’un compromis entre précision
(intervalle peu étendu) et sûreté (α petit).
— La probabilité 1 − α est appelée niveau de confiance et α le risque (de 1ère espèce).
— α est la probabilité que l’intervalle proposé [−t, t] (qu’on notera IC, pour intervalle
de confiance) ne contienne pas la valeur à estimer θ.
— On peut écrire :
P (| T |> t) = α
1 − P (| T |≤ t) = α
P (−t ≤ T ≤ t) = 1 − α
σ X̄ − µ
X̄ ∼ N (µ, √ ) =⇒ T = ∼ N (0, 1)
n √σ
n
Chakib Jerry
Master G.R.F
Or, on a P (−t ≤ T ≤ t) = 1 − α,
X̄ − µ
⇔ P (−t ≤ ≤ t) = 1 − α
√σ
n
−tσ tσ
⇔ P ( √ ≤ X̄ − µ ≤ √ ) = 1 − α
n n
−tσ tσ
⇔ P ( √ ≤ µ − X̄ ≤ √ ) = 1 − α
n n
tσ tσ
⇔ P (X̄ − √ ≤ µ ≤ X̄ + √ ) = 1 − α
n n
tσ tσ
— Autrement dit, µ appartient à l’intervalle [X̄ − √ , X̄ + √ ] avec une probabilité de
n n
1 − α.
— Cet intervalle est appelé intervalle de confiance.
Remarque
Si la valeur du risque α est connue, on peut facilement déterminer t.
Nous avons
P (−t ≤ T ≤ t) = 1 − α
P (−t ≤ T ≤ t) = 2π(t) − 1 = 1 − α
alors,
2−α α
π(t) = =1−
2 2
à l’aide de la table de la loi normale centrée réduite, on peut calculer t.
L’intervalle de confiance de la moyenne s’écrit :
tσ tσ
[X̄ − √ , X̄ + √ ]
n n
Chakib Jerry
Master G.R.F
n
2 1 X
S = (Xi − X̄)2
n − 1 i=1
S
X̄ ∼ N (µ, √ )
n
n
1 X
— Or S = 2
(Xi − X̄)2 , alors pour chaque i ∈ [1, n], la v.a. Yi = Xi − X̄ va
n − 1 i=1
suivre une loi normale N (Ȳi , σYi ).
— Donc, Yi2 = (Xi − X̄)2 va suivre une loi de khi-deux χ2 . Alors S 2 suit une loi de
khi-deux à n − 1 degré de liberté (d.d.l.).
X̄ − µ
— Puisque T = S , alors le numérateur suit une loi normale et le dénominateur suit
√
n
une loi de khi-deux, alors le rapport suit une loi de student à n − 1 d.d.l.
— Comme la loi de student est symétrique. Dans ce cas, l’intervalle de confiance s’écrira :
tS tS
[X̄ − √ , X̄ + √ ]
n n
2−α α
P (T ≤ t) = π(t) = =1−
2 2
Si la taille de l’échantillon n ≥ 30 :
— Si la taille de l’échantillon est supérieure ou égale à 30, d’après le théorème central
limite, la loi de student est remplacée par la loi normale.
— t est déterminé par la table de la loi normale N (0, 1).
Chakib Jerry
Master G.R.F
tS tS
[X̄ − √ , X̄ + √ ]
n n
Remarque
La variance empirique est
n
2 1X
S̄ = (Xi − X̄)2
n i=1
alors, on a : r
2 n n
S = S̄ 2 =⇒ S = S̄
n−1 n−1
d’où l’intervalle de confiance s’écrit :
tS̄ tS̄
[X̄ − √ , X̄ + √ ]
n−1 n−1
— Donc
F −p
T= r ∼ N (0, 1)
p(1 − p)
n
Nous cherchons toujours à construire un intervalle de confiance tel que :
P (−t ≤ T ≤ t) = 1 − α
Chakib Jerry
Master G.R.F
d’où
F −p
=⇒ P (−t ≤ r ≤ t) = 1 − α
p(1 − p)
n
r r
p(1 − p) p(1 − p)
=⇒ P (−t ≤F −p≤t )=1−α
r n r n
p(1 − p) p(1 − p)
=⇒ P (−t ≤p−F ≤t )=1−α
rn rn
p(1 − p) p(1 − p)
=⇒ P (F − t ≤p≤F +t )=1−α
n n
2−α α
π(t) = =1−
2 2
Exemple
A quelque jours d’une élection, un candidat fait effectuer un sondage. Sur les 150
personnes interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections.
Déterminer l’intervalle de confiance de la proportion au niveau de 90%.
45
n = 150 et 1 − α = 0, 9, d’où α = 0, 1. On a f = = 0, 3, alors :
150
2−α α 0, 1
π(t) = =1− =1− = 0, 95
2 2 2
=⇒ t = 1, 65
Chakib Jerry
Master G.R.F
tS tS̄
E=√ =√
n n−1
Soient une population dont la v.a. associée suit une loi nrmale : X ∼ N (m, σ)
nS ∗2
S ∗2 ∼ χ2 (n) =⇒ ∼ χ2 (n)
σ2
nS ∗2
P (a ≤ ≤ b) = 1 − α
σ2
Chakib Jerry
Master G.R.F
1 σ2 1
⇒ P( ≤ ∗2
≤ )=1−α
b nS a
Quand la moyenne est connue, l’intervalle de confiance pour la variance d’une loi normale
s’écrit donc au niveau 1 − α sous la forme suivante :
nS ∗2 nS ∗2
[ , ]
b a
Où
α
P (χ2 ≤ b) = 1 −
2
α
P (χ2 ≤ a) =
2
Cet intervalle n’est pas centré car la loi du khi-deux n’est pas symétrique.
(n − 1)S 2
S 2 ∼ χ2 (n − 1) =⇒ ∼ χ2 (n − 1)
σ2
(n − 1)S 2 (n − 1)S 2
2
nS̄ nS̄ 2
, = ,
b a b a
car
n
S2 = S̄ 2
n−1
Où
α
P (χ2 ≤ b) = 1 −
2
α
P (χ2 ≤ a) =
2
Chakib Jerry
Master G.R.F
Exercices
Exercice 1
Un analyste financier étudie les comptes de 200 clients ayant souscrit un emprunt.
A partir d’un échantillon de 20 comptes, il trouve que le solde moyen d’un compte est
de 1514, 69 Dirhams avec un écart type égal à 453, 34 Dirhams. Donner un intervalle de
confiance à 95% du solde moyen d’un compte.
Les hypothèses se traduisent par :
L’écart type de la population est inconnu, nous devons utiliser la loi de Student à (n − 1)
d.d.l. : T19 .
1 − α = 0, 95 ⇒ α = 0, 05 d’où tα = 2, 093
L’intervalle de confiance ayant 95 chances sur 100 de contenir la valeur vraie de la moyenne
m est :
S S
X̄ − √ tα ≤ m ≤ X̄ + √ tα
n−1 n−1
2, 093 × 453, 34 2, 093 × 453, 34
1514, 69 − √ ≤ m ≤ 1514, 69 + √
19 19
1297, 02 ≤ m ≤ 1732, 36
Exercice 2
Quelques jours avant le second tour d’une élection présidentielle, un sondage réalisé
sur un échantillon représentatif de 1000 personnes indique un pourcentage d’intentions de
vote en faveur d’un candidat X égal à 0, 485. Déterminer un intervalle de confiance pour
p, la vraie proportion d’intentions de vote en faveur du candidat X, ceci avec un niveau de
confiance de 90%, de 95% et de 99%. Déterminer aussi la marge d’erreur dans l’estimation
de p.
Chakib Jerry
Master G.R.F
Exercice 3
Un groupe d’étudiantes inscrites en Sciences de la Santé vont effectuer un sondage
auprès de la population étudiante pour estimer le pourcentage d’adeptes du tabagisme. La
population étudiante est d’environ 8000.
Déterminer la taille d’échantillon requise pour assurer une marge d’erreur (en valeur ab-
solue) n’excédant pas 5%, avec un niveau de confiance de 95%. Une enquête similaire
effectuée, il y a 3 ans, indiqua que 32% d’individus fumaient régulièrement.
Exercice 4
Un sondage sur la popularité du Premier Ministre indique que 51% des personnes in-
terrogées sont favorables à sa politique.
Construire un intervalle de confiance de niveau 0, 95 pour la proportion p de marocains
favorables à cette politique, sachant que ce sondage a été réalisé auprès de n = 100 per-
sonnes. Même question si n = 1000.
Quelle aurait dû être la taille d’échantillon pour que l’intervalle soit de longueur inférieure
à 4% ?
Exercice 5
Sur la base d’une ligne de pauvreté correspondant à une consommation de 2400 calories
par personne et par jour, les résultats du QUID ont permis d’évaluer la proportion des
ménages marocains en dessous du seuil de pauvreté à 53, 9% en 2001. Estimer le nombre
de pauvres sur l’échantillon des 1000 prochaines naissances.
(Prendre un niveau de confiance de 95%) Donner la marge d’erreur dans l’estimation de
la proportion de pauvres.
(Source : Questionnaire Unifié des Indicateurs de Développement (QUID)
Exercice 6
Une enquête réalisée par un constructeur d’imprimante sur un échantillon de 200 ma-
chines montre que la durée moyenne de vie de la tête d’impression matricielle à aiguilles
est de 155 millions d’impacts avec un écart-type égal à 70 millions d’impacts.
Estimer la durée de vie moyenne des têtes d’impression de ce type de machines au seuil
= 0, 05.
Chakib Jerry
Master G.R.F
Exercice 7
Un fabricant de piles électriques affirme que la durée de vie moyenne du matériel qu’il
produit est de 170h. Un organisme de défense des consommateurs prélève au hasard un
échantillon de 100 piles et observe une durée de vie moyenne de 158h avec un écart-type
empirique de 30h.
a) Déterminer un intervalle de confiance de niveau 0, 99 pour la durée de vie moyenne m.
b) Peut-on accuser ce fabricant de publicité mensongère ?
Exercice 8
Un échantillon aléatoire comptant 17 observations d’une distribution normale de
moyenne et de variance inconnues a donné X̄ = 4, 7 et S 2 = 5, 76. Trouver des inter-
valles de confiance à 90% pour la moyenne µ et la variance σ 2 .
Exercice 9
Lors d’une très sérieuse et importante analyse statistique de la taille des étudiantes en sciences et génie à l’Université
Laval, on a mesuré un échantillon aléatoire d’étudiantes en actuariat et un autre en génie civil. Les résultats obtenus se
trouvent résumés dans le tableau ci-dessous. On suppose que les deux échantillons aléatoires sont indépendants et que la
taille des étudiantes est distribuée selon une loi normale.
a) Déterminer un intervalle de confiance à 90% pour la taille moyenne des étudiantes de chacun des deux programmes en
c) Y a-t-il une différence significative, avec un niveau de confiance de 90%, entre la taille des étudiantes en actuariat et celles
en génie civil ?
d) Déterminer un intervalle de confiance à 90% pour la variance de la taille des étudiantes en actuariat.
e) La différence observée entre les variances dans la taille des étudiantes des deux programmes est-elle significative ? Utiliser
Chakib Jerry
CHAPITRE 5
TESTS D’HYPOTHÈSES
1 Introduction
— Un test d’hypothèse est un procédé d’inférence permettant de contrôler (accepter
ou rejeter) à partir de l’étude d’un ou plusieurs échantillons aléatoires, la validité
d’hypothèses relatives à une ou plusieurs populations.
— Le point de départ d’un test d’hypothèse est l’hypothèse nulle, notée H0 .
— Le complément de H0 est l’hypothèse alternative, notée H1 (parfois aussi Ha ).
— H0 peut être considérée comme l’hypothèse de statu-quo ou de stabilité, tandis que
H1 est l’hypothèse de recherche ou d’évolution (càd ce qu’il s’agit de prouver).
— Le cas le plus courant sont des tests d’hypothèses paramétriques, portant sur des
assertions sur un paramètre θ. Dans ce cas, on distingue trois formes principales de
H0 et H1 :
H0 : θ = θ0 ; H1 : θ 6= θ0 Test bilatéral
43
Master G.R.F
∗ acceptation de H0 , ou
∗ rejet de H0
— Soit H0 est vraie, soit H1 est vraie, mais pas les deux. Idéalement, le test devrait
conduire à l’acceptation de H0 lorsque H0 est vraie et au rejet de H0 lorsque H1 est
vraie.
— Cependant, puisque les tests d’hypothèses sont basés sur les informations d’un échan-
tillon, nous devons admettre la possibilité d’erreurs.
— On appelle risque d’erreur de première espèce, notée α la probabilité de rejeter H0 et
d’accepter H1 alors que H0 est vraie.
— On appelle risque d’erreur de seconde espèce, notée β la probabilité de rejeter H1 et
d’accepter H0 alors que H1 est vraie.
— La puissance d’un test, notée 1 − β, est la probabilite de rejeter H0 correctement, càd
quand H0 est effectivement fausse.
— Le niveau d’acceptation d’un test, notée 1 − α, est la probabilité d’accepter H0 cor-
rectement.
2 Test de la moyenne
On suppose que l’on a un échantillon qui suit une loi normale N (µ, σ) ou la variance est
connue.
On veut tester H0 : µ = µ0 contre H1 : µ 6= µ0 , c’est le cas bilatéral. Sous l’hypothèse H0 ,
n
1X σ
la variable aléatoire X̄n = Xi suit une loi N (µ0 , √ ) et par conséquent la statistique
n i=1 n
X̄n − µ0
T= ∼ N (0, 1)
√σ
n
Chakib Jerry
Master G.R.F
α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi N (0, 1) :
α
P (T ≤ t1− α2 ) = π(t1− α2 ) = 1 −
2
∗ Si T ∈
/ [−t1− α2 , t1− α2 ], alors on rejette H0 .
Ou, on vérifie,
σt1− α σt1− α
∗ Si X̄n ∈ [µ0 − √ 2 , µ0 + √ 2 ], alors on accepte H0 .
n n
σt1− α σt1− α
/ [µ0 − √ 2 , µ0 + √ 2 ], alors on rejette H0 .
∗ Si X̄n ∈
n n
Si on considère un test unilatéral supérieur H0 : µ = µ0 contre H1 : µ > µ0 , on obtient
pour un risque d’erreur α
P (T ≤ t1−α ) = 1 − α
Avec t1−α le quantile d’ordre 1 − α de la loi N (0, 1) ; et donc la région de rejet est
]t1−α , +∞[
P (T ≥ −t1−α ) = P (T ≤ t1−α ) = 1 − α
Avec t1−α le quantile d’ordre 1 − α de la loi N (0, 1) ; et donc la région de rejet est
] − ∞, −t1−α [
Chakib Jerry
Master G.R.F
n
1 X
S2 = (Xi − X̄n )2
n − 1 i=1
X̄n − µ0
T=
√S
n
Chakib Jerry
Master G.R.F
5, 07 − 5
T= = 2, 33 ∈
/ [−1, 96; 1, 96]
0, 03
ou
σt1− α σt1− α
/ [µ0 − √ 2 , µ0 + √ 2 ] = [4, 9412; 5, 0588]
5, 07 ∈
n n
— Règle de décision.
Puisque 5,07 appartient à la zone critique, on décide de rejeter l’hypothèse H0 et
d’accepter l’hypothèse alternative Hl : m 6= 5 (la machine n’est pas bien réglée).
Exemple 2
La durée de vie (en heures) des ampoules électriques produites par une usine est une
variable aléatoire X d’écart type 120. Le fabricant annonce qu’en moyenne, les ampoules
ont une durée de vie de 1120 heures. On demande de rédiger une règle de décision pour
vérifier l’affirmation du fabriquant, au seuil de risque de 5%, en testant un échantillon de
36 ampoules.
— Variable aléatoire de décision.
Soit m l’espérance mathématique de X, c’est-à-dire la moyenne des durée de vie
Chakib Jerry
Master G.R.F
de toutes les ampoules produites par l’usine. Considérons la v.a. M qui, à chaque
échantillon de 36 ampoules associe la moyenne de durée de vie des 36 ampoules.
La taille des échantillons étant suffisamment grande, on considère que M suit la loi
120
N (m; √ ), c’est-à-dire N (m; 20).
36
— Choix des hypothèses.
Soit l’hypothèse nulle H0 : m = 1120 (l’affirmation du fabricant est vraie). Dans
l’exemple précédent, les rondelles devaient avoir une épaisseur moyenne de 5 mm et
cette mesure ne supportait ni excès, ni déficit. Ici, l’acheteur ne se plaindra que si la
durée de vie des ampoules est inférieure à 1120 heures ; dans le cas où la moyenne
me , de l’échantillon est supérieure à 1 120, l’hypothèse du fabricant se trouve immé-
diatement confirmée. L’hypothèse alternative Hl est donc m < 1120 (l’affirmation du
fabricant est fausse).
— Zone critique.
La zone critique se trouve donc d’un seul côté de la moyenne. On dit alors que le test
est unilatéral par opposition au test bilatéral effectué au paragraphe précédent. Dons
le cas où l’hypothèse H0 est vraie, la v.a. M suit la loi N (1120; 20). On cherche alors
le réel t1−α tel que P (T ≤ t1−α ) = 0, 95. Avec la table de N (0; 1), on a, t1−α = 1, 65,
d’où la zone critique est donc
σt1−α
] − ∞, µ0 − √ ] =] − ∞, 1087]
n
— Règle de décision.
Si la moyenne me de l’échantillon observé est inférieure à 1087, on rejette l’hypothèse
H0 et on accepte l’hypothèse alternative H1 (l’affirmation du fabricant est fausse). Si
la moyenne me de l’échantillon observé est supérieure à 1087, on accepte l’hypothèse
H0 .
3 Test de la proportion
Le modèle mathématique est le suivant. On dispose d’une population dans laquelle chaque
individu présente ou non un certain caractère, la proportion d’individus présentant le cara-
cère étant notée p, et un échantillon aléatoire de taille n extrait de cette population. La
Chakib Jerry
Master G.R.F
proportion f calculée à partir de l’échantillon est considérée comme une réalisation d’une
r loi binomiale B(n; p) qu’on peut assimiler, si n est assez grand, à une loi normale
v.a. de
p(1 − p)
N (p, ).
n
Si on veut tester H0 : p = p0 , La procédure est la même que précédemment :
p − p0
T= r ∼ N (0, 1)
p0 (1 − p0 )
n
— Dans le cas bilatéral, la région de rejet pour un risque α
r r
p0 (1 − p0 ) p0 (1 − p0 )
] − ∞, p0 − t1− α2 [∪]p0 + t1− α2 , +∞[ ou
n n
Exemple
un joueur qui doit choisir au hasard une carte dans un jeu de 32 cartes obtient certains
avantages s’il découvre un roi. On constate qu’il a retourné 134 fois un roi sur 800 essais.
Peut-on présumer, au seuil de risque de 1%, que ce joueur est un tricheur ?
— Variable aléatoire de décision.
Soit p la fréquence de rois que le joueur découvrirait s’il jouait une infinité de fois.
Soit F la v.a. qui, à chaque échantillon de 800 essais, associe la fréquence d’apparition
du roi. La taille
r des échantillons étant suffisamment grande, on considère que F suit
p(1 − p)
la loi N (p, ). F sera la v.a. de décision.
800
— Choix des hypothèses.
4
Si le joueur n’est pas un tricheur, la valeur de p est = 0, 125. Donc, l’hypothèse
32
nulle H0 est p = 0, 125 (le joueur n’est pas un tricheur). Si p < 0, 125, on considérera
Chakib Jerry
Master G.R.F
que le joueur n’est pas un tricheur non plus, donc : l’hypothèse alternative H1 est
p > 0, 125 (le joueur est un tricheur).
— Zone critique.
Dans le cas où l’hypothèse H0 est vraie, la variable aléatoire F suit la loi N (0, 125; 0, 0117).
On cherche alors le réel t1−α tel que P (T ≤ t1−α ) = 0, 99. Avec la table de N (0; 1),
on a, t1−α = 2, 33, d’où la zone critique est donc
r
p0 (1 − p0 )
]p0 + t1−α , +∞[=]0, 1522; +∞[
n
— Règle de décision.
134
L’échantillon observé a une fréquence égale à = 0, 1675. D’après la règle de
800
décision, puisque 0, 1675 > 0, 152, on accepte l’hypothèse H1 : on décide que le joueur
est un tricheur.
4 Test de la variance
On suppose que l’on a un échantillon qui suit une loi normale N (µ, σ 2 ) ou la moyenne
est connue.
On veut tester H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , c’est le cas bilatéral. Sous l’hypothèse
H0 , la statistique
nS ∗2
T= ∼ χ2 (n)
σ02
Pour un risque d’erreur α fixé on a donc
nS ∗2
2
P (χ (n) ≤ 2 ≤ χ21− α (n)) = 1 − α
α
2 σ0 2
α α
avec χ2α (n) et χ21− α (n) les quantiles d’ordre 2
et 1 − 2
de la loi χ2 (n).
2 2
α
P (χ2 ≤ χ21− α ) = 1 −
2 2
α
P (χ2 ≤ χ2α (n)) =
2 2
Chakib Jerry
Master G.R.F
Avec χ21−α (n) le quantile d’ordre 1 − α de la loi χ2 (n) ; et donc la région de rejet est
Avec χ2α (n) le quantile d’ordre α de la loi χ2 (n) ; et donc la région de rejet est
(n − 1)S̄ 2 nS 2
T= = ∼ χ2 (n − 1)
σ02 σ02
Chakib Jerry
Master G.R.F
Exemple
Les pièces des moteurs d’automobiles de dernière génération sont usinées avec une très
grande précision. L’écart-type des dimensions d’une pièce ne doit pas dépasser 10µm (les
dimensions suivent une loi normale, la dimension moyenne n’est pas donnée). On prélève
sur une unité de production 25 moteurs pour lesquels des mesures dimensionnelles menées
sur la même pièce donnent un écart-type de 13, 5µm. Peut-on conclure que la variabilité
est supérieure à la valeur tolérée (on adoptera un seuil de signification de 1%) ?
On a σ02 = 100µm et n = 25, avec S 2 = (13, 5)2 = 182, 25µm. On est dans le cas ou la
moyenne est inconnue, alors on considère un test unilatéral supérieur H0 : σ 2 = σ02 contre
H1 : σ 2 > σ02 , on obtient pour un risque d’erreur α = 0, 01
nS 2
P( ≤ χ21−α (n − 1)) = 1 − α
σ02
Où
nS 2
∼ χ2 (24)
σ02
D’après la table de χ2 , on a
χ21−α (24) = 42, 97
Comme on a
182, 25 ∈]171, 88; +∞[
Chakib Jerry
Master G.R.F
On suppose que l’on a deux échantillons (X1 , ..., Xn1 ) et (Y1 , ..., Yn2 ) qui suivent une loi
normale N (µ1 , σ1 ) et N (µ2 , σ2 ) où les variances sont connues.
On veut tester H0 : µ1 = µ2 contre H1 : µ1 6= µ2 , c’est le cas bilatéral.
n1
σ2
X
Sous l’hypothèse H0 , la v.a. X̄n1 = n11 Xi suit une loi N (µ1 , n11 ) et la v.a. Ȳn2 =
i=1
n2
σ22
X
1
n2
Yi suit une loi N (µ2 , n2
)
i=1
Or on a :
E(X̄n1 − Ȳn2 ) = E(X̄n1 ) − E(Ȳn2 ) = µ1 − µ2
et
σ12 σ22
V (X̄n1 − Ȳn2 ) = V (X̄n1 ) + V (Ȳn2 ) = +
n1 n2
Par conséquent la statistique
X̄n − Ȳn2
T = q 12 ∼ N (0, 1)
σ1 σ22
n1
+ n2
P (−t1− α2 ≤ T ≤ t1− α2 ) = 1 − α
Chakib Jerry
Master G.R.F
1n 2 n
1 X 1 X
S̄n21 + S̄n22 = 2
(Xi − X̄n1 ) + (Yi − Ȳn2 )2
n1 − 1 i=1 n2 − 1 i=1
Alors la statistique
X̄n − Ȳn2
T = q 21 2
∼ N (0, 1)
S̄n1 S̄n
n1
+ n2
2
P (−t1− α2 ≤ T ≤ t1− α2 ) = 1 − α
n1 n2
1 X X
S̄n21 ,n2 = ( (Xi − X̄n1 )2 + (Yi − Ȳn2 )2 )
n1 + n2 − 2 i=1 i=1
Alors la statistique
X̄n1 − Ȳn2
T= q ∼ T (n1 + n2 − 2)
S̄n21 ,n2 ( n11 + 1
n2
)
P (−t1− α2 ≤ T ≤ t1− α2 ) = 1 − α
Chakib Jerry
Master G.R.F
de rejet est
] − ∞, −t1− α2 [∪]t1− α2 , +∞[
n
1 2 n
1 X 1 X
S̄n21 + S̄n22 = (Xi − X̄n1 )2 + (Yi − Ȳn2 )2
n1 − 1 i=1 n2 − 1 i=1
Alors la statistique
X̄n − Ȳn2
T = q 21 2
S̄n1 S̄n
n1
+ n2
2
suit une loi de Student à ν degrés de liberté, où ν est l’entier le plus proche à l’équation de
”Welch-Satterthwaite” S̄ 2 2
2
S̄n
n1
n1
+ n2
2
S̄ 2 2 S̄ 2 2
1 n1 1 n2
n1 −1 n1
+ n2 −1 n2
P (−t1− α2 ≤ T ≤ t1− α2 ) = 1 − α
Avec t1− α2 le quantile d’ordre 1 − α2 de la loi de Student à ν d.d.l., donc la région de rejet
est
] − ∞, −t1− α2 [∪]t1− α2 , +∞[
Remarques
— Si on teste l’hypothèse alternativeH1 : µ1 > µ2 , la région de rejet est ]t1−α , +∞[
— Si on teste l’hypothèse alternativeH1 : µ1 < µ2 , la région de rejet est ] − ∞, −t1−α [
Chakib Jerry
Master G.R.F
On considère
n1 n2
1 X 1 X
Sn∗21 = 2 ∗2
(Xi − m1 ) et Sn2 = (Yi − m2 )2
n1 i=1 n2 i=1
Ainsi la statistique
Sn∗21
T=
Sn∗22
suit une loi de Fisher-Snedecor F(n1 , n2 ) à n1 et n2 degrés de liberté.
Pour un risque d’erreur α fixé on a une région de rejet
α α
avec F α2 (n1 , n2 ) et F1− α2 (n1 , n2 ) les quantiles d’ordre 2
et 1 − 2
de la loi F(n1 , n2 ).
On considère
1 n 2 n
1 X 1 X
S̄n21 = (Xi − X̄n1 )2 et S̄n22 = (Yi − Ȳn2 )2
n1 − 1 i=1 n2 − 1 i=1
Ainsi la statistique
S̄n21
T=
S̄n22
suit une loi de Fisher-Snedecor F(n1 − 1, n2 − 1) à n1 − 1 et n2 − 1 degrés de liberté.
Pour un risque d’erreur α fixé on a une région de rejet
α α
avec F α2 (n1 − 1, n2 − 1) et F1− α2 (n1 − 1, n2 − 1) les quantiles d’ordre 2
et 1 − 2
de la loi
F(n1 − 1, n2 − 1).
Remarque
1
Si F ∼ F(n, m), alors F
∼ F(m, n).
Chakib Jerry
Master G.R.F
n1 f1 + n2 f2
f=
n1 + n2
alors la statistique
f1 − f2
T= q ∼ N (0, 1)
f (1 − f )( n11 + 1
n2
)
α
Avec t1− α2 le quantile d’ordre 1 − 2
de la loi N (0, 1).
7.1 Exemples
Exemple 1
Une entreprise fabrique des sacs en plastique pour déchets. Afin de surveiller la pro-
duction, elle effectue des contrôles réguliers portant sur le poids maximum que les sacs
peuvent supporter. A une première date t1 , le contrôle de 100 sacs a donné une moyenne
de 58 kg et un écart type de 3 kg. A la seconde date t2 , le contrôle de 150 sacs a donné
une moyenne de 56 kg et un écart type de 5 kg. Peut-on considérer, au risque de 4%, que
la qualité des sacs a évolué entre les deux dates ?
On est dans le cas où la variance est inconnue avec n1 et n2 supérieurs à 30, alors, on
veut tester H0 : µ1 = µ2 contre H1 : µ1 6= µ2 , dans le cas bilatéral. Comme la variance est
inconnue, on l’estime par la variance corrigée
r r r r
n1 100 n2 150
S̄1 = S1 = 3 et S̄2 = S2 = 5
n1 − 1 99 n2 − 1 149
Chakib Jerry
Master G.R.F
Alors
X̄n − Ȳn2 X̄n − Ȳn2 58 − 56
T = q 21 2
= q 21 2
=q = 3, 9322
S̄n1 S̄n2 Sn1 Sn2 9 25
n1
+ n2 n1 −1
+ n2 −1 99
+ 149
et à partir de la table de la loi normale centrée réduite on a t0,98 = 2, 05, d’où la région de
rejet est ] − ∞; −2, 05[∪]2, 05; +∞[, comme
Donc on rejette H0 et on décide que la qualité des sacs a évolué entre les dates t1 et t2 .
Exemple 2
A l’issue d’un examen, il y a 23 reçus et 17 ajournés dans une classe et 15 reçus et
25 ajournés dans une autre classe. La différence observée entre les deux pourcentages de
réussite est-elle significative d’une différence de niveau entre les deux classes, au seuil de
5%.
On suppose que la première classe est issue d’une population C1 pour laquelle la fréquence
de succès est f1 , et que la deuxième classe est issue d’une population C2 pour laquelle la
fréquence de succès est f2 . On veut tester H0 : p1 = p2 contre H1 : p1 6= p2 , dans le cas
bilatéral, alors
23 15
f1 = = 0, 575 et f2 = = 0, 375
40 40
La fréquence commune dans les 2 échantillons est
n1 f1 + n2 f2
f= = 0, 475
n1 + n2
Donc
f1 − f2
T= q = 1, 791
f (1 − f )( n11 + 1
n2
)
D’après la table de la loi normale centrée réduite, on a t0,975 = 1, 96, et la région de rejet
est
] − ∞; −1, 96[∪]1, 96; +∞[
Par contre
1, 791 ∈]
/ − ∞; −1, 96[∪]1, 96; +∞[
Donc, on accepte H0
Chakib Jerry
Master G.R.F
Exemple 3
Les performances obtenues à un test d’aptitude, d’une part dans un
groupe de contrôle et d’autre part dans un groupe expérimental ayant
subi un traitement spécifique sont consignées dans le tableau suivant.
Groupe contrôle 10 5 6 7 10 6 7 8 6 5
Effectuer le test de compa-
Groupe expérimental 7 3 5 7 5 4 5 6
raison de variances avec un risque d’erreur de 5%.
On calcule pour chaque groupe, la moyenne ainsi que l’écart-type (non corrigé) des ré-
sultats observés, on est dans le cas des espérances inconnues.
2 2 2 2
On veut tester H0 : σcont = σexp contre H1 : σcont 6= σexp , dans le cas bilatéral, alors
2
S̄cont 2
Scont · 10
9
T= 2
= 2 · 8
= 1, 18
S̄exp Sexp 7
D’où
1
P (F(9, 7) ≤ F0,025 (9, 7)) = 0, 025 = P (F(7, 9) ≥ )
F0,025 (9, 7)
d’après la table de la loi de Fisher-Snedecor F(7, 9), on a
1
= 4, 197 ⇒ F0,025 (9, 7) = 0, 238
F0,025 (9, 7)
d’après la table de la loi de Fisher-Snedecor F(9, 7), on a F0,975 (9, 7) = 4, 823, alors la région
de rejet est
[0; 0, 238[∪]4, 823; +∞[
Comme 1, 18 ∈
/ [0; 0, 238[∪]4, 823; +∞[, donc on accepte H0 .
Chakib Jerry
Master G.R.F
8 Test de Khi-deux χ2
Les tests d’ajustement sont destinés à comparer une distribution observée et une distri-
bution théorique donnée. D’une façon générale, on considère d’une part, une population
infinie dont les individus sont classés en l catégories, en fonction d’un critère qualitatif ou
quantitatif, et d’autre part, un échantillon aléatoire et simple d’effectif n, dont les individus
sont classés de la même manière. Le but du test est de vérifier si la population possède une
distribution de probabilité donnée :
l
X
p1 , p2 , p3 , . . . , pl tel que pi = 1
i=1
l
X l
X
H0 : ni = npi avec ni = npi = n
i=1 i=1
On distingue deux cas d’application de ces tests, selon que la distribution théorique est
ou n’est pas complètement définie. Dans le premier cas, la variable de décision peut être
calculée immédiatement. Dans le second cas, la distribution de probabilité de la population
n’est définie qu’en fonction d’un ou de plusieurs paramètres, ceux-ci doivent préalablement
être estimés à partir des données de l’échantillon.
Cas d’une distribution complètement définie :
Pour comparer la distribution théorique et la distribution observée, on est amené à
confronter les effectifs observés ni et les effectifs attendus ou théoriques correspondants npi .
Les effectifs attendus doivent être tous supérieurs ou égales à 5. quand cette condition n’est
pas remplie, on peut regrouper des classes voisines, de manière à augmenter les effectifs
Chakib Jerry
Master G.R.F
l
X (ni − npi )2
VD =
i=1
npi
On peut démonter que la variable de décision est une variable aléatoire Khi-deux avec
(l − 1) degré de liberté. l correspond au nombre de calasses après regroupement.
La variable de décision peut être calculée plus facilement par :
l
X n2i
VD = −n
i=1
npi
l
X n2i
VD = −n
i=1
np̂ i
La variable de décision est nulle lorsque les effectifs observés sont touts égales aux effectifs
attendus, c’est à dire, lorsqu’il y a concordance absolue entre la distribution observée et la
distribution théorique. La valeur de la variable de décision est d’autant plus grande que les
écarts entre les effectifs observés et attendus sont plus grands. La valeur critique qui délimite
la région d’acceptation est χ2 telle que :
P (V D < χ2 ) = 1 − α ⇒ χ2 = χ21−α
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0; χ21−α [.
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à χ21−α .
Chakib Jerry
Master G.R.F
Les tests d’indépendance ont pour but de contrôler l’indépendance stochastique de deux
ou plusieurs critères de classification. Ils permettent également d’effectuer des comparaisons
de proportions.
Les tests d’indépendance concernent une population subdivisée en lc classes, en fonction
de deux critères de classification. La distribution de probabilité correspondante est alors une
distribution à deux dimensions, et les données relatives à tout échantillon sont présentées
sous la forme d’un tableau de contingence.
Pour des échantillons aléatoires et simples, si les deux critères de classification sont in-
dépendants, les probabilités pij de la distribution à deux dimensions peuvent être estimées
par :
ni. n.j
p̂ij=fi. ×f.j avec fi. = n
et f.j = n
sont les fréquences relatives marginales. ni. et n.j sont les
effectifs marginaux, et nij les effectifs conjoints.
Les effectifs attendus correspondants sont donc :
H0 : nij = np̂ij
la comparaison des effectifs observés et attendus se fait comme pour les tests d’ajuste-
ment, en calculant la variable de décision suivante :
l X c
X n2ij
VD = −n
i=1 j=1
np̂ ij
Chakib Jerry
Master G.R.F
On démontre que la variable de décision est une variable aléatoire Khi-deux avec
(l − 1)(c − 1) degré de liberté.
P (V D < χ2 ) = 1 − α ⇒ χ2 = χ21−α
Le test étant toujours unilatéral, la région d’acceptation est donc l’intervalle [0; χ21−α [.
On rejettera donc l’hypothèse nulle lorsque la valeur de la variable de décision est supérieure
ou égale à χ21−α .
Exemple 1
Le directeur de ventes d’un laboratoire pharmaceutique veut savoir s’il existe des dif-
férences significatives entre les régions en terme de niveau d’accueil d’un nouveau produit.
Les résultats suivants ont été obtenus auprès d’un échantillon aléatoire de clients :
XXX
XXX
XXX Régions
XXX Nord Est Sud Ouest
Niveau d’aceuil XXX
XX
X
Faible 22 35 0 5
Modéré 84 55 8 24
Elevé 25 17 22 12
Le niveau d’accueil dépend-t-il de la région ?
Exemple 2
Dans une grande ville d’un pays donné, une enquête a été réalisée sur les dépenses
mensuelles pour les loisirs. On a observé les résultats suivants :
— • Sur 280 familles habitant le centre-ville, les dépenses mensuelles pour les loisirs
sont en moyenne de 640 dh avec un écart-type de 120 dh.
— • Sur 300 familles habitant la banlieue, les dépenses mensuelles pour les loisirs sont
en moyenne de 610 dh avec un écart-type de 100 dh.
Peut-on dire au risque de 5% que la part du budget familial consacré aux loisirs est
différente suivant que la famille habite le centre-ville ou la banlieue ?
Chakib Jerry