Cours de Stat Inferentielles PDF

COURS DE STATISTIQUES
INFERENTIELLES
Licence d’économie et de gestion
Laurence GRAMMONT
Laurence.Grammont@univ-st-etienne.fr
http://www.univ-st-etienne.fr/maths/CVLaurence.html
September 19, 2003

2
Contents
1 Rappels 5
1.1 Statistique descriptive . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Statistique descriptive univariée . . . . . . . . . . . . . . . 5
1.1.2 Statistique descriptive bivariée . . . . . . . . . . . . . . . 7
1.2 Rappels de probabilité . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Espace probabilisable, espace probabilisé . . . . . . . . . . 8
1.2.2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Notions de convergence de v.a . . . . . . . . . . . . . . . . . . . . 11
1.4 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 La loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . 12
1.4.2 La loi hypergéométrique H(N, n, p) . . . . . . . . . . . . 13
1.4.3 La loi de Poisson P(m) . . . . . . . . . . . . . . . . . . . 13
1.5 Lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 La loi normale (Laplace-Gauss) N (µ, σ) . . . . . . . . . . 14
1.5.2 La loi du Khi-deux à n degrés de liberté (χ2n ) . . . . . . . 16
1.5.3 La loi de Student à n degrés de liberté (Tn ) . . . . . . . . 17
1.5.4 La loi de Fischer-Snedecor (F(n1 , n2 )) . . . . . . . . . . . 18
2 Introduction à la statistique inférentielle 19

2.1 Généralités sur l’inférence statistique . . . . . . . . . . . . . . . . 19
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Les problèmes à résoudre . . . . . . . . . . . . . . . . . . 20
2.1.3 Echantillon, réalisation d’échantillon, statistiques . . . . . 21
2.2 Quelques statistiques classiques . . . . . . . . . . . . . . . . . . . 23
2.2.1 La moyenne empirique et la variance empirique . . . . . . 23
2.2.2 Lois de probabilité des statistiques X̄ et S 2 . . . . . . . . 24
2.2.3 Fréquence empirique F . . . . . . . . . . . . . . . . . . . 27
3 Estimation 29
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Généralités sur les estimateurs . . . . . . . . . . . . . . . . . . . 30
3.3 Estimation ponctuelle des paramètres usuels . . . . . . . . . . . . 31
3.3.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . 31
3
4 CONTENTS
3.3.2 Estimation de la variance d’une population Gaussienne . 31

3.3.3 Estimation d’une proportion . . . . . . . . . . . . . . . . 33
3.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Intervalle de confiance pour une moyenne . . . . . . . . . 34
3.4.3 Intervalle de confiance pour la variance d’une variable
gaussienne . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.4 Intervalle de confiance pour une proportion . . . . . . . . 39
4 Tests de conformité 41
4.1 Généralités sur les tests statistiques . . . . . . . . . . . . . . . . . 41
4.2 Généralités sur les tests de conformité . . . . . . . . . . . . . . . 42
4.3 Tests de conformité sur une moyenne . . . . . . . . . . . . . . . . 42
4.3.1 Cas d’une variable Gaussienne . . . . . . . . . . . . . . . 42
4.3.2 Cas d’un échantillon de grande taille . . . . . . . . . . . . 46
4.4 Tests de conformité sur une variance d’une v.a Gaussienne . . . . 46
4.5 Tests de conformité sur une proportion . . . . . . . . . . . . . . . 49
4.6 Tests de choix entre deux valeurs du paramètre . . . . . . . . . . 50
5 Tests de comparaison 51
5.1 Généralités sur les tests de comparaison . . . . . . . . . . . . . . 51
5.2 Tests de comparaison de deux moyennes . . . . . . . . . . . . . 51
5.2.1 Cas où σ1 et σ2 sont connus . . . . . . . . . . . . . . . . . 52
5.2.2 Cas où σ1 et σ2 sont inconnus avec σ1 = σ2 et n1 et n2
< 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Cas où σ1 et σ2 sont inconnus et n1 et n2 > 30 . . . . . . 54
5.3 Tests de comparaison de deux variances . . . . . . . . . . . . . 55
5.4 Tests de comparaison de deux proportions . . . . . . . . . . . . 56
6 Tests du Khi-deux 59
6.1 Tests d’adéquation à une loi théorique . . . . . . . . . . . . . . . 59
6.2 Tests d’indépendance de deux caractères . . . . . . . . . . . . . . 61
6.3 Tests d’homogénéité (d’une v.a X) . . . . . . . . . . . . . . . . . 62
Chapter 1
Rappels
1.1 Statistique descriptive

C’est une méthode de description et non une théorie. Elle permet de décrire et
non d’expliquer.
1.1.1 Statistique descriptive univariée

• Ω : ensemble d’individus (population)
• M : ensemble de modalités
• x : Ω −→ M variable statistique

 Ω = {ω/ω = étudiant en AES}
ex : M = {m, b, v, n}
x(ω) = couleur des yeux de ω

• Soit {C1 , . . . , Ck } une partition de M en k classes.

classes fréq. abs. fréq. rel. fréq. cumul.
n1
C1 n1 (nb.ind. ∈ C1 ) f1 = F1 = f1
N

n2
C2 n2 f2 = F2 = F1 + f2

N

..

.

nk

Ck nk fk = Fk = Fk−1 + fk = 1

N

N = cardΩ

a) cas discret : Ci = {xi }

b) cas continu : Ci = [ei−1 , ei [ et l’on pose xi = 12 (ei−1 + ei )
5
6 CHAPTER 1. RAPPELS
• définition(mode): Cj est la classe modale (mode) ssi ∀i ∈ {1, . . . , k}
fj ≥ fi
• définition (moments):
a) moments d’ordre p centrés en 0:
k
X
Mp = fi xpi
i=1
k
X
x̄ = M1 = fi xi moyenne de x
i=1
a) moments d’ordre p centrés en x̄:

k
X
mp = fi (xi − x̄)p
i=1
k
X
V (x) = m2 = fi (xi − x̄)2 variance de x (= M2 − x̄2 )
i=1
• définition (courbe de distribution):

a) cas discret
X
F (x) = fi
{i/xi ≤x}
b) cas continu


 0 si x ≤ e0
 fi
F (x) = Fi−1 + (x − ei−1 ) si x ∈ [ei−1 , ei [

 ei − ei−1
 1 si x ≥ ek
• représentation graphique
– fréquences relatives : diagramme en bâtons pour les variables

discrètes ou diagramme circulaire (secteurs proportionnels aux fréquences)
ou diagramme à bandes pour les variables qualitatives.
– histogramme pour les variables continues :
fi
[ei−1 , ei [7−→ hi =
ei − ei−1
(surface de l’histogramme =1)
• définition (indices):
a) indices centraux (ou paramètres de la tendance centrale)
1.1. STATISTIQUE DESCRIPTIVE 7
La moyenne x̄ = représente globalement le caractère de x (résume

en une seule valeur la grandeur typique d’un ensemble de données ;
montre une tendance centrale).
La médiane Me est définie par F (Me) = 1/2.
Le mode M0 est la valeur xi t.q. P (x = xi ) soit maximale.
b) indices de dispersion
p
σ = V (x) mesure de l’étendue du caractère x.
Quantiles: à l ≥ 2 on associe l − 1 quantiles Q1 , . . . , Ql−1 t.q.
F (Qj ) = j/l, j = 1, . . . , l − 1
m3
c) γ1 = 3 = indice de dissymétrie
σ
(< 0 si x concentré à droite de x̄, > 0 si x concentré à gauche de x̄)
m4
d) γ2 = 4 − 3 = indice d’aplatissement
σ
1.1.2 Statistique descriptive bivariée

• 2 variables statistiques x, y définies sur Ω
• intérêt : si on peut expliquer y par x
• {C1 , . . . , Ck } classes de x
{D1 , . . . , Dl } classes de y
D1 D2 . . . Dl
C1 n11 n12 . . . n1l n1•
C2 n21 n22 . . . n2l n2•
Ck nk1 nk2 . . . nkl nk•
n•1 n•2 . . . n•l

nij = effectifs = card{ω ∈ Ω/x(ω) ∈ Ci et y(ω) ∈ Dj } = nb.
d’individus de Ci ∩ Dj
fij = fréquences relatives
nij X
fij = N= nij
N i,j
effectifs marginaux fréquences marginales

l
X ni•
ni• = nij (cardCi ) fi• =
j=1
N
k
X n•j
n•j = nij (cardDj ) f•j =
i=1
N
• définition (indices centraux et de dispersion):

k
X l
X
x̄ = fi• xi ȳ = f•j yj
i=1 j=1
k
X l
X
2
V (x) = fi• (xi − x̄) V (y) = f•j (yj − ȳ)2
p i=1 p j=1
σx = V (x) σy = V (y)
• définition (indices de corrélation):

k X
X l
cov(x, y) = fij (xi − x̄)(yj − ȳ) covariance
i=1 j=1
cov(x, y)
ρ(x, y) = coeff. de corrélation
σ x σy
cov(x, y)
y = ax + b, a = , b = ȳ − ax̄ droite de régression linéaire
V (x)
1.2 Rappels de probabilité

1.2.1 Espace probabilisable, espace probabilisé
Une experience aléatoire définit un ensemble d’évènements possibles Ω appelé
univers.
• définition : On appelle tribu sur Ω tout sous-ensemble F de P(Ω) tel que
(1) Ω ∈ F
(2) Si A ∈ F alors Ā ∈ F
(3) ∀An ∈ F, on a ∪n An ∈ F
(Ω, F) est un espace probabilisable.
• définition Soit (Ω, F) est un espace probabilisable. On appelle probabilité
sur (Ω, F) toute application P de F dans [0, 1] telle que
(1) P (Ω) = 1
(2) Pour toute P famille (An )n∈IN d’éléments deux à deux disjoints de F, on a
P (∪n An ) = n P (An )
(Ω, F, P ) est un espace probabilisé.
P est appelée loi de probabilité.
Si Ω est fini, la tribu F est le plus souvent égale à l’ensemble des parties de Ω
(P(Ω)). Par contre si Ω = IR, P(IR) ”possède beaucoup trop d’éléments ” pour
définir une axiomatique cohérente.
Rappelons quelques propriétés élémentaires :
∀A, B ∈ P(Ω) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

P (A ∩ B)
∀A, B ∈ P(Ω) P (A|B) =
P (A)
1.2. RAPPELS DE PROBABILITÉ 9
• Formule de Bayes Soient (Bi )i=1,..,n une partition de Ω en éléments de F

et A ∈ F, on a
P (A|Bj )P (Bj )
P (Bj |A) = P
i P (A|Bi )P (Bi )
1.2.2 Variables aléatoires

• définition Soit (Ω, F, P ) un espace probabilisé. On appelle variable aléatoire
X toute application de Ω dans (E, B) un espace probabilisable qui vérifie
∀A ∈ B, X −1 (A) ∈ F
• définition Soit (Ω, F, P ) un espace probabilisé. On appelle loi de proba-

bilité de la variable aléatoire X l’application PX définie sur B par
∀A ∈ B, PX (A) = P (X −1 (A))
• Fonction de répartition : F : IR −→ [0, 1]

x 7−→ F (x) = P (X ≤ x) (F est une fonction croissante)
(elle associe à x la probabilité de trouver une valeur inférieure à x)
Dans la suite v.a sera l’abréviation de variable aléatoire.
Quelques généralités sur les lois discrètes

• définition Une variable aléatoire est discrète (v.a.d) si elle est numérique (
E = IR) et si l’ensemble de ses valeurs est dénombrable X(Ω) = {x1 , . . . , xN }
ou {xn n ∈ IN }.
• Une variable aléatoire discrète est définie par
Ses valeurs {x1 , . . . , xN } ou {xn n ∈ IN }
Ses probabilités pi = P (X = xi )
• Espérance d’une v.a.d
i=N
X
E(X) = pi xi
i=1
• Variance d’une v.a.d

i=N
X
V (X) = pi x2i − E(X)2
i=1
Soient X et Y des v.a.d. dont les valeurs sont respectivement {x1 , .., xN } et
{y1 , .., yM }. On notera pi = P (X = xi ) et qj = P (Y = yj ).
• définition On appelle variable conditionnelle X sachant Y = yj notée
X|Y = yj la v.a.d dont les valeurs sont {x1 , .., xN } et les probabilités sont
P (X = xi |Y = yj )
On note pij = P (X = xi ∩ Y = yj ).
• définition L’ espérance conditionnelle de X sachant Y = yj est la quantité
N
X
E(X|Y = yj ) = xi P (X = xi |Y = yj )
i=1
• Théorème de l’espérance conditionnelle
M
X
E(X) = E(X|Y = yj )P (Y = yj )
j=1
Quelques généralités sur les lois continues

• Une v.a est dite continue si sa fonction de répartition est continue.
• une loi de proba continue est totalement définie soit par sa fonction de
répartition, soit par sa fonction densité de probabilité.
Z ∞
• fonction densité de probabilité: f , positive, f (t)dt = 1
Z x −∞
• fonction de répartition F (x) = f (t)dt

−∞
•Propriétés:
 Z +∞
 E(X) = tf (t)dt


Z−∞
+∞
 V (X) = t2 f (t)dt − [E(X)]2


−∞
Soient X et Y des v.a.c. dont les densités sont respectivement f et g et

dont la loi conjointe est définie par la densité h (qui est une fonction de deux
variables ).
• définition La densité conditionnelle de X par rapport à Y = y est la
fonction définie
h(x, y)
fX|Y (x, y) =
g(y)
• définition L’ espérance conditionnelle de X par rapport à Y = y est la

quantité
Z +∞
E(X|Y ) = xfX|Y (x, y)dx
−∞
Si X est intégrable, E(X|Y ) est une variable aléatoire en y.

• Théorème de l’espérance conditionnelle
Z +∞
E(X) == E(X|Y )g(y)dy
−∞
1.3. NOTIONS DE CONVERGENCE DE V.A 11
1.2.3 Indépendance
• définition Soient (Ω, F, P ) un espace probabilisé et A, B ∈ F. A et B sont
deux évènements indépendants ssi
P (A ∩ B) = P (A) × P (B)
• Soient X et Y deux v.a.d telles que X(Ω) = {x1 , . . . , xN }, Y (Ω) =

{y1 , . . . , yM }
X et Y sont indépendantes si
∀i, j P (X = xi ∩ Y = yj ) = P (X = xi ) × P (Y = yj ).
• Soient X et Y deux v.a.c de fonction densité respectivement f et g et de

fonction densité conjointe h.
X et Y sont indépendantes si
∀x, y h(x, y) = f (x) × g(y).
1.3 Notions de convergence de v.a

• définition Soit (Xn )n∈IN une suite de v.a on dit que (Xn ) converge en proba-
bilité vers la v.a X (Xn → X en probabilité) ssi
∀, η, ∃N, (n ≥ N ) ⇒ P (|Xn − X| > ) < η
ou plus simplement limn→∞ P (|Xn − X| > ) = 0.
• Loi faible des grands nombres
Soient X1 , . . . , Xn , n v.a indépendantes,

n
1X
soient µi = E(Xi ) , σi2 = V (Xi ), X̄ =

Xi

n i=1
n n
1X 1 X 2
Si µi −→ µ et 2 σ −→ 0 quand n −→ ∞
n i=1 i

n i=1

alors X̄ −→ µ en probabilité
(P [|X̄ − µ| > ε] −→ 0 quand n −→ ∞ ∀ε).
• Corollaire de la loi faible des grands nombres

Soient X1 , . . . , Xn , n v.a indépendantes, de même loi

Si µ = E(Xi )

alors X̄ −→ µ en probabilité.
• définition on dit que (Xn ) converge en loi vers la v.a X

(Xn −→ X en loi ) ssi
∀x, Fn (x) −→ F (x)
Fn (x) et F (x) étant les fonctions de répartition de Xn et X.
• La convergence en probabilité implique la convergence en loi mais la

réciproque est fausse.
•Théorème de limite centrale
Soient (X1 , X2 , . . . , Xn ) n v.a. indépendantes de même loi, de même espérance µ

et de même écart type σ.

Posons Sn = X1 + X2 + . . . + Xn . Alors:

E(Sn ) = nµ

V (Sn ) = nσ 2

Sn − nµ √
√ −→ N (0, 1) en loi quand n −→ ∞ (Sn ∼ N (nµ, σ n) quand n −→ ∞)
σ n

Exemple: Convergence de la loi binomiale (somme de n lois de Bernouilli)

vers la loi normale.
1.4 Lois discrètes usuelles

1.4.1 La loi binomiale B(n, p)
La loi de Bernouilli B(1, p)
• On réalise une expérience aléatoire qui a deux résultats possibles : soit le succès
qui a un probabilité p de se réaliser, soit l’échec qui a une probabilité q=1-p. La
variable aléatoire X= nombre de succès obtenus suit la loi de Bernouilli notée
B(1, p) et définie par :
P : {0, 1} −→ [0, 1]
P (X = 0) = 1 − p et P (X = 1) = p
• Propriétés: 
 si X ∼ B(1, p) alors
E(X) = p
V (X) = pq

La loi binomiale B(n, p)

• On réalise n fois successivement et d’une manière indépendante une expérience
aléatoire qui a deux résultats possibles, le succès ( associé au résultat pour lequel
nous voulons déterminer la probabilité) qui a une probabilité p de se réaliser et
l’échec qui a une probabilité q = 1 − p de se réaliser. La v.a X = nombre de
succès obtenus au cours des n épreuves suit la loi binomiale notée B(n, p) définie
par:
P : {0, 1, . . . , n} −→ [0, 1]
n!
k 7−→ P (X = k) = Cnk pk (1 − p)n−k , Cnk =
k!(n − k)!
(qui représente la probabilité d’obtenir k succès en n essais)
• ex: lancement d’une pièce de monnaie (pile ou face); qualité d’un produit
(bon ou défectueux); sondage électoral (pour ou contre);...
1.4. LOIS DISCRÈTES USUELLES 13
•Propriétés:


 si X ∼ B(n, p) alors
E(X) = np



V (X) = npq
si X1 ∼ B(n1 , p) et X2 ∼ B(n2 , p) alors, si ces 2 v.a. sont indépendantes,




Y = X1 + X2 ∼ B(n1 + n2 , p)

• remarque: Une variable binomiale est la somme de n variables de Bernouilli

indépendantes.
X ∼ B(n, p); X = X1 + . . . + Xn , Xi ∼ B(1, p)
1.4.2 La loi hypergéométrique H(N, n, p)

• Dans une population de taille N , on a deux types d’éléments, N1 éléments de
type I et N2 éléments de type II. On effectue n tirages sans remise (=prélèvement
d’un seul coup de n éléments). La v.a. discrète X = nombre d’éléments de type
I obtenus après les n tirages suit la loi hypergéométrique notée H(N, n, p) avec
p = NN1 , définie par
P : {0, 1, . . . , n} −→ [0, 1]
k n−k
CN 1
CN
k 7−→ P (X = k) = n
2
avec N1 = N p, N2 = N q
CN
•Propriétés:
si X ∼ H(N, n, p) alors



E(X) = np
 V (X) = N − n npq

N −1
•Convergence de la loi hypergéométrique vers la loi binomiale

Si N −→ ∞ avec N1 /N et N2 /N restant finis

H(N, n, p) −→ B(n, p) en loi.
(en pratique n/N < 10%).
1.4.3 La loi de Poisson P(m)

• Elle convient à la description d’ évènements dont les chances de réalisation
sont faibles.
• ex: nb d’occurences d’un évènement dans un certain laps de temps ou dans
une région donnée (nb. d’accidents/semaine sur une autoroute; nb. d’appels
téléphoniques dans un intervalle de temps; nb. de naissances/ année dans une
petite municipalité...)
• La probabilité d’observer exactement k occurrences d’un certain évènement

dans une unité de temps ou de région si X ∼ P(m), est donnée par:
e−m mk
P (X = k) =
k!
où m = nb. moyen d’occurences.
•Propriétés:


 si X ∼ P(m) alors
E(X) =m




V (X) = m


 si X1 ∼ P(m1 ) et X2 ∼ P(m2 ), X1 , X2 indépendantes, alors
Y = X1 + X2 ∼ P(m1 + m2 )




généralisation: Z = X1 + X2 + . . . + Xn ∼ P(m1 + m2 + . . . + mn )

• exemple: Parmi la production de pièces d’une machine, 4% sont défectueuses.

On prélève un échantillon de 100 pièces. X= nb. de pièces défectueuses dans
cet échantillon.
a) P (X = 0) =? ; X ∼ H(N, 100, 0.04) ∼ B(100, 0.04) ∼ P(m), m =
100 × 0.04 = 4
P (X = 0) = 0.0183
b) P (X < 10) = P (X ≤ 9) = 0.9919 (tables)
c) P (X > 5) = 1 − P (X ≤ 5) = 1 − 0.7852 = 0.2148
•Convergence de la loi binomiale vers la loi de Poisson

Soit X ∼ B(n, p) alors , si n grand et p petit

on peut approximer la loi binomiale par une loi de Poisson

P(m), m = np.

(il s’agit d’une convergence en loi)
(en pratique n > 50, p < 0.1)
1.5 Lois continues usuelles

1.5.1 La loi normale (Laplace-Gauss) N (µ, σ)
• µ ∈ IR, σ ∈ IR∗+
C’est la plus importante des lois de probabilité continues. Des questions
tant théoriques que pratiques font appel à cette loi (souvent loi limite). His-
toriquement elle apparaı̂t vers 1773 comme la forme limite de la loi binomiale
(Abraham de Moivre). Gauss en 1809 et Laplace en 1812 lui donnèrent sa forme
définitive.
• définition (fonction densité): Une v.a. suit une loi de Laplace-Gauss de
paramètres µ et σ si sa fonction densité est:
1 t−µ 2
1 − ( )
f (t) = √ e 2 σ pour t ∈ IR
σ 2π
1.5. LOIS CONTINUES USUELLES 15
• X ∼ N (µ, σ)
• fonction de répartition
x
1 t−µ 2
− ( )
Z
1
F (x) = √ e 2 σ dt
−∞ σ 2π
•Propriétés:

 si X ∼ N (µ, σ) alors
E(X) = µ
V (X) = σ 2

• La loi normale centrée réduite
Soit X ∼ N (µ, σ) alors

X −µ

U = ∼ N (0, 1) loi normale centrée réduite

σ
1 2
f (t) = √1 e− 2 t (X = σU + µ)

U
2π
• remarque: La loi normale centrée réduite est tabulée et la formule ci-dessus

X −µ
(U = ) permet un calcul rapide des probabilités.
σ
• Exemple:
a)

X ∼ N (µ, σ)
a−µ X −µ b−µ a−µ b−µ

P (a < X < b) = P ( < < ) = P( <U < )

σ σ σ σ σ

numérique : µ = 2, σ = 0.5, a = 1.7, b = 2.1
P (1.7 < X < 2.1) = P (−0.6 < U < 0.2)
b)

U ∼ N (0, 1)

si P (U < a), a > 0 est connue, alors

P (U < −a) = 1 − P (U < a);

P (−a < U < a) = P (U < a) − P (U < −a)

= P (U < a) − [1 − P (U < a)] = 2P (U < a) − 1;

numérique : a = 1.87

P (U < 1.87) = 0.9693;

P (U < −1.87) = 1 − 0.9693 = 0.0307;

P (−1.87 < U < 1.87) = 0.9693 − 0.0307 = 0.9386 (= 2 × 0.9693 − 1 = 0.9386).
•Additivité ( v.a. indépendantes)

Soient X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) indépendantes, alors
q
X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 )

généralisation : a)Xi ∼ N (µi , σi ), i = 1, . . . , n indépendantes
v

Xn Xn u n
uX

Xi ∼ N ( µi , t σi2 )
i=1 i=1 i=1

b) X ∼ N (µ, σ), i = 1, . . . , n indépendantes
i
1
(X1 + . . . + Xn ) ∼ N (µ, √σ )
n n
•Convergence de la loi binomiale vers la loi normale

Soit X ∼ B(n, p) alors
X − np

√ −→ N (0, 1) en loi quand n −→ ∞
npq
√
ou bien B(n, p) ≈ N (np, npq) (n −→ ∞)
Ceci signifie que lorsque n est assez grand, on peut approximer la
loi binomiale par la loi normale; en pratique p ∈ [0.1, 0.9], n > 30.
Dans certains ouvrages, on trouve la condition np(1 − p) > 9 ou
np , nq > 5.
• Convergence de la loi de Poisson vers la loi normale

Soit X ∼ P(m) alors si m −→ ∞

X − m
√ −→ N (0, 1) en loi
m
L’approximation est très satisfaisante pour m > 18.
1.5.2 La loi du Khi-deux à n degrés de liberté (χ2n )

• elle joue un rôle important dans les tests statistiques.
• on obtient une valeur χ2n en additionnant des nombres au carré, donc cette
valeur ne peut pas être négative
• l’aspect de la courbe d’une distribution χ2n variera selon le nombre de
degrés de liberté n qui est le seul paramètre de cette distribution.
• définition: Soient X1 , . . . , Xn n v.a. indépendantes t.q. Xi ∼ N (0, 1) ∀i.
Alors
X12 + . . . + Xn2 ∼ χ2n
• remarque: la fonction densité de probabilité de χ2n est
fχ2n (t) = cn tn/2−1 e−t/2

1.5. LOIS CONTINUES USUELLES 17
Z
où cn sont t.q. fχ2n (t)dt = 1.
IR
• si n > 2 alors le mode = n − 2 (mode = valeur pour laquelle la courbe
atteint son maximum)
• Propriétés:
 si X ∼ χ2n (mode = n − 2, n > 2) alors


E(X) = n
V (X) = 2n

• Convergence de la loi χ2n vers la loi normale (approximation)
Soit X ∼ χ2n alors

X − n

√ −→ N (0, 1) en loi quand n −→ ∞
2n √
ou bien χ2 ≈ N (n, 2n) n −→ ∞

n
(en pratique n > 30)
• Additivité ( v.a. indépendantes)
Soient X1 ∼ χ2n , . . . , Xk ∼ χ2n indépendantes

1 k
Alors Z = X1 + . . . + Xk ∼ χ2 avec n = n1 + . . . + nk
n
1.5.3 La loi de Student à n degrés de liberté (Tn )

• Elle joue un rôle important dans l’estimation par intervalle de confiance. Elle
est symétrique, de moyenne nulle et dépend d’un paramètre n appelé nombre
de degrés de liberté.
• L’aspect de la courbe variera selon le nombre de degrés de liberté n (de
façon générale, elle est plus aplatie que N (0, 1) et quand n augmente (n > 30)
les 2 courbes se confondent)
• définition: Soient X ∼ N (0, 1), Y ∼ χ2n v.a. indépendantes. Alors
X
Z=p ∼ tn
Y /n
• remarque: la fonction densité de probabilité de tn est
t2 −(n+1)/2
ftn (t) = cn (1 + )
n
Z
où cn sont t.q. ftn (t)dt = 1.
IR
• Propriétés: 
 si X ∼ tn alors

E(X) = 0 , n > 1
n
 V (X) =
 , n>2
n−2
• Convergence de la loi Student vers la loi normale (approximation)

Soit X ∼ tn alors

X −→ N (0, 1) en loi quand n −→ ∞

(en pratique n > 30)
1.5.4 La loi de Fischer-Snedecor (F(n1 , n2 ))

• loi continue
• définition: Soient Y1 ∼ χ2n1 et Y2 ∼ χ2n2 , 2 v.a. indépendantes. Alors
Y1 /n1
F = ∼ F(n1 , n2 )
Y2 /n2
(loi de Fischer-Snedecor à n1 et n2 degrés de liberté)

• remarque: la fonction densité de probabilité de F(n1 , n2 ) est
fF (t) = cn1 ,n2 tn1 /2−1 (n1 t + n2 )−(n1 +n2 )/2 , t > 0
• 2 paramètres: n1 , n2
• Propriétés:

si F ∼ F(n1 , n2 ) alors
 E(F ) = n1 , n > 2



2
n2 − 2
2
 2n2 (n1 + n2 − 2)
 V (F ) = , n2 > 4


n1 (n2 − 2)2 (n2 − 4)
Chapter 2
Introduction à la statistique
inférentielle
2.1 Généralités sur l’inférence statistique

2.1.1 Définitions
population, échantillon
• population = ensemble d’unités statistiques
(poulets, étudiants inscrits en AES en 1996, firmes commerciales ...)

recensement = observer toutes les unités de la population
• échantillon = sous-ensemble de la population étudiée
(joueurs de foot = population

équipe de St-Etienne = échantillon)
sondage = observer les unités de l’échantillon (il aboutit, on le verra
plus tard, à une distribution expérimentale)
• en statistique, on décrit ces groupes d’unités (population ou échantillon)

à l’aide de mesures ou caractéristiques (effectif, moyenne, écart-type, pourcent-
age...)

– mesures ou caractéristiques utilisées pour décrire une population

s’appellent PARAMETRES.

– mesures ou caractéristiques utilisées pour décrire un échantillon

s’appellent réalisations (ou observations) de STATISTIQUES.
19
20CHAPTER 2. INTRODUCTION À LA STATISTIQUE INFÉRENTIELLE
L’inférence statistique
C’ est l’ensemble des méthodes permettant de tirer des conclusions sur un groupe
déterminé à partir des données provenant d’un échantillon choisi dans cette
population.
2.1.2 Les problèmes à résoudre

Question 1
exemple: Le responsable de la diffusion d’un produit fait un sondage
pour connaı̂tre la dépense moyenne par différentes catégories socio-
professionnelles de la population française pour ce type d’achat. Il
fera ainsi une estimation de cette dépense moyenne. Il peut aussi
vouloir connaı̂tre la précision de cette estimation.
Ainsi, les statistiques sont utilisées pour ESTIMER les paramètres.
Un premier problème qui se pose est donc de faire des

estimations ponctuelles
estimations par intervalle de confiance
et fera l’objet du chapitre 3.
Question 2
exemple: En matière de contrôle de qualité, on souhaite lors de la
réception d’échantillons de pièces mécaniques comparer le taux de
déchets observés par rapport à la norme fixée de manière à refuser
le lot si son le taux de déchets dépasse la norme.
Dans la plupart des situations réelles, la valeur du paramètre est inconnue,

mais il arrive que l’on ait une idée du paramètre et qu’on puisse formuler une
HYPOTHESE concernant la valeur de celui-ci. Les observations peuvent con-
firmer ou infirmer l’hypothèse formulée. Il arrive souvent que la différence entre
la valeur de la statistique d’échantillon et la valeur hypothétique du paramètre
ne soit ni petite ni grande, de sorte que la décision à prendre ne s’impose pas
d’elle même. Il faut donc définir les critères qui permettent la prise de décision.
Ce sont les TESTS DE CONFORMITE (chapitre 4).
Question 3
Les personnes qui décident sont souvent intéressées à déterminer si deux pop-
ulations données sont semblables ou nettement différentes par rapport à une
caractéristique particulière.
ex.1: un médecin peut vouloir déterminer si la réponse à un certain

médicament (expérimental) diffère d’un groupe à un autre.
2.1. GÉNÉRALITÉS SUR L’INFÉRENCE STATISTIQUE 21
ex.2: un acheteur peut vouloir comparer la durée de vie d’un certain

produit provenant de 2 fournisseurs. différents
Ce sont les TESTS DE COMPARAISON (chapitre 5).
Question 4
D’autres problèmes peuvent se poser, par exemple de savoir si une population
donnée suit une loi de probabilité particulière connue.
Ce sont les TESTS D’AJUSTEMENT (analytique) qui permettent de vérifier
la qualité de l’ajustement de la population étudiée à une loi normale, binomiale,
de Poisson ou encore uniforme.
Ils ont pour but d’établir s’il est plausible que l’échantillon (aléatoire) provi-
enne d’une population dont la loi de probabilité aurait été celle spécifiée (chapitre
6).
Question 5
Il est intéressant de savoir, dans certaines situations, si 2 caractères qualitatifs
sont indépendants. Les TESTS D’INDEPENDANCE seront traités dans le
chapitre 6.
Question 6
On peut vouloir savoir si plusieurs populations sont homogènes par rapport à
un certain caractère. Les TESTS D’HOMOGENEITE seront traités dans le
chapitre 6).
2.1.3 Echantillon, réalisation d’échantillon, statistiques

On veut, à partir d’un échantillon de la population, déduire des informations
sur cette population. Le problème qui se pose alors est le suivant: comment
choisir une partie de la population qui reproduit le plus fidèlement possible ses
caractéristiques. C’est le problème de l’échantillonnage.
Prélèvement d’un échantillon (échantillonnage)

1. Echantillonnages sur la base des méthodes empiriques
La Méthode des quotas (respect de la composition de la population pour
certains critères) est la plus utilisée.
2. Echantillonnages aléatoires
– Quand la probabilité de sélection de chaque élément de la population
est déterminée avant même que l’échantillon soit choisi.
– Il permet de juger objectivement la valeur des estimations.
Echantillonnage aléatoire simple – on tire au hasard et avec remise les
unités dans la population concernée.
Echantillonnage stratifié
– Subdiviser d’abord la population en sous-ensembles (strates) relative-

ment homogènes.
– Extraire de chaque strate un échantillon aléatoire simple.
– Regrouper tous ces échantillons.
Echantillonnage par grappes
– Choisir un échantillon aléatoire d’unités qui sont elles-mêmes des sous-

ensembles de la population (grappes).
(ex : diviser la ville en quartiers; un certain nombre de quartiers sont

choisis pour faire partie de l’échantillon; on fait l’enquête auprès de toutes
les familles résidant dans ces quartiers).
Modélisation de l’échantillonnage aléatoire simple
Dans la suite, on traite le cas de l’échantillonnage aléatoire simple, car les con-
cepts fondamentaux et les formules importantes découlent de cette méthode.
Ce type d’échantillonnage consiste à extraire un échantillon de taille n dans une
population de taille N par des tirages aléatoires équiprobables et indépendants
(tirages avec remise). On introduit le modèle suivant :
Soit Ω = {w1 , . . . , wN } la population constituée d’éléments appelés unités d’observation.
Soit X le caractère que l’on voudrait étudier sur l’ensemble de cette population.
Xk , le résultat aléatoire du k ièm tirage, est une v.a qui suit la même loi que
X. On note xk le résultat du k ièm tirage.
On note (X1 , . . . , Xn ) les résultats aléatoires de ces tirages.
• définition: (X1 , . . . , Xn ) sont n v.a. indépendantes et de même loi (celle

de X); il est appelé n-échantillon ou échantillon de taille n de X.
Après tirage au sort,(X1 , . . . , Xn ) prend les valeurs (x1 , . . . , xn )
• définition: La réalisation unique (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn )

est l’ensemble des valeurs observées.
• définition: Une statistique Y sur un échantillon (X1 , . . . , Xn ) est une v.a.,

fonction mesurable des Xk ; Y = f (X1 , . . . , Xn ).
Après réalisation, la v.a. Y (statistique) prend la valeur f (x1 , . . . , xn ).
Les statistiques sont utilisées pour estimer les caractéristiques de la popu-

lation totale. Les statistiques les plus utilisées sont la moyenne empirique, la
variance empirique, la fréquence empirique.
2.2. QUELQUES STATISTIQUES CLASSIQUES 23
2.2 Quelques statistiques classiques

Rappels
E(aX + b) = aE(X) + b
E(X + Y ) = E(X) + E(Y )
V (aX + b) = a2 V (X)
V (X) = E(X 2 ) − [E(X)]2 = E([X − E(X)]2 )
si X, Y indépendantes,
V (X + Y ) = V (X) + V (Y )
2.2.1 La moyenne empirique et la variance empirique

Posons E(X) = µ, V (X) = σ 2 (inconnues)
• définition : On appelle moyenne empirique de l’échantillon (X1 , . . . , Xn )
de X, la statistique
n
1X
X̄ = Xi .
n i=1
n
1X
Sa réalisation est x̄ = xi (qui est la moyenne de l’échantillon) aussi
n i=1
appelée moyenne observée.
(on verra plus tard que X̄ estimera l’espérance E(X))
• Propriétés:
(
E(X̄) = µ
1
V (X̄) = σ 2
n
Calculons
n n n
1X 1X 1X
E(X̄) = E( Xi ) = E(Xi ) = E(X) = E(X) = µ
n i=1 n i=1 n i=1
n n n n
1X 1 X 1 X 1 X
V (X̄) = V ( Xi ) = 2 V ( Xi ) = 2 V (Xi ) = 2 V (X)
n i=1 n i=1
n i=1 n i=1
nV (X) 1 1
= = V (X) = σ 2
n2 n n
• définition : On appelle variance empirique de l’échantillon (X1 , . . . , Xn )

de X , la statistique
n n
1X 1 X 2
S2 = (Xi − X̄)2 = ( X ) − X̄ 2 .
n i=1 n i=1 i
n
21X
Sa réalisation est s = (xi − x̄)2 (qui est la variance de l’échantillon), aussi
n i=1
appelée variance observée.
• Propriétés:
n−1 2
E(S 2 ) = σ
n
Calculons
n n
1X 1X 2
E(S 2 ) = E( (Xi − X̄)2 ) = E( X − X̄ 2 )
n i=1 n i=1 i
n n
1 X 2 1X
= E( Xi ) − E(X̄ 2 ) = E(Xi2 ) − E(X̄ 2 )
n i=1 n i=1
n
1X
= [V (Xi ) + (E(Xi ))2 ] − [V (X̄) + (E(X̄))2 ]
n i=1
n
1X 1
= [V (X) + (E(X))2 ] − σ 2 − µ2
n i=1 n
1 1
= V (X) + (E(X))2 − σ 2 − µ2 = σ 2 + µ2 − σ 2 − µ2
n n
1 n−1 2
= (1 − )σ 2 = σ
n n
2.2.2 Lois de probabilité des statistiques X̄ et S 2

• Théorème limite centrale (pour l’échantillon) (rappel):

Soit X une v.a. t.q. E(X) = µ, V (X) = σ 2 6= 0

Soit (X1 , . . . , Xn ) un n- échantillon de X

X̄ = 1 (X1 + . . . + Xn )

n
X̄ − µ
Alors √ ∼ N (0, 1) pour n → ∞

σ/ n
(loi approximative)

(ou bien X̄ ∼ N (µ, √σ ) pour n → ∞)

n
• 2 cas à étudier:
– a) la taille n de l’échantillon est grande

– b) X suit une loi gaussienne
a) Taille n grande
(d’après le thm. limite centrale)
X̄ − µ
1) √ suit approximativement N (0, 1)
σ/ n
X̄ − µ
√ ∼ N (0, 1) pour n → ∞
σ/ n
ou bien
σ
X̄ suit approximativement N (µ, √ ) (en pratique n > 30)
n
• exercice Soit un lot de 500 chocolats. Le poids d’un chocolat est une v.a.
telle que µ = 5g et σ = 0.5g. Quelle est la probabilité qu’une boı̂te de 50
chocolats issus de ce lot ait un poids total supérieur à 260g?
solution
L’échantillon étant grand (n = 50 > 30) et on peut appliquer la
première formule:
0.5
X̄ ∼ N (5, √ ) approximativement
50
on pose T = 50X̄; cette nouvelle v.a. suit approximativement:
50 × 0.5 √
T ∼ N (50 × 5, √ ) = N (250, 0.5 50)
50
calculons
P (T > 260) = P (U > 260−250
√
0.5 50
) = P (U > 2.83)
= 1 − P (U < 2.83) = 1 − 0.9977
b) Echantillon gaussien
Soit X ∼ N (µ, σ)
(d’après l’additivité pour des v.a. suivant des lois normales)
σ
1) X̄ ∼ N (µ, √ )
n
ou bien
X̄ − µ
√ ∼ N (0, 1)
σ/ n
Attention!!!!!
c’est une loi exacte et non une approximation comme dans le cas
d’un échantillon de grande taille où la loi n’est pas connue.
n
2) 2 S 2 ∼ χ2n−1
σ
X̄ − µ
3) √ √ ∼ tn−1
S2/ n − 1
X̄ − µ
U= √ ∼ N (0, 1)
σ/ n
nS 2
Y = 2 ∼ χ2n−1
σ
et alors
U
Z=p ∼ tn−1
Y /(n − 1)
X̄ − µ 1 X̄ − µ
calculons Z : Z = √ ·q =q
σ/ n nS 2 S2
σ 2 (n−1) n−1
•exercice On prélève 25 pièces dans une production industrielle. Une étude

préalable a montré que le diamètre de ces pièces suivait une loi gaussienne
de moyenne 10mm et d’écart-type 2mm. Entre quelles valeurs a-t-on 85% de
chances de trouver l’écart-type de ces pièces?
solution
pour commencer, il faut déterminer α et β t.q.
2 2 2
0.85 = P (α < nS nS nS
σ 2 < β) = P ( σ 2 < 2β) − P ( σ 2 < α)
nS 2 nS
= 1 − P ( σ2 > β) − [1 − P ( σ2 > α)]
2
nS 2
= P ( nS
σ 2 > α) − P ( σ 2 > β)
nS 2
on sait que ∼ χ225−1 = χ224 et alors on cherche dans la table du
σ2
χ2n à 24 degrés de liberté les valeurs α et β comme suit:
( 2
P ( nS
σ 22 > α) = 0.90 (choix du aux tables)
P ( nS
σ 2 > β) = 0.05
on trouve:
α = 15.659
β = 36.415
et alors
2
P (15.659 < 25S
22 < 36.415) = 0.85
P (2.5054 < S 2 < 5.8264) = 0.85
P (1.58 < S < 2.41) = 0.85
Attention: il ne faut pas confondre l’écart-type de l’échantillon, noté s, valeur

observée de la statistique S (les calculs ont été faits pour cette statistique S),
avec le PARAMETRE écart-type sur la population, noté σ, de la loi normale
qui était connu dans ce problème!
2.2.3 Fréquence empirique F

Soit une population comportant deux modalités A et B. Soit π la proportion
d’individus de la population possédant la modalité A. 1−π est donc la proportion
des individus de la population possédant la modalité B.
On extrait de la population un échantillon de taille n. Soit Kn la v.a qui
représente le nombre d’individus dans l’échantillon ayant la modalité A.
Kn
• définition: La v.a. F = s’appelle fréquence empirique.
n
Sa réalisation f est la proportion d’individus dans l’échantillon ayant la
modalité A.
• Propriétés:
K ∼ B(n, π) donc



E(F ) = π
 V (F ) = π(1 − π)

n
• Loi de probabilité pour F
r
π(1 − π)
F ∼ N (π, )
n
dès que n > 30, π ∈ [0.1, 0.9]. On trouve aussi nπ > 5, n(1 − π) > 5
ou les seules conditions nπ > 5, n(1 − π) > 5)
(loi approximative).
F −π
q ∼ N (0, 1)
π(1−π)
n
Chapter 3
Estimation
3.1 Introduction
La distribution exacte d’une variable X modélisant le caractère qui intéresse
le statisticien (taux de pollution d’une rivière, dépenses des ménages pour le
logement...) est généralement partiellement connue. Souvent la loi de X dépend
d’un paramètre inconnu. On cherche à se faire une idée sur ce paramètre à partir
des données observées sur l’échantillon.
Attribuer au paramètre une valeur numérique unique est une ESTIMATION
PONCTUELLE. Pour ce faire, on choisit une statistique dont la valeur est, après
tirage aléatoire de l’échantillon, l’estimation du paramètre. Cette statistique est
l’ESTIMATEUR.
Mais quelles sont les chances pour que cette estimation ponctuelle soit ex-
acte? Plutôt que d’estimer un paramètre à l’aide d’un seul nombre, il ar-
rive fréquemment que l’on fasse l’estimation en donnant un INTERVALLE de
valeurs. Un INTERVALLE D’ESTIMATION (ou de CONFIANCE) est défini
de telle sorte que l’on puisse affirmer avec un degré de confiance fixé que le
paramètre visé se trouve dans cet intervalle.
Nous nous intéresserons dans ce chapitre à l’estimation des principales car-
actéristiques (ou paramètres) d’une v.a dans une population, à savoir la moyenne,
la variance et la fréquence.
Notations
• les paramètres à estimer seront notés par des lettres grecques minuscules
µ : moyenne
σ : écart-type
σ 2 : variance
π : proportion
• les réalisations d’échantillon seront notées par des lettres latines minuscules
29
30 CHAPTER 3. ESTIMATION
x1 , . . . , xn : valeur de l’échantillon
x̄ : moyenne de l’échantillon
s : écart-type de l’échantillon
s2 : variance de l’échantillon
p : proportion dans l’échantillon
• les estimateurs ( v.a. ou statistiques) seront notés par des majuscules
X̄
S2
F
3.2 Généralités sur les estimateurs

Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ.
Soit (X1 , . . . , Xn ) un n-échantillon de X et (x1 , . . . , xn ) sa réalisation. Il
s’agit d’estimer le paramètre θ.
• définition : Un ESTIMATEUR de θ sera une statistique T = f (X1 , . . . , Xn )
et sa réalisation sera notée t = f (x1 , . . . , xn )
Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles
(ex: Le paramètre λ d’une loi de Poisson admet comme estimateurs possibles
la moyenne empirique et la variance empirique). Pour pouvoir choisir, il faut
définir les qualités qui font qu’un estimateur sera meilleur.
• On appelle erreur d’estimation: T − θ.
Celle-ci peut se décomposer de la façon suivante:
T − θ = T − E(T ) + E(T ) − θ
Le terme T − E(T ) traduit la fluctuation de T autour de son espérance
et le terme E(T ) − θ = B(T ) représente l’erreur systématique et s’appelle
BIAIS de l’ESTIMATEUR
• définition (estimateur sans biais):

Un estimateur T de θ est dit sans biais si
E(T ) = θ, (ou bien B(T ) = 0)
• exemple : La moyenne empirique est un estimateur sans biais du paramètre

λ d’une loi de Poisson. La variance empirique est estimateur biaisé du même
paramètre λ.
n−1
En effet, E(X̄) = λ, E(S 2 ) = λ car E(X) = V (X) = λ.
n
3.3. ESTIMATION PONCTUELLE DES PARAMÈTRES USUELS 31
• définition :
Un estimateur T de θ est dit asymptotiquement sans biais si E(T ) −→ θ
pour n → ∞.
• définition :
sans biais
Un estimateur est dit convergent si V (T ) −→
asymptotiquement sans biais
0 pour n → ∞.
• définition :
Soient T et T 0 deux estimateurs sans biais de θ. T est dit plus efficace que
T 0 si
V (T ) ≤ V (T 0 )
• définition :
L’estimateur sans biais et de variance minimale est appelé estimateur efficace.
3.3 Estimation ponctuelle des paramètres usuels

3.3.1 Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou espérance) µ = E(X) à
partir d’un n-échantillon (X1 , . . . , Xn ) de X.
On ne suppose rien sur la loi de X.
• théorème
1
X̄ = (X1 + . . . + Xn ) , la moyenne empirique, est un estimateur efficace
n
de µ.
V (X)
car sans biais E(X̄) = µ et de plus V (X̄) = −→ 0 pour
n
n → ∞, et ∀T , un autre estimateur de µ , V (T ) > V (X̄).
• x̄ est la réalisation de X̄ et donc une estimation efficace de µ
3.3.2 Estimation de la variance d’une population Gaussi-

enne
Soit X une v.a qui suit une loi normale N (µ, σ). On veut estimer la variance
σ 2 de X.
a) µ connue
• théorème :
n
1X
T2 = (Xi − µ)2 est un estimateur efficace de σ 2
n i=1
en effet,
n n n
1X 1X 2 1X
E(T 2 ) = E( (Xi − µ)2 ) = E( Xi − 2 µXi + µ2 )
n i=1 n i=1 n i=1
n n
1 X 2 1X
= E( Xi ) − 2µ E(Xi ) + µ2
n i=1 n i=1
n n
1X 2 2 1X
= E(Xi ) − µ = [V (Xi ) + (E(Xi ))2 ] − µ2
n i=1 n i=1
= σ 2 + µ2 − µ2 = σ 2
donc sans biais

n n
1X 1 X
V (T 2 ) =V( (Xi − µ)2 ) = 2 V ( (Xi − µ)2 )
n i=1 n i=1
n n
1 X 1 X
= 2 V ((Xi − µ)2 ) = 2 [E((Xi − µ)4 ) − (E((Xi − µ)2 ))2 ] = . . . −→ 0
n i=1 n i=1
b) µ inconnue
• théorème :
n
1X
S2 = (Xi − X̄)2 , c’est-à-dire la variance empirique, est un estimateur
n i=1
biaisé de σ 2 , mais asymptotiquement sans biais.
en effet,
n−1 2
E(S 2 ) = σ
n
1 1
B(S 2 ) = E(S 2 ) − σ 2 = (1 − )σ 2 = − σ 2
n n
V (S 2 ) −→ 0 pour n → ∞
• théorème :
n
n 1 X
0 2
(S ) = S2 = (Xi − X̄)2
n−1 n − 1 i=1
est un estimateur sans biais de σ 2
en effet,
n n n−1 2
E((S 0 )2 ) = E(S 2 ) = σ = σ2
n−1 n−1 n
donc sans biais
• n grand, E(S 2 ) ≈ E((S 0 )2 ) et on préfère S 2

• n petit, on préfère (S 0 )2
3.3. ESTIMATION PONCTUELLE DES PARAMÈTRES USUELS 33
3.3.3 Estimation d’une proportion

Soit une population ayant des individus possédant une certaine caractéristique
A. On veut estimer à partir d’un échantillon de taille n la proportion d’individus
possédant cette caractéristique A. Soit K la v.a qui représente le nombre d’individus
dans l’échantillon possédant la caractéristique A.
• théorème :
La fréquence empirique F = K/n est l’estimateur efficace de π.
E(X1 ) + . . . + E(Xn )
E(F ) = = π donc F est un estimateur sans biais de
n
π
V (X1 ) + . . . + V (Xn ) nπ(1 − π) π(1 − π)
V (F ) = = = donc F est un es-
n2 n2 n
timateur convergent de π
Exemples d’estimations ponctuelles

• Exercice 1: (estimation d’une moyenne, d’un écart-type)
Lors d’un concours radiophonique, on note X: le nb. de réponses reçues
chaque jour. On suppose X ∼ N (µ, σ). Durant 10 jours on a obtenu:
xi — 200 240 190 150 220 180 170 230 210 210 . Donner une es-
timation ponctuelle de µ, σ 2 .
solution
n = 10
1
X̄ = (X1 + . . . + X10 ) est un estimateur de µ
10
1 2000
sa réalisation x̄ = (x1 + . . . + x10 ) = = 200 est une estimation ponctuelle,
10 10
efficace de µ
– on est dans le cas où la moyenne µ n’est pas connue (cas b))
1
S2 = (X 2 + . . . + X102
) − (X̄)2 est un estimateur biaisé de σ 2
10 1
1 2
sa réalisation s2 = (x + . . . + x210 ) − x̄2 = 40700 − 40000 = 700 est une
10 1
estimation ponctuelle, biaisé de σ 2
n 10 2
(S 0 )2 = S2 = S est un estimateur sans biais de σ 2
n−1 9
10 2 10
sa réalisation (s0 )2 = s = 700 = 778 est une estimation ponctuelle,
9 9
2
sans biais de σ
• Exercice 2: (estimation d’une proportion)

Dans une population d’étudiants AES, on a prélevé indépendamment 2
échantillons de taille n1 = 120, n2 = 150. On constate que 48 étudiants du
1-er échantillon et 66 du 2-ème ont une formation scientifique secondaire. Soit
π la proportion d’étudiants ayant suivi une formation scientifique. Calculer 3
estimations ponctuelles de π.
solution
K 48 66 48 + 66
F = ; f1 = = 0.4, f2 = = 0.44, f3 = = 0.422
n 120 150 120 + 150
3.4 Intervalle de confiance

3.4.1 Généralités
Il est plus réaliste et plus intéressant de fournir une estimation du type
t1 < θ < t 2
plutôt que d’écrire sèchement θ = t, car on sait que la valeur estimée t diffère
toujours de la valeur exacte du paramètre recherché, θ. Il est donc souhaitable
de donner la précision de l’estimation en acceptant de faire une erreur α sur
celle-ci.
• définition:
Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ; on appelle
INTERVALLE DE CONFIANCE pour θ de niveau 1 − α (ou de seuil α), un
intervalle qui a la probabilité 1 − α de contenir la vraie valeur de θ.
[t1 , t2 ] est un intervalle de confiance de niveau 1 − α pour θ signifie
P (t1 < θ < t2 ) = 1 − α
(plus le niveau de confiance est élevé, plus la certitude est grande que la méthode
d’estimation produira une estimation contenant la vraie valeur de θ)
• les niveaux de confiance les plus fréquemment utilisés sont 90%, 95%, 99%
• α est appelé le seuil (le risque); on choisira dans la plupart des cas un
intervalle à risques symétriques, c-a-d t.q.
α α
P (θ < t1 ) = , P (θ > t2 ) =
2 2
• remarque: Si on augmente le niveau de confiance 1 − α, on augmente la
longueur de l’intervalle.
3.4.2 Intervalle de confiance pour une moyenne

a) cas où n, la taille de l’échantillon, est petite n < 30
On suppose que X ∼ N (µ, σ).

On distingue deux cas σ connu et σ inconnu.
a-1) σ connu
σ
• X̄ ∼ N (µ, √ ) d’après un résultat du chapitre 2
n
3.4. INTERVALLE DE CONFIANCE 35
X̄ − µ
(ou bien √ ∼ N (0, 1))
σ/ n
• On se fixe le risque α et on cherche dans la table de la loi normale la valeur
u1− α2 telle que
X̄ − µ
P (−u1− α2 < √ < u1− α2 ) = 1 − α
σ/ n
m
X̄ − µ
P ( √ < u1− α2 ) = 1 − α/2
σ/ n
α
u1− α2 est le fractile d’ordre 1 − 2 de la loi normale centrée réduite.
X̄ − µ
P (−u1− α2 < √ < u1− α2 ) = 1 − α
σ/ n
m
σ σ
P (X̄ − u1− α2 √ < µ < X̄ + u1− α2 √ ) = 1 − α
n n
• Conclusion : si x̄ est une réalisation de X̄, l’intervalle de confiance de µ

de seuil α est
σ σ
I = [x̄ − u1− α2 √ , x̄ + u1− α2 √ ]
n n
P15
• exemple: n = 15, σ = 3.75, α = 5%, i=1 xi = 2400 alors x̄ =
2400/15 = 160, u1− α2 = 1.96 car P (U < −1.96) = 0.025
on suppose X gaussienne et on obtient l’intervalle de confiance:
3.75 3.75
[160 − 1.96 √ , 160 + 1.96 √ ] = [158.10, 161.90]
15 15
a-2) σ inconnu
X̄ − µ
• √ ∼ tn−1 d’après le chapitre 2.
S n−1
• On cherche dans la table de la loi de Student, α étant fixé, la valeur

tn−1(1− α2 ) telle que
X̄ − µ
P (−tn−1(1− α2 ) < √ < tn−1(1− α2 ) ) = 1 − α
S/ n − 1
m
X̄ − µ
P( √ < tn−1(1− α2 ) ) = 1 − α/2.
S/ n − 1
On a
X̄ − µ
P (−tn−1(1− α2 ) < √ < tn−1(1− α2 ) ) = 1 − α
S/ n − 1
m
S S
P (X̄ − tn−1(1− α2 ) √ < µ < X̄ + tn−1(1− α2 ) √ )=1−α
n−1 n−1
• Conclusion : si x̄ est une réalisation de X̄ et s une réalisation de S,

l’intervalle de confiance de µ de seuil α est
s s
I = [x̄ − tn−1(1− α2 ) √ , x̄ + tn−1(1− α2 ) √ ]
n−1 n−1
P30 P30 2
• exemple n = 30, i=1 xi = 1673, i=1 xi = 98285, α = 10% alors
x̄ = 55.77, s2 = 165.87, s = 12.88, t29(10%) = 1.699
12.88 12.88
I = [55.77 − 1.699 √ , 55.77 + 1.699 √ ] = [51.71, 59.83]
29 29
b) cas où n, la taille de l’échantillon, est grande n > 30
Il n’est plus nécessaire de supposer que X est Gaussienne.

b-1) σ connu
X̄ − µ
• D’après le chapitre 2 √ ∼ N (0, 1) pour n → ∞
σ/ n
La démarche est la même que dans a-1)
• Conclusion : Si x̄ est une réalisation de X̄ et si s une réalisation de S,
σ σ
I = [x̄ − u1− α2 √ , x̄ + u1− α2 √ ]
n n
b-2) σ inconnu
On peut prendre comme intervalle de confiance celui de la section a-2). On
peut également utiliser l’approximation suivante :
X̄ − µ
• √ → N (0, 1) .
S n
• On se fixe l’erreur α et on cherche dans la table de la loi normale la valeur

u1− α2 telle que

X̄ − µ
P (−u1− α2 < √ < u1− α2 ) = 1 − α
S/ n
m
X̄ − µ
P( √ < u1− α2 ) = 1 − α/2.
S/ n
On a
X̄ − µ
P (−u1− α2 < √ < u1− α2 ) = 1 − α
S/ n
m
S S
P (X̄ − u1− α2 √ < µ < X̄ + u1− α2 √ ) = 1 − α
n n
• Conclusion : si x̄ est une réalisation de X̄ et s une réalisation de S,
s s
I = [x̄ − u1− α2 √ , x̄ + u1− α2 √ ]
n n
√ √
• remarque: Plus n est grand, plus I est petit (car 1/ n ou bien 1/ n − 1
est petit) et donc meilleure est la précision de l’estimation.
3.4.3 Intervalle de confiance pour la variance d’une vari-

able gaussienne
On suppose que X ∼ N (µ, σ).
a) µ connue (peu fréquent)
n
1X
2
• T = (Xi − µ)2 est un estimateur efficace de σ 2 (voir estimation
n i=1
n
1X Xi − µ
ponctuelle); sa réalisation est t2 = (xi − µ)2 . Comme ∼ N (0, 1),
n i=1 σ
n
nT 2 X Xi − µ 2
= ( ) est une somme de n v.a. indépendantes qui suivent la loi
σ2 i=1
σ
normale N (0, 1) et donc
nT 2
∼ χ2n
σ2
• L’erreur α étant fixée, on cherche dans la table χ2n les valeurs kn(1− α2 ) et
kn(1−α/2) telles que
n 2
P (kn( α2 ) < T < kn(1− α2 ) ) = 1 − α (1)
σ2
⇑
2

 P ( nT < kn(1− α ) ) = 1 − α/2

σ 22 2
 P( nT
< kn( α2 ) ) = α/2

σ2
nT 2 nT 2
(1) ⇐⇒ P ( < σ2 < )=1−α
kn(1− α2 ) kn( α2 )
• Conclusion : si t2 est une réalisation de T 2 , l’intervalle de confiance de σ 2
de seuil α est
nt2 nt2
I=[ , ]
kn(1− α2 ) kn( α2 )
l’intervalle de confiance pour σ au seuil α est

s s
n n
I = [t ,t ]
kn(1− α2 ) kn( α2 )
• exemple:
10
X
n = 10, µ = 6, x2i = 402, α = 5%
i=1
alors
t2 = 40.2 − 36 = 4.2, k10(0.025) = 20.5, k10(0.975) = 3.25
10 × 4.2 10 × 4.2
I=[ , ] = [2.05, 12.92]
20.5 3.25
b) µ inconnue
• On a
nS 2
∼ χ2n−1
σ2
• On cherche dans la table χ2n−1 les valeurs kn−1(1− α2 ) et kn−1( α2 ) telles que
n 2
P (kn−1( α2 ) < S < kn−1(1− α2 ) ) = 1 − α (1)
σ2
⇑
2

 P ( nS < kn−1( α ) ) = α/2

σ 22 2
nS
 P( < kn−1(1− α2 ) ) = 1 − α/2

σ2
nS 2 nS 2
(1) ⇐⇒ P ( < σ2 < )=1−α
kn−1(1− α2 ) kn−1( α2 )
• Conclusion : si s2 est une réalisation de S 2 , l’intervalle de confiance de σ 2
de seuil α est
ns2 ns2
I=[ , ]
kn−1(1− α2 ) kn−1( α2 )
l’intervalle de confiance pour σ au seuil α est

s s
n n
I = [s ,s ]
kn−1(1− α2 ) kn−1( α2 )
• remarque: Si dans les tables du χ2n ou de tn vous ne trouvez pas les valeurs
correspondantes à α/2 et à 1 − α/2, on prendra un risque asymétrique.
• ATTENTION à ne pas confondre S avec T et x̄ avec µ
• exemple:
30
X 30
X
n = 30, xi = 1683, x2i = 98295, α = 10%
i=1 i=1
alors
x̄ = 55.77, s2 = 165.87, k29(0.05) = 42.6, k29(0.95) = 17.7
30 × 165.87 30 × 165.87
I=[ , ] = [116.81, 281.14]
42.6 17.7
3.4.4 Intervalle de confiance pour une proportion

K
• on sait que F = est un estimateur de π où π est la proportion de la
n
population possédant le caractère considéré.
r
π(1 − π)
F ∼ N (π, ) pour nπ, n(1 − π) > 5
n
( ou les autres conditions citées en 2.2.3)
ou bien
F −π
q ∼ N (0, 1) pour nπ, n(1 − π) > 5
π(1−π)
n
• On cherche dans la table de N (0, 1) la valeur u1− α2 telle que
F −π
P (−u1− α2 < q < u1− α2 ) = 1 − α
π(1−π
n
m
F −π
P(q < u1− α2 ) = 1 − α/2.
π(1−π
n
On a
F −π
P (−u1− α2 < q < u1− α2 ) = 1 − α
π(1−π
n
r m r
π(1 − π) π(1 − π)
P (F − u 1− α < π < F + u1− α2 )=1−α
2
n n
• problème: π(1 − π) est inconnu !!!
• solution 1 : r
méthode par estimation
r de l’écart-type
π(1 − π) f (1 − f )
on remplace par , f étant la valeur observée de F
n n
(estimation de π) et on a
r r
f (1 − f ) f (1 − f )
I = [f − u 1− α , f + u1− α2 ]
2
n n
• solutionq2: méthode de l’ellipse (moins

q classique, mais plus rigoureuse)
π(1−π π(1−π
P (−u1− α2 n < F − π < u1− α2 n )=1−α
q
⇐⇒ P (|π − F | < u1− α2 π(1−πn )=1−α
⇐⇒ P ((π − F )2 − u21− α π(1−π
n < 0) = 1 − α
2
u21− α u21− α
2
⇐⇒ P (π (1 + n
2
) − π(2F + n
2
) + F 2 < 0) = 1 − α
π(1 − π
On cherche les racines π1 et π2 de l’équation (π − F )2 − u21− α =0,
2 n
en connaissant u1− α2 et f , la valeur observée de F
I = [π1 , π2 ]
Chapter 4
Tests de conformité
4.1 Généralités sur les tests statistiques

Un test statistique est un mécanisme visant à trancher entre deux hypothèses
à partir de résultats observés sur un ou plusieurs échantillon(s). On formule
une hypothèse de départ, appelée hypothèse nulle et souvent notée (H0 ) et il
s’agit de décider si on rejette ou non cette hypothèse par opposition à un contre-
hypothèse appelée hypothèse alternative et souvent notée (H1 ).
On ne pourra jamais conclure avec certitude dans un test statistique. Il y
aura toujours des erreurs de décision. Pour effectuer le test statistique, il faudra
choisir un certain risque d’erreur qui est la probabilité de se tromper en prenant
la décision retenue. Il existe deux types d’erreurs :
• On appelle erreur de première espèce ou erreur de type I, notée α, la proba-
bilité de rejeter (H0 ) alors qu’elle est vraie. α est aussi appelé niveau ou seuil de signification.
• On appelle erreur de deuxième espèce ou erreur de type II, notée β, la
probabilité d’accepter (H0 ) alors qu’elle est fausse.
• on appelle puissance du test pour (H1 ) la probabilité de retenir (H1 ) alors
qu’elle est vraie (= 1 − β).
Mécanisme des tests

• Il s’agit d’abord de formuler les hypothèses (H0 ) et (H1 ).
• On choisit en général le risque de type I , α. (souvent donné dans l’énoncé).
• On détermine la variable de décision Z (qui est une statistique) dont on
connaı̂t la loi si (H0 ) est vraie.
• On calcul la région critique ou région de rejet W qui est l’ensemble des
valeurs de Z qui conduiront à rejeter (H0 ). Ainsi, si α est fixé, W est déterminé
par α = P [Z ∈ W avec (H0 ) vraie ] . Le complémentaire de W est appelé
région d’acceptation. Les points de jonction entre les deux régions sont les
points critiques.
41
42 CHAPTER 4. TESTS DE CONFORMITÉ
• On calcul la valeur de Z à partir de l’observation de l’échantillon.

• Conclusion du test : acceptation ou rejet de (H0 ) selon que la valeur de Z
est ou non dans la région d’acceptation.
4.2 Généralités sur les tests de conformité

Soit X une v.a dont la loi dépend d’un paramètre inconnu θ.
• (H0 ) θ = θ0 , θ0 étant une valeur numérique. (H1 ) peut être de 3 types :
- (H1 ) θ 6= θ0 test bilatéral
- (H1 ) θ > θ0 test unilatéral à droite
- (H1 ) θ < θ0 test unilatéral à gauche.
• Choix de la variable de décision Z qui est l’estimateur de θ ou une fonction
simple de l’estimateur de θ.
• Calcul de la région critique :
α = P [décider (H1 )alors que (H0 ) est vraie] ⇐⇒
α = P [Z ∈ W alors que θ = θ0 ].
a) tests bilatéraux
On peut chercher W sous la forme ] − ∞, z1 [ ∪ ]z2 , ∞[ (W̄ =
[z1 , z2 ]).
Ainsi P [z1 ≤ Z ≤ z2 avec θ = θ0 ] = 1 − α
b) tests unilatéraux à droite
On peut chercher W sous la forme ]z, ∞[.
Ainsi P [Z > z avec θ = θ0 ] = α
c) tests unilatéraux à gauche
On peut chercher W sous la forme ] − ∞, z[.
Ainsi P [Z < z avec θ = θ0 ] = α
On traitera également (dans la section 4.6) les tests de choix entre
deux valeurs du paramètre:
(H0 ) θ = θ0 contre (H1 ) θ = θ1 où θ0 et θ1 sont des valeurs
numériques.
4.3 Tests de conformité sur une moyenne

4.3.1 Cas d’une variable Gaussienne
On supposera que X ∼ N (µ, σ).
• On veut tester l’hypothèse
(H0 ) µ = µ0 , µ0 étant une valeur numérique contre
4.3. TESTS DE CONFORMITÉ SUR UNE MOYENNE 43
(H1 ) µ 6= µ0 ou µ > µ0 ou µ < µ0 .

• On se fixe α, le risque de type I et on connaı̂t la taille de l’échantillon.
a) cas σ connu
X̄ − µ
• On prend comme variable de décision X̄ [ou Z = √ ].
σ/ n
X̄ − µ0
Si µ = µ0 alors √ ∼ N (0, 1)
σ/ n
• Calcul de la région critique et conclusion du test.
a-1) test bilatéral (H1 ) µ 6= µ0
On cherche la région d’acceptation sous la forme [x1 , x2 ], intervalle symétrique
autour de µ0 .
Soit u1− α2 le réel déterminé comme habituellement dans la table de la loi
normale (P (−u1− α2 < U < u1− α2 ) = 1 − α avec U ∼ N (0, 1) ).
σ σ
Ainsi, si µ = µ0 alors P (µ0 − u1− α2 √ < X̄ < µ0 + u1− α2 √ ) = 1 − α
n n
X̄ − µ0
(on remplace U par √ ).
σ/ n
L’intervalle d’acceptation pour X̄ au risque α est
σ σ
Iaccept = [µ0 − u1− α2 √ , µ0 + u1− α2 √ ]
n n
• Conclusion :
Si x̄ , la réalisation de X̄, ∈ Iaccept , on ne peut rejeter (H0 ) ,
sinon, on rejette (H0 ).
Remarque Si on choisit comme variable de décision Z, l’intervalle d’acceptation
pour Z au risque α est [−u1− α2 ; u1− α2 ] . Si z, la réalisation de Z, ∈ [−u1− α2 ; u1− α2 ],
on ne rejette pas (H0 ). Sinon, on la rejette.
a-2) test unilatéral à droite (H1 ) µ > µ0
On cherche la région critique sous la forme [x1 , +∞[.
Soit u1−α le réel déterminé dans la table de la loi normale tel que P (U < u1−α ) = 1 − α
avec U ∼ N (0, 1).
σ
Ainsi, si µ = µ0 alors P (X̄ > µ0 + u1−α √ ) = α
n
X̄ − µ0
(on remplace U par √ )
σ/ n
La région critique (ou intervalle de rejet) pour X̄ au risque α est
σ
Irejet = [µ0 + u1−α √ , +∞[
n
• Conclusion :
Si x̄ , la réalisation de X̄, ∈ Irejet , on rejette (H0 ) ,
sinon, on ne la rejette pas.
pour Z au risque α est [u1−α ; +∞] . Si z, la réalisation de Z , ∈ [u1−α ; +∞[,
on rejette (H0 ). Sinon, on ne la rejette pas.
a-3) test unilatéral à gauche (H1 ) µ < µ0
On cherche la région critique sous la forme ] − ∞, x1 ].
Soit u1−α le réel déterminé dans la table de la loi normale tel que P (U < u1−α ) = 1 − α
avec U ∼ N (0, 1). On a donc P (U < −u1−α ) = α.
σ
Ainsi, si µ = µ0 alors P (X̄ < µ0 − u1−α √ ) = α (on remplace U par
n
X̄ − µ0
√ )
σ/ n
La région de rejet pour X̄ au risque α est
σ
Irejet =] − ∞, µ0 − u1−α √ ]
n
• Conclusion :
Remarque Si on choisit comme variable de d ] − ∞ : −u1−α ] . Si z, la
réalisation de Z , ∈ ] − ∞ : −u1−α ], on rejette (H0 ). Sinon, on ne la rejette
pas.
b) cas σ inconnu
X̄ − µ
• On prend comme variable de décision X̄ [ou Z = √ ].
S/ n − 1
X̄ − µ0
Si µ = µ0 alors √ ∼ tn−1
S/ n − 1
b-1) test bilatéral (H1 ) µ 6= µ0
On cherche la région d’acceptation sous la forme [x1 , x2 ], intervalle symétrique
autour de µ0 .
Soit tn−1(1− α2 ) le réel déterminé comme habituellement dans la table de tn−1
(P (−tn−1(1− α2 ) < T < tn−1(1− α2 ) ) = 1 − α avec T ∼ tn−1 ).
S S
Ainsi, si µ = µ0 alors P (µ0 − tn−1(1− α2 ) √ < X̄ < µ0 + tn−1(1− α2 ) √ )=1−α
n−1 n−1
X̄ − µ0
(on remplace T par √ ).
S/ n − 1
4.3. TESTS DE CONFORMITÉ SUR UNE MOYENNE 45
L’intervalle d’acceptation pour X̄ au risque α est

s s
Iaccept = [µ0 − tn−1(1− α2 ) √ , µ0 + tn−1(1− α2 ) √ ]
n−1 n−1
• Conclusion :
Si x̄ , la réalisation de X̄, ∈ Iaccept , on ne peut rejeter (H0 ) ,
pour Z au risque α est [−tn−1(1− α2 ) ; tn−1(1− α2 ) ] . Si z, la réalisation de Z ,
∈ [−tn−1(1− α2 ) ; tn−1(1− α2 ) ], on ne rejette pas (H0 ). Sinon, on la rejette.
b-2) test unilatéral à droite (H1 ) µ > µ0
On cherche la région critique sous la forme [x1 , +∞[.
Soit tn−1(1−α) le réel déterminé dans la table de tn−1 tel que P (T < tn−1(1−α) ) = 1 − α
avec T ∼ tn−1 .
S
Ainsi, si µ = µ0 alors P (X̄ > µ0 + tn−1(1−α) √ ) = α (on remplace T
n−1
X̄ − µ0
par √ )
S/ n − 1
s
Irejet = [µ0 + tn−1(1−α) √ , +∞[
n−1
• Conclusion :
Remarque Si on choisit comme variable de décision Z, l’intervalle de rejet
pour Z au risque α est [tn−1(1−α) , +∞] . Si z, la réalisation de Z , ∈ ] − ∞ :
−u1−α ], on rejette (H0 ). Sinon, on ne la rejette pas.
b-3) test unilatéral à gauche (H1 ) µ < µ0
On cherche la région critique sous la forme ] − ∞, x1 ].
On a P (T < −tn−1(1−α) ) = α.
S
Ainsi, si µ = µ0 alors P (X̄ < µ0 − tn−1(1−α) √ ) = α.
n−1
s
Irejet =] − ∞, µ0 − tn−1(1−α) √ ]
n−1
• Conclusion :
Remarque Si on choisit comme variable de décision Z, l’intervalle de rejet

pour Z au risque α est [−∞ : −tn−1(1−α) ] . Si z, la réalisation de Z , ∈ [−∞ :
−tn−1(1−α) ], on rejette (H0 ). Sinon, on ne la rejette pas.
4.3.2 Cas d’un échantillon de grande taille

(Ce qui signifie en pratique n > 30)
a) cas σ connu
X̄ − µ0
Quand n est grand, on peut considérer que si µ = µ0 , σ ∼ N (0, 1) .
√
n
Tous les résultats du paragraphe 4.3.1 a) sont valables.
b) cas σ inconnu
X̄ − µ0
Quand n est grand, on peut considérer que si µ = µ0 , ∼ N (0, 1) .
S
√
n
Il faut reprendre les résultats du paragraphe 4.3.1 b) en remplaçant n − 1
par n , tn−1(1−α) par u1−α et tn−1(1− α2 ) par u1− α2 .
• test bilatéral : L’intervalle d’acceptation pour X̄ au risque α est
s s
Iaccept = [µ0 − u1−α/2 √ , µ0 + u1−α/2 √ ]
n n
• test unilatéral à droite : L’intervalle de rejet pour X̄ au risque α est

s
Irejet = [µ0 + u1−α √ , +∞]
n
• test unilatéral à gauche : L’intervalle de rejet pour X̄ au risque α est

s
Irejet = [−∞, µ0 − u1−α √ ]
n
4.4 Tests de conformité sur une variance d’une

v.a Gaussienne
On suppose X ∈ N (µ, σ).
(H0 ) σ 2 = σ02 , σ02 étant une valeur numérique. contre
(H1 ) σ 2 6= σ02 ou σ 2 > σ02 ou σ 2 < σ02 .
a) cas µ connu
4.4. TESTS DE CONFORMITÉ SUR UNE VARIANCE D’UNE V.A GAUSSIENNE47
n
1X
• On prend comme variable de décision T 2
== (Xi − µ)2 [ou Z =
n i=1
nT 2
].
σ2
nT 2
Si σ 2 = σ02 alors ∼ χ2n
σ2
a-1) test bilatéral (H1 ) σ 2 6= σ02
On cherche la région d’acceptation sous la forme [t1 , t2 ].
Soit kn(α/2) et kn(1−α/2) les réels déterminés dans la table de la loi χ2n tels
que
nT 2

P ( 2 < kn(1− α2 ) ) = 1 − α/2


σ2
 P ( nT < kn( α ) ) = α/2

σ2 2
n
Si σ 2 = σ02 , on a donc P (kn(α/2) < 2 T 2 < kn(1−α/2) ) = 1 − α
σ0
σ2 σ2
d’où P ( 0 kn( α2 ) < T 2 < 0 kn(1− α2 ) ) = 1 − α
n n
L’intervalle d’acceptation pour T 2 au risque α est
σ2 σ2
Iaccept = [ 0 kn( α2 ) , 0 kn(1− α2 ) ]
n n
• Conclusion :
Si t2 , la réalisation de T 2 , ∈ Iaccept , on ne peut rejeter (H0 ) ,
Remarque Si α est tel que l’on ne peut déterminer kn(α/2) et kn(1−α/2) ,
on cherche l’intervalle d’acceptation sous la forme [kα1 , kα2 ] déterminés dans la
n n
table de la loi χ2n tels que P ( 2 T 2 > kα2 ) = α2 et P ( 2 T 2 < kα1 ) = α1 avec
σ0 σ0
σ2 σ2
α = α1 + α2 donc Iaccept = [ 0 kα1 , 0 kα2 ]
n n
a-2) test unilatéral à droite (H1 ) σ 2 > σ02
On cherche la région critique sous la forme [t1 , +∞[.
n
Soit kn(1−α) le réel déterminé dans la table de la loi χ2n par P ( 2 T 2 < kn(1−α) ) = 1 − α
σ0
La région critique (ou intervalle de rejet) pour T 2 au risque α est
σ2
Irejet = [ 0 kn(1−α) , +∞[
n
• Conclusion :
Si t2 , la réalisation de T 2 , ∈ Irejet , on rejette (H0 ) ,
sinon, on ne rejette pas (H0 ).

a-3) test unilatéral à gauche (H1 ) µ < µ0
On cherche la région critique sous la forme ] − ∞, t1 ].
n 2
Soit kn(α) le réel déterminé dans la table de la loi χ2n par P (
T < kn(α) ) = α
σ02
La région critique (ou intervalle de rejet) pour T 2 au risque α est
σ2
Irejet = [−∞, 0 kn(α) ]
n
• Conclusion :
Si t2 , la réalisation de T 2 , ∈ Irejet , on rejette (H0 ) ,
pour Z au risque α pour un test bilatéral est Iaccept = [kn( α2 ) , kn(1− α2 ) ] l’intervalle
de rejet pour Z au risque α pour un test unilatéral à droite et à gauche est re-
spectivement Irejet = [kn(1−α) , +∞] et Irejet = [−∞, kn(α) ]
b) cas µ inconnu
• On a
nS 2
∼ χ2n−1
σ2
On reprend les résultats de a) en remplaçant T 2 par S 2 et χ2n par χ2n−1 .

• Résumé
–Intervalle d’acceptation pour S 2 dans un test bilatéral
σ2 σ2
Iaccept = [ 0 kn−1( α2 ) , 0 kn(1− α2 ) ]
n n
–Intervalle de rejet pour S 2 dans un test unilatéral à droite
σ2
Irejet = [ 0 kn−1(1−α) , +∞]
n
–Intervalle d’acceptation pour S 2 dans un test unilatéral à gauche
σ2
Irejet = [−∞, 0 kn−1(α) ]
n
4.5. TESTS DE CONFORMITÉ SUR UNE PROPORTION 49
4.5 Tests de conformité sur une proportion

Soit π la proportion de la population possédant le caractère considéré. On veut
tester l’hypothèse
(H0 ) π = π0 , π0 étant une valeur numérique. contre
(H1 ) π 6= π0 ou π > π0 ou π < π0 .
• On prend comme variable de décision F = K/n.
Si π = π0
r
π0 (1 − π0 )
F ∼ N (π0 , ) (approximation)
n

• Calcul de la région critique et conclusion du test
a) Test bilatéral π 6= π0
On cherche un intervalle symétrique autour de π0 . On cherche dans la table
de N (0, 1) la valeur u1− α2 telle que
F − π0
P (−u1− α2 < q < u1− α2 ) = 1 − α
π0 (1−π0
n
m
F − π0
P(q < u1− α2 ) = 1 − α/2
π0 (1−π0
n
L’intervalle d’acceptation pour F au risque α est

r r
π0 (1 − π0 ) π0 (1 − π0 )
I = [π0 − u1− α2 , π0 + u1− α2 ]
n n
• Conclusion :
Si f , la réalisation de F , ∈ Iaccept , on ne peut pas rejeter (H0 ) ,
b) Test unilatéral à droite π > π0
F − π0
On cherche dans la table de N (0, 1) la valeur u1−α telle que P ( q < u1−α ) = 1 − α
π0 (1−π0
n
L’intervalle de rejet pour F au risque α est
r
π0 (1 − π0 )
I = [π0 + u1−α , +∞]
n
• Conclusion :
Si f , la réalisation de F , ∈ Irejet , on rejette (H0 ) ,

c) Test unilatéral à gauche π < π0
F − π0
On a P ( q < −u1−α ) = α
π0 (1−π0
n
L’intervalle de rejet pour F au risque α est donc
r
π0 (1 − π0 )
I = [−∞, π0 − u1−α ]
n
• Conclusion :
Si f , la réalisation de F , ∈ Irejet , on rejette (H0 ) ,
4.6 Tests de choix entre deux valeurs du paramètre

On présentera ici un test d’hypothèse un peu différent dans sa formulation mais
dont les étapes sont essentiellement les mêmes que celles des tests de conformité
déjà vus. On présentera deux types de problèmes.
Soit X une v.a qui dépend d’un paramètre θ inconnu. Le problème est de
choisir entre deux valeurs numériques θ0 et θ1 du paramètre θ.
(H0 ) θ = θ0
contre
(H1 ) θ = θ1 .
premier type de test
• Le risque de type I est donné, ainsi que la taille de l’échantillon.
• Calcul de la région critique W , Z étant la variable de décision.
a) Si θ1 > θ0 W = [θ̄, +∞[ avec P (Z > θ̄ avec θ = θ0 ) = α.
b) Si θ1 < θ0 W =] − ∞, θ̄] avec P (Z < θ̄ avec θ = θ0 ) = α.
• Calcul du risque de deuxième espèce β = P (accepter(H0 )alors que (H1 )est vraie)
a) β = P (Z < θ̄ avec θ = θ1 ).
b) β = P (Z > θ̄ avec θ = θ1 ).
deuxième type de test
On suppose que les risques α et β sont donnés et on veut déterminer la région
critique et la taille de l’échantillon.
On peut faire le premier type de test avec la moyenne, la variance et la
proportion. On fera le deuxième test sur la moyenne d’un grand échantillon et
sur la proportion.
Chapter 5
Tests de comparaison
5.1 Généralités sur les tests de comparaison

On considère deux variables aléatoires X1 et X2 définies sur deux populations
P1 et P2 respectivement. Ces v.a dépendent d’un paramètre inconnu θ1 et θ2
respectivement.
(H0 ) θ1 − θ2 = 0
contre
(H1 ) θ1 − θ2 6= 0 ou θ1 − θ2 > 0 ou θ1 − θ2 < 0.
• On choisit le risque α.
On dispose d’un n1 -échantillon de X1 et d’un n2 -échantillon de X2 qui four-
nissent respectivement T1 un estimateur de θ1 et T2 un estimateur de θ2 .
• On détermine la variable de décision Z qui est une fonction de T1 et T2 ,
et dont on connaı̂t la loi de probabilité si (H0 ) est vraie.
• α étant connu, on calcule la région critique ou la région d’acceptation
comme dans le chapitre précédent.
• On calcule la valeur z de Z à partir des résultats des échantillons.
Si z ∈ Irejet , on rejette (H0 ) avec un risque α de se tromper.
Sinon, on ne peut rejeter (H0 ).
5.2 Tests de comparaison de deux moyennes

Soient deux populations P1 et P2 et deux v.a X1 et X2 définies respectivement
sur P1 et P2 , X1 et X2 étant indépendantes.
On pose µ1 = E(X1 ) , µ2 = E(X2 ) , σ1 = σ(X1 ) , σ2 = σ(X2 ).
On dispose d’un n1 -échantillon de X1 qui donne une moyenne x¯1 et un écart
type s1 et d’un n2 -échantillon de X2 qui donne une moyenne x¯2 et un écart type
s2 .
(H0 ) µ1 − µ2 = 0
51
52 CHAPTER 5. TESTS DE COMPARAISON
contre
(H1 ) µ1 − µ2 6= 0 ou µ1 − µ2 > 0 ou µ1 − µ2 < 0.
5.2.1 Cas où σ1 et σ2 sont connus

On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) ou que n1 , n2 > 30.
X̄1 − X̄2
• On prend comme variable de décision Z = s .
σ12 σ22
+
n1 n2
Si µ1 − µ2 = 0, alors
X̄ − X̄2
s1 ∼ N (0, 1)
σ12 σ22
+
n1 n2
a) test bilatéral µ1 − µ2 6= 0
On cherche un intervalle d’acceptation centré en 0. Soit u1− α2 le réel déterminé
comme habituellement dans la table de la loi centrée réduite N (0, 1).
L’intervalle d’acceptation pour Z au risque α est
Iaccept = [−u1− α2 , +u1− α2 ]
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Iaccept , on ne peut rejeter (H0 )
σ1 σ22
n1 + n2
; sinon, on rejette (H0 ).
b) test unilatéral à droite µ1 − µ2 > 0
Soit u1−α le réel déterminé comme habituellement dans la table de la loi
centrée réduite N (0, 1).
L’intervalle de rejet pour Z au risque α est
Irejet = [u1−α , +∞[
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au risque
σ1 σ22
n1 + n2
α de se tromper; sinon, on ne peut pas rejeter (H0 ).
c) test unilatéral à gauche µ1 − µ2 < 0
5.2. TESTS DE COMPARAISON DE DEUX MOYENNES 53
Irejet =] − ∞, −u1−α ]
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au risque
σ1 σ22
n1 + n 2
α de se tromper; sinon, on ne peut pas rejeter (H0 ).
5.2.2 Cas où σ1 et σ2 sont inconnus avec σ1 = σ2 et n1 et

n2 < 30
On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ).
X̄1 − X̄2
• On prend comme variable de décision Z = s r .
n1 S12 + n2 S22 1 1
+
n1 + n2 − 2 n1 n2
Si µ1 − µ2 = 0,
X̄1 − X̄2
s r ∼ tn1 +n2 −1
n1 S12 + n2 S22 1 1
+
n 1 + n 2 − 2 n1 n2
On cherche un intervalle d’acceptation centré en 0. Soit t1−α/2 le réel
déterminé dans la table de la loi de student tn1 +n2 −1 tel que P (−t1−α/2 <
Z < t1−α/2 ) = 1 − α ( ⇐⇒ P (Z < t1−α/2 ) = 1 − α/2) .
Iaccept = [−t1−α/2 , +t1−α/2 ]
• Conclusion :
x¯1 − x¯2
Si z = s r , la réalisation de Z, ∈ Iaccept , on ne
n1 s21
+ n2 s22 1 1
+
n1 + n2 − 2 n1 n2
peut pas rejeter (H0 ) ,
Soit t1−α le réel déterminé dans la table de la loi de student tn1 +n2 −1 tel que
P (Z < t1−α ) = 1 − α.
Irejet = [t1−α , +∞[
• Conclusion :
x¯1 − x¯2
Si z = s r , la réalisation de Z, ∈ Irejet , on rejette
n1 s21 + n2 s22 1 1
+
n1 + n2 − 2 n1 n2
(H0 ) au risque α de se tromper ,
sinon, on ne peut pas rejeter (H0 ).
Irejet =] − ∞, −t1−α ]
• Conclusion :
x¯1 − x¯2
Si z = s r , la réalisation de Z, ∈ Irejet , on rejette
n1 s21
+ n2 s22 1 1
+
n1 + n2 − 2 n1 n2
(H0 ) au risque α de se tromper ,
5.2.3 Cas où σ1 et σ2 sont inconnus et n1 et n2 > 30

X̄1 − X̄2
• On prend comme variable de décision Z = s .
S12 S22
+
n1 − 1 n2 − 1
Si µ1 − µ2 = 0, alors
X̄1 − X̄2
s ∼ N (0, 1)
S12 S22
+
n1 − 1 n2 − 1
Iaccept = [−u1− α2 , +u1− α2 ]
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Iaccept , on ne peut rejeter
s1 s22
n1 −1 + n2 −1
(H0 ) ,
5.3. TESTS DE COMPARAISON DE DEUX VARIANCES 55
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au
s1 s22
n1 −1 + n2 −1
risque α de se tromper ,
Irejet =] − ∞, −u1−α ]
• Conclusion :
x¯1 − x¯2
Si z = q 2 , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au
s1 s22
n1 −1 + n2 −1
risque α de se tromper ,
5.3 Tests de comparaison de deux variances

Soient deux v.a indépendantes X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ).
On dispose d’un n1 -échantillon de X1 qui donne un écart type s1 et d’un
n2 -échantillon de X2 qui donne un écart type s2 .
(H0 ) σ12 − σ22 = 0
contre
(H1 ) σ12 − σ22 6= 0.
n1 S12
n −1
• On choisit comme variable de décision, la statistique Z = 1 2
n 2 S2
n2 − 1
Si σ12 − σ22 = 0, alors
n1 S12
n −1
Z = 1 2 ∼ F(n1 − 1, n2 − 1)
n 2 S2
n2 − 1
• Pour calculer la région critique, on détermine dans la table de la loi de

Fischer-Snedecor F(n1 − 1, n2 − 1) les réels fα/2 et f1−α/2 tels que

P (Z < f1−α/2 ) = 1 − α/2
P (Z < fα/2 ) = α/2
(⇒ P (f1−α/2 < Z < fα/2 ) = 1 − α).

L’intervalle d’acceptation au risque α est
Iaccept = [f1−α/2 , fα/2 ]
• Conclusion
n1 s21
n −1
Si z = 1 2 , la réalisation de Z , ∈ Iaccept , on accepte (H0 ); sinon on
n2 s2
n2 − 1
rejette (H0 ).
• Remarque importante
Si α est tel que l’on ne puisse pas lire dans la table de Fischer-Snedecor les
valeurs fα/2 et f1−α/2 , on cherchera un intervalle d’acceptation pour Z de la
forme [fα1 , fα2 ], fα1 étant définie par P (Z < fα1 ) = α1 et fα2 étant définie par
P (Z > fα2 ) = α2 avec α = α1 + α2 .
5.4 Tests de comparaison de deux proportions

Soient π1 la proportion d’individus possédant le caractère considéré A dans la
population P1 et π2 la proportion d’individus possédant le même caractère dans
la population P2 .
On dispose d’un n1 - échantillon de P1 et un n2 - échantillon de P2 . Soient F1
la fréquence empirique associée à l’échantillon de P1 et F2 la fréquence empirique
associée à l’échantillon de P2 .
(H0 ) π1 = π2
contre
(H1 ) π1 6= π2 ou π1 > π2 ou π1 < π2 .
• On choisit le risque de type I α.
• Choix de variable de décision :
Si π1 = π2 (= π)
F1 − F2
Z=r ∼ N (0, 1).
1 1
π(1 − π)( + )
n1 n2
PROBLÈME : π est inconnu !!!

n1 f1 + n2 f2
On remplace π par f = . Ainsi
n1 + n2
5.4. TESTS DE COMPARAISON DE DEUX PROPORTIONS 57
F1 − F2
Z=r ∼ N (0, 1).
1 1
f (1 − f )( + )
n1 n2
a) test bilatéral π1 6= π2
Iaccept = [−u1− α2 , +u1− α2 ]
• Conclusion :
f1 − f2
Si z = r , la réalisation de Z, ∈ Iaccept , on ne peut
1 1
f (1 − f )( + )
n1 n2
rejeter (H0 ) ,
b) test unilatéral à droite π1 > π2
• Conclusion :
Si z , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au risque α de se
tromper ,
c) test unilatéral à gauche π1 < π2
Irejet =] − ∞, −u1−α ]
• Conclusion :
Si z , la réalisation de Z, ∈ Irejet , on rejette (H0 ) au risque α de se
tromper ,
Chapter 6
Tests du Khi-deux
6.1 Tests d’adéquation à une loi théorique

On a un phénomène aléatoire représenté par une v.a notée X. Généralement,
on ne connaı̂t ni la forme de la loi de probabilité suivie par ce phénomène,
ni les paramètres de cette loi. Pour remédier à cette ignorance, on tire un n-
échantillon que l’on analyse selon les méthodes de statistiques descriptives. Cela
nous permettra de choisir parmi les lois de probabilité classiques (binomiale,
de Poisson, normale,..) celle qui semble être le plus proche de la distribution
expérimentale induite par l’échantillon.
On estime ensuite, à partir des résultats observés sur l’échantillon, les paramètres
de cette loi théorique choisie pour modéliser le phénomène aléatoire.
Mais il subsiste toujours des écarts entre la loi théorique ainsi déterminée et
la distribution issue du sondage.
Si ces écarts ne sont pas trop grands, on conclura qu’ils sont dus au hasard
et l’hypothèse selon laquelle le phénomène suit la loi théorique choisie ne pourra
pas être refusée; sinon, on conclura que le phénomène ne suit pas la loi théorique
retenue.
Ce qui précède résume le principe des tests d’hypothèses concernant la va-
lidité de l’ajustement d’une distribution expérimentale issue d’un sondage à une
loi théorique.
On veut tester l’hypothèse selon laquelle la v.a X suit une loi Q.
• L’hypothèse sera donc
(H0 ) X suit la loi Q
contre
(H1 ) X ne suit pas la loi Q.
• Il s’agit de déterminer la variable de décision.
Pour cela on dispose de n observations ou réalisations de cette v.a. Ces
observations peuvent être groupées en k classes ou modalités notées C1 , . . . , Ck .
A chaque classe Ci correspond un EFFECTIF OBSERVE noté ni .
La distribution expérimentale peut être mise sous la forme :
59
60 CHAPTER 6. TESTS DU KHI-DEUX
classes de X effectifs observés

C1 n1
C2 n2
.. ..
. .
Ck nk
i=k
X
total n= ni
i=1
Ecart entre une distribution expérimentale et une loi théorique
Si X ∼ Q, on peut calculer la probabilité de la classe Ci , notée pi (pi = P (X ∈

Ci )) car on connaı̂t Q.
définition On appelle EFFECTIF THEORIQUE le produit npi .
( Ce n’est pas forcément un entier).
définition L’écart entre la distribution théorique et expérimentale est mesuré
par la distance
i=k
X (ni − npi )2
d=
i=1
npi
A cette distance d, on associe la statistique D dont la réalisation est d:

i=k
X (Ni − npi )2
D= , Ni étant la v.a qui compte l’effectif de la classe Ci et
i=1
npi
dont la réalisation est ni .
On choisira comme variable de décision D.
Si X ∼ Q, alors
i=k
X (Ni − npi )2
∼ χ2k−r−1
i=1
npi
où r est le nombre de paramètres de la loi Q qui ont été estimés et k, le nombre
de classes de X.
• On choisit le risque de type I α et on va rejeter (H0 ) si l’écart D est trop
grand. Ainsi, on choisira la zone de rejet de la forme [d∗ , +∞[. On détermine
dans la table de χ2k−r−1 , le réel kk−r−1(1−α) tel que P (D < kk−r−1(1−α) ) = 1−α.
6.2. TESTS D’INDÉPENDANCE DE DEUX CARACTÈRES 61
• conclusion
Si d ∈ [kk−r−1(1−α) , +∞[ on rejette (H0 ) avec le risque α de se tromper;
sinon on ne la rejette pas.
6.2 Tests d’indépendance de deux caractères

Soient X et Y deux variables aléatoires définies sur la même population Ω
mesurant deux caractères (X et Y peuvent être des variables qualitatives).
X : Ω → M , M étant un ensemble de modalités divisé en k classes C1 , C2 , . . . , Ck .
Y : Ω → M 0 , M 0 étant un ensemble de modalités divisé en l classes D1 , D2 , . . . , Dl .
On veut savoir s’il existe une liaison significative entre X et Y .
(H0 ) X et Y sont indépendantes
contre
(H1 ) X et Y ne sont pas indépendantes.
• Il s’agit de déterminer la variable de décision.
Pour cela, on dispose d’un échantillon de X et d’un échantillon de Y dont
les résultats peuvent se mettre sous la forme du tableau de contingence suivant
:
D1 D2 ... Dl Effectifs des Ci

..
C1 n11 n12 . n1l n1•
..
C2 n21 n22 . n2l n2•
.. .. .. .. .. ..
. . . . . .
..
Ck nk1 nk2 . nkl nk•
..
Effectif desDj n•1 n•2 . n•l n
i=k
X j=l
X j=l
i=k X
X
avec n•j = nij et ni• = nij et n = nij .
i=1 j=1 i=1 j=1
Si (H0 ) est vraie, alors

P ((X ∈ Ci ) ∩ (X ∈ Dj )) = P (X ∈ Ci ) × P (Y ∈ Dj ) ∀i, j.
Comme on ne connaı̂t pas les probabilités théoriques de X et Y , on peut
traduire cette propriété par :
fij = fi• × f•j ∀i, j (1)
nij ni• n•j
avec fij = , fi• = , f•j =
n n n
ni• × n•j
définition On appelle EFFECTIF THEORIQUE la quantité tij =
n
On a (1) ⇐⇒ nij = tij ∀i, j

total de la ligne × total de la colonne
(effectif théorique = ).
n
i=k j=l
X X (nij − tij )2
On définit la quantité d = . Il est naturel de décider que
i=1 j=1
tij
si d est trop grande, on rejette (H0 ).
On choisit comme variable de décision la v.a D associée à d.
Si (H0 ) est vraie,
j=l
i=k X
X (Nij − Tij )2
∼ χ2(k−1)(l−1)
i=1 j=1
T ij
où Tij et Nij sont les v.a dont les réalisations sont respectivement tij et nij .
• Le risque de type I, α, étant fixé, n calcule la région critique en déterminant
le réel k(k−1)(l−1) (1 − α) dans la table du χ2 correspondante tel que P (D <
k(k−1)(l−1) (1 − α)) = 1 − α.
• conclusion
Si d ∈ [k(k−1)(l−1) (1−α), +∞[ on rejette (H0 ) avec le risque α de se tromper;
• Remarque Tous les effectifs doivent être supérieurs à 5. Si ce n’est pas
le cas, il faut regrouper les classes (ceci est également valable pour les tests
d’adéquation et ceux d’homogénéité).
6.3 Tests d’homogénéité (d’une v.a X)

On considère r populations P1 , P2 , . . . , Pr chacune divisées en k classes distinctes
C1 , C2 , . . . , Ck selon une même variable aléatoire X.
Définition : On dira que les populations sont homogènes si la distribution
est la même dans les r populations.
(H0 ) les r populations sont homogènes
contre
(H1 ) les r populations ne sont pas homogènes.
Mais comment traduire cette hypothèse ? On note pij la probabilité de la
classe Cj dans la population Pi . Les r populations sont homogènes si les pij ne
dépendent pas de la population Pi ce qui se traduit par
j=k
X
(H0 ) pij = pj ∀i = 1, . . . , r ∀j = 1, . . . , k avec pj = 1
j=1
Mais les pj sont inconnus puisque l’on ne connaı̂t pas la loi de probabilité
théorique de X (pj = P (X ∈ Cj )).
6.3. TESTS D’HOMOGÉNÉITÉ (D’UNE V.A X) 63
On a à notre disposition un échantillon de X dans chacune des r populations

dont les résultats peuvent se mettre sous la forme du tableau de contingence
suivant :
C1 C2 ... Ck Taille des échantillons

..
P1 n11 n12 . n1k n1•
..
P2 n21 n22 . n2k n2•
.. .. .. .. .. ..
. . . . . .
..
Pr nr1 nr2 . nrk nr•
..
Effectif desCj n•1 n•2 . n•k n
i=r
X j=k
X j=k
i=r X
X
avec n•j = nij et ni• = nij et n = nij .
i=1 j=1 i=1 j=1
On estimera naturellement le paramètre pj par la proportion correspondante

n•j
dans l’échantillon : pj ≈
n
Ainsi si (H0 ) est vraie, l’effectif théorique de la classe Cj dans la population
ni• × n•j
Pi est à peu près tij = ni• × pj =
n
j=l
i=k X
X (nij − tij )2
On définit la quantité d = . Il est naturel de décider que
i=1 j=1
tij
si d est trop grand, on rejette (H0 ).
On choisit comme variable de décision la v.a D associée à d.
Si (H0 ) est vraie,
j=l
i=k X
X (Nij − Tij )2
∼ χ2(k−1)(r−1)
i=1 j=1
T ij
où Tij et Nij sont les v.a dont les réalisations sont respectivement tij et nij .
• Le risque de type I, α, étant fixé, on calcule la région critique en déterminant
le réel k(k−1)(r−1) (1 − α) dans la table du χ2 correspondante tel que P (D <
k(k−1)(r−1) (1 − α)) = 1 − α.
• conclusion
Si d ∈ [k(k−1)(r−1) (1−α), +∞[ on rejette (H0 ) avec le risque α de se tromper;
• Remarque Les notations sont les mêmes que dans les tests d’indépendance,
mais les significations de ces notations sont différentes.
Bibliography
[1] B. Goldfarb et C. Pardoux

Introduction à la méthode statistique
Dunod.
65

Cours de Stat Inferentielles PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Stat Inferentielles PDF

Transféré par

Droits d'auteur :

Formats disponibles

COURS DE STATISTIQUES

September 19, 2003

2 Introduction à la statistique inférentielle 19

3.3.2 Estimation de la variance d’une population Gaussienne . 31

1.1 Statistique descriptive

1.1.1 Statistique descriptive univariée

• Soit {C1 , . . . , Ck } une partition de M en k classes.

a) cas discret : Ci = {xi }

• définition(mode): Cj est la classe modale (mode) ssi ∀i ∈ {1, . . . , k}

a) moments d’ordre p centrés en x̄:

• définition (courbe de distribution):

– fréquences relatives : diagramme en bâtons pour les variables

(surface de l’histogramme =1)

La moyenne x̄ = représente globalement le caractère de x (résume

1.1.2 Statistique descriptive bivariée

C2 n21 n22 . . . n2l n2•

Ck nk1 nk2 . . . nkl nk•

n•1 n•2 . . . n•l

effectifs marginaux fréquences marginales

• définition (indices centraux et de dispersion):

• définition (indices de corrélation):

1.2 Rappels de probabilité

∀A, B ∈ P(Ω) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

• Formule de Bayes Soient (Bi )i=1,..,n une partition de Ω en éléments de F

1.2.2 Variables aléatoires

• définition Soit (Ω, F, P ) un espace probabilisé. On appelle loi de proba-

• Fonction de répartition : F : IR −→ [0, 1]

Quelques généralités sur les lois discrètes

• Variance d’une v.a.d

• définition L’ espérance conditionnelle de X sachant Y = yj est la quantité

• Théorème de l’espérance conditionnelle

Quelques généralités sur les lois continues

• fonction de répartition F (x) = f (t)dt

Soient X et Y des v.a.c. dont les densités sont respectivement f et g et

• définition L’ espérance conditionnelle de X par rapport à Y = y est la

Si X est intégrable, E(X|Y ) est une variable aléatoire en y.

• Soient X et Y deux v.a.d telles que X(Ω) = {x1 , . . . , xN }, Y (Ω) =

• Soient X et Y deux v.a.c de fonction densité respectivement f et g et de

∀x, y h(x, y) = f (x) × g(y).

1.3 Notions de convergence de v.a

Soient X1 , . . . , Xn , n v.a indépendantes,

• Corollaire de la loi faible des grands nombres

• définition on dit que (Xn ) converge en loi vers la v.a X

• La convergence en probabilité implique la convergence en loi mais la

•Théorème de limite centrale

Soient (X1 , X2 , . . . , Xn ) n v.a. indépendantes de même loi, de même espérance µ

Exemple: Convergence de la loi binomiale (somme de n lois de Bernouilli)

1.4 Lois discrètes usuelles

La loi binomiale B(n, p)

• remarque: Une variable binomiale est la somme de n variables de Bernouilli

X ∼ B(n, p); X = X1 + . . . + Xn , Xi ∼ B(1, p)

1.4.2 La loi hypergéométrique H(N, n, p)

(en pratique n/N < 10%).

1.4.3 La loi de Poisson P(m)

• La probabilité d’observer exactement k occurrences d’un certain évènement

• exemple: Parmi la production de pièces d’une machine, 4% sont défectueuses.

•Convergence de la loi binomiale vers la loi de Poisson

(en pratique n > 50, p < 0.1)

1.5 Lois continues usuelles

• La loi normale centrée réduite

Soit X ∼ N (µ, σ) alors

• remarque: La loi normale centrée réduite est tabulée et la formule ci-dessus

•Additivité ( v.a. indépendantes)