Vous êtes sur la page 1sur 18

Sta.

inf

ˆ statistique:
Le mot statistique désigne à la fois un ensemble de données et l’activité
qui consiste à les recueillir, les traiter et les interpréter.

ˆ Statistique descriptive:
Son but est de synthétiser, résumer l’information contenue dans les
données. Elle utilise les tableaux statistiques et les représentations
graphiques.

ˆ Statistique inférentielle:
Son but est d’effectuer des estimations et des prévisions à partir d’un
sous-ensemble de la population. C’est dans ce cadre que rentrent
par exemple les sondages d’opinion, ou alors l’étude statistique de
l’efficacité d’un médicament. Le calcul des probabilités joue un rôle
important

ˆ Population:
ensemble d’objets ou d’individus ayant des caractéristiques qui leurs
sont propres

ˆ Échantillon: est un sous-ensemble de n individus (d’effectif n) ex-


traits de la population pour lesquels on a mesuré (observé) un caractère
quantitatif ou qualitatif.

ˆ Sondage: Étudier les unités de l’échantillon.

On veut à partir d’un échantillon, déduire des informations sur la pop-


ulation. Le problème qui se pose alors est comment choisir une partie de
la population qui reproduit le plus fidèlement possible ses caractéristiques .
C’est le problème d’échantillonnage(sondage).

1
Chapter 1

Échantillonnage

Soit Ω = {ω1 , ω2 , . . . , ωN } une population de taille N. Soit X le caractère


que l’on voudrait étudier sur cette population.

Définition 1.0.1 On appelle échantillon de taille n d’une variable aléatoire


X une succession de n variables aléatoires (X1 ; ...; Xn ) indépendantes et
toutes de même loi (celle de X). Il est dit aussi n-échantillon aléatoire sim-
ple.

Cela correspond aux conditions suivantes :

ˆ tous les individus sont sélectionnés dans la même population et sont


donc identiques à quelques variations près

ˆ les individus sont sélectionnés de manière indépendante

La loi de X sera appelée loi mère. Une réalisation de l’échantillon (X1 ; ...; Xn )
est un n-uplet de réels (x1 , ..., xn ). Cette réalisation est appelée ensemble des
valeurs observées

Définition 1.0.2 Une statistique Y sur un échantillon (X1 , X2 , . . . , Xn ) est


une variable aléatoire fonction mesurable des Xi : Y = f (X1 , X2 , . . . , Xn )
prend la valeur f (x1 , x2 , . . . , xn )

1.0.1 Moyenne et variance empiriques


Définition 1.0.3 On appelle moyenne de l’échantillon ou moyenne empirique,
la statistique notée X̄ définie par
n
1X
X̄ = Xi
n i=1

2
Sa réalisation est x̄ = n1 ni=1 xi (qui est la moyenne de l’échantillon) aussi
P
appelée moyenne observée.

Propriétés 1.0.4 Soit X une variable aléatoire de moyenne µ et d’écart-


type σ. On a :

ˆ
σ2
E(X̄) = µ, V (X̄) =
n
ˆ X̄−→µ. (Loi forte des grands nombres).

Preuve 1.0.5
n
! n n
1X 1X 1X
E Xi = E (Xi ) = µ=µ
n i=1 n i=1 n i=1

Et, en raison de l’indépendance des Xi


n
! n n
1X 1 X 1 X 2 nσ 2 σ2
V Xi = 2 V (Xi ) = 2 σ = 2 =
n i=1 n i=1 n i=1 n n

Définition 1.0.6 Variance empirique


Soit (X1 , X2 , . . . , Xn ) un n-échantillon aléatoire simple issu d’une variable
aléatoire X de moyenne µ et de variance σ 2 . On appelle variance empirique
de l’échantillon la quantité :
n n
2 1X 2 1X 2
S = Xi − X̄ = X − X̄ 2
n i=1 n i=1 i

Sa réalisation est s2 = n1 ni=1 (xi − x̄)2 (qui est la variance de l’échantillon),


P
aussi appelée variance observée.

Définition 1.0.7 Soit X une variable aléatoire, on appelle moment centré


d’ordre k la quantité
µk = E (X − E(X))k


Propriétés 1.0.8 Soit X une variable aléatoire d’écart-type σ et de moment


centré d’ordre 4, µ4 = E(X − X̄)4 . On a
σ 2 (n−1)
1. E (S 2 ) = n

2. S 2 −→p.s σ 2

3
n−1
3. Var (S 2 ) = n3
[(n − 1)µ4 − (n − 3)σ 4 ] ,.

Preuve 1.0.9
n n
1X 2 1 X 2
Xi − X̄ = (Xi − µ) − (X̄ − µ)
n i=1 n i=1
n n
1X 2 X
= (Xi − µ)2 − (X̄ − µ) (Xi − µ) + (X̄ − µ)2
n i=1 n i=1
n
1X
= (Xi − µ)2 − 2(X̄ − µ)2 + (X̄ − µ)2
n i=1
n
1X
= (Xi − µ)2 − (X̄ − µ)2
n i=1

D’où n
2 1X σ2 n−1 2
V (Xi ) − V (X̄) = σ 2 −

E S = = σ
n i=1 n n
Cette propriété montre que E (S 2 ) 6= σ 2 . On dit que S 2 est une statistique
biaisée pour σ 2 . Le biais vaut σ 2 /n et tend donc vers 0 .

Cas de grands échantillons


En utilisant le théorème Limite Centrale (TLC), on a le théorème suivant

Théorème 1.0.10 Pour n assez grand,

L σ  X̄ − µ L
X̄ −→ N µ, i.e −→ N (0, 1)
n √σ
n

En pratique pour n ≥ 30, on a


 
σ
X̄ suit approximativement N µ, √
n

Exercice 1.0.11 Soit un lot de 500 chocolats. Le poids d’un chocolat est
une v.a. telle que µ = 5g et σ = 0.5g. Quelle est la probabilité qu’une boite
de 50 chocolats issus de ce lot ait un poids total supérieur à 260g ?

4
Cas d’échantillon gaussien
Il correspond le cas de petits échantillons qui suivent des lois normales.
Théorème 1.0.12 Toute somme de variables aléatoires normales indépendantes
normale. Ainsi, si X ∼ N (µ, σ) alors pour toute
est une variable aléatoire √
valeur de n, X̄ ∼ N (µ, σ/ n), ou
X̄ − µ
√ ∼ N (0, 1)
σ/ n
nS 2
Théorème 1.0.13 La variable aléatoire 2 suit approximativement la loi
σ
du Khi deux à (n − 1) de degrés de liberté, c’est à dire
nS 2
2
∼ χ2 (n − 1)
σ
Autrement dit
σ2 2
S2 ∼ χ (n − 1)
n
Preuve 1.0.14 D’après la décomposition de S 2 :
n n
X 2
X 2
(Xi − µ) = Xi − X̄ + n(X̄ − µ)2
i=1 i=1

En divisant par σ 2 :
n  2 X n  2
X Xi − µ Xi − X̄ n
= + 2 (X̄ − µ)2
i=1
σ i=1
σ σ
!2
nS 2 X̄ − µ
= 2 +
σ √σ
n
2 2
On a : Xiσ−µ ∼ N (0, 1) ⇒ Xiσ−µ ∼ χ21 D’où : ni=1 Xiσ−µ χ2n , (Comme
P
somme de n carrés de variables aléatoires indépendantes normales centrées
réduites).
!2
X̄ − µ X̄ − µ
σ ∼ N (0, 1) ⇒ σ ∼ χ21
√ √
n n

D’où, on en déduit:
nS 2
∼ χ2n−1
σ2
2 σ2 2
i.e S ∼ χn−1
n
5
On a aussi
X̄ − µ
√ √ ∼ tn−1
S 2/ n − 1

Fréquence empirique:
Soit une population comportant deux modalité A et B. Soit p la proportion
d’individus possédant la modalité A.1−p est donc la proportion des individus
possédant la modalité B
On extrait de la population un échantillon de taille n. Soit la variable
aléatoire Kn : nombre d’individus dans l’échantillon ayant la modalité A.

Définition 1.0.15 La variable aléatoire F = Knn s’appelle fréquence em-


pirique ( le pourcentage de réalisations de A) , sa réalisation f est la pro-
portion d’individus dans l’échantillon ayant la modalité A.

Propriété:

ˆ
Kn ∼ B(n, p), E (Kn ) = np, Var (Kn ) = npq

ˆ
p(1 − p)
E(F ) = p et Var(F ) =
n
ˆ Loi de probabilité pour F :
Pour n > 30, np ≥ 5 et n(1 − p) ≥ 5 approximativement on a
r
p(1 − p)
F ∼ N (p, )
n
ou
F −p
r ∼ N (0, 1)
p(1 − p)
n

6
Chapter 2

Distributions d’échantillonnage

Dans la théorie d’échantillonnage les échantillons sont prélevés d’une manière


aléatoire, c’est à dire que tous les individus de la population aient la même
chance d’être prélevés.
L’échantillonnage est dit exhaustif si l’individu n’est pas remis dans la
population après avoir été prélevé. Il est dit non-exhaustif dans le cas con-
traire. Lorsque la population est très grande, on peut considérer que les
deux notions sont équivalentes puisqu’un prélèvement exhaustif ne modifie
pratiquement pas l’effectif de la population.

2.0.1 Distribution des moyennes


Soit X un caractère quantitatif étudié dans une population d’effectif N . La
distribution de X dans cette population sera présentée pas les paramètres
µ = E(X) est la moyenne, et σ = σ(X) l’écart-type, du caractère X.
Soit Xi le même caractère étudié dans un échantillon de taille n. La
distribution de Xi dans cet échantillon sera présenté par les paramètres µi =
E (Xi ) et σi = σ (Xi ) . On suppose que les échantillons ont tous la même taille
n.

Échantillonnage non-exhaustif:
Considérons l’ensemble de tous les échantillonnages possibles de taille n pou-
vant être prélevés dans la population-mère, d’une manière non-exhaustive,
et soit k le nombre de ces échantillons.

Définition 2.0.1 On appelle distribution d’échantillonnage des moyennes


l’ensemble des moyennes des différents échantillons, soit

{µ1 , µ2 , µ3 , . . . µi , . . . µk }

7
On introduit ainsi un nouveau caractère µ qui associe la valeur µi à l’échantillon
i. La distribution de µ est caractérisée par les paramètres le nombre d’échantillons
k, la moyenne E(µ) et variance σ(µ).

Proposition 2.0.2
E(µ) = E(X) = M
V (µ) = V (X)
n
σ(µ) = σ(X)

n
= √σn

Échantillonnage exhaustif
Dans ce cas les échantillonnages possibles de taille n pouvant être prélevés
dans la population-mère, d’une manière exhaustive (tirage sans remise).

Proposition 2.0.3 On a

E(µ) = M
V (µ) = V (X) N−n
nq N−1
σ(µ) = √σ N−n
n N−1

où N est l’effectif total de la population-mère.

On voit que lorsque N est très grand comparé à n, la variance est équivalente
à celle du cas non-exhaustif.

2.0.2 Distribution des fréquences


Supposons que dans une population composée de deux modalités A et B. Le
caractère étudié X ne puisse prendre que les deux valeurs 1 si l’individu est
de A et 0 sinon. On désigne par p la proportion d d’éléments de caractère
1 (de modalité A) et par q la proportion des éléments de caractère 0. La
distribution d’un tel caractère dans cette population est caractérisée par une
moyenne et un écart-type donnés par :

E(X) = p
p
σ(X) = p(1 − p)

On prélève dans cette population tous les échantillons de taille n et on


détermine pour chaque échantillon i la proportion d’éléments dont le car-
actère a la valeur 1. On définit ainsi un nouveau caractère f qui associe à
chaque échantillon i la fréquence fi .

8
Définition 2.0.4 On appelle distribution d ’échantillonnage des fréquences
l’ensemble des fréquences fi des différents échantillons

{f1 , f2 , f3 · · · fi · · · fk }

La distribution de f est présenté par les paramétrés k le nombre d’échantillons,


E(f) la moyenne de f et σ(f) son écart-type.

Proposition 2.0.5 ˆ Échantillonnage non-exhaustif: On a

E(f) = p
p
σ(f) = pqn

ˆ Échantillonnage exhaustif

E(f ) = p q
σ(f ) = pq N −n
p
n N −1

où N est l’effectif de la population-mère.

Exercice 2.0.6 Dans une population de 5 objets, on étudie le caractère X


associé au poids de chacun de ces objets. Les poids mesurés sont

2, 5 kg; 2, 53 kg; 2, 6 kg; 2, 62 kg; 2, 7 kg

1. Déterminer la valeur moyenne E(X) = M et l’écart-type σ(X) de cette


distribution de poids.

2. Quel est le nombre k3 d’échantillons (tirage exhaustif ) de taille n = 3


que l’on peut obtenir à partir de la population de ces 5 objets ?

3. Calculer la moyenne E(µ) et l’écart-type σ(µ) de 1a distribution d’échantillonnage


des moyennes des différents échantillons.
q
4. Vérifier que E(µ) = M et que σ(µ) = n N−n
σ

N−1
où N est l’effectif total.
(Cas d’une population finie et d’un échantillon exhaustif ).

9
Chapter 3

Estimation

La théorie de l’échantillonnage étudie les liens entre une population et des


échantillons de cette population. À partir d’informations relatives à la loi
d’une variable X pour une population donnée, on en déduit le comportement
d’échantillons aléatoires simples relatifs à cette variable. Dans la pratique
c’est le problème inverse qui se pose. En général on ne connait pas la loi
de X, on ne connait pas tous ses paramètres et on souhaite obtenir des
informations à partir de l’observation d’un échantillon. Ce problème fait
partie de la théorie de l’estimation.Souvent on s’intéresse à la valeur d’un
paramètre bien précis de la loi de X, espérance, variance, proportion. Ce
paramètre noté θ est appelé paramètre d’intérêt, c’est un nombre dont la
valeur est inconnue. On cherche à évaluer ce nombre à partir de l’observation
d’un échantillon. À partir des données de l’observation d’un échantillon, on
détermine une valeur numérique θ̂ qu’on appelle estimation ponctuelle du
paramètre d’intérêt.

3.1 Généralités sur les estimateurs


3.1.1 Définitions
Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ. Soit (X1 , . . . , Xn )
un n -échantillon de X et (x1 , . . . , xn ) sa réalisation. Il s’agit d’estimer le
paramètre θ ∈ Θ, où Θ ⊂ R est l’ensemble des valeurs a priori possibles du
paramètre.

Définition 3.1.1 Un estimateur de θ est une variable aléatoire Tn = f (X1 , . . . , Xn )


qui dépend d’un échantillon X1 , . . . , Xn de X. On utilise souvent la nota-
tion θb pour un estimateur de θ. Une estimation de θ est la valeur réelle
tn = f (x1 , . . . , xn ) prise par une réalisation particulière de l’échantillon.

10
Définition 3.1.2 Soit Tn un estimateur de θ.

ˆ On appelle biais de Tn est la différence E [Tn ] − θ

ˆ On dit que Tn est sans biais si E [Tn ] = θ, quel que soit θ ∈ Θ.

ˆ Si E(Tn ) 6= θ, on dit que Tn est biaisé et le biais vaut E(Tn − θ) =


E(Tn ) − θ

Définition 3.1.3 ˆ Un estimateur Tn de θ est dit asymptotiquement sans


biais si E(Tn ) −→ θ pour n → ∞

ˆ Un estimateur Tn est dit convergent si, quel que soit θ ∈ Θ,

pour tout α > 0, P (|Tn − θ| > α) −→ 0


n→∞

ˆ Un estimateur ( sans biais ou asymptotiquement sans biais ) est dit


convergent si V (Tn ) −→ 0 pour n → ∞

ˆ Soient Tn et Tn0 deux estimateurs sans biais de θ.Tn est dit plus efficace
que Tn0 si
V (Tn ) ≤ V (Tn0 )

ˆ L’estimateur sans biais et de variance minimale est appelé estimateur


efficace.

Exemples d’estimateurs
Considérons soit X1 , X2 , . . . , Xn un n-échantillon aléatoire simple.

ˆ Moyenne empirique d’un échantillon:


On sait que E(X̄) = E(X) = µ, alors E(X̄) − µ = 0

Proposition 3.1.4 La moyenne empirique X̄ est un estimateur sans


biais de θ = µ.

ˆ Variance empirique d’un échantillon: 2


1
Pn
L’espérance de la variance empirique S 2 = n i=1 Xi − X̄ est

n−1 2
E(S 2 ) = σ
n

2 2σ2
alors, E(S ) − σ = − = 6 0
n
11
Proposition 3.1.5 La variance empirique X̄ est un estimateur biaisé
σ2
de θ = σ 2 de biais − .
n

ˆ Variance empirique modifiée d’un échantillon:


La valeur moyenne de la variance empirique n’est pas exactement égale
à la variance théorique, c’est pourquoi on introduit la variance em-
pirique modifiée (ou corrigée) où on divise non pas par le nombre de
termes de la somme, mais par n − 1.
On appelle variance empirique modifiée de l’échantillon X1 , ..., Xn la
quantité
n
2 1 X 2
Sm = Xi − X̄n
n − 1 i=1

2
Proposition 3.1.6 On a E(Sm ) = σ 2 , alors Sm
2
est estimateur sans
biais de θ = σ 2 car E(Sm
2
) − σ 2 = 0.

ˆ Fréquence empirique :
Soit une population ayant des individus possédant une certaine car-
actéristique A. On veut estimer à partir d’un échantillon de taille n la
proportion p d’individus possédant cette caractéristique A. Soit K la
v.a qui représente le nombre d’individus dans l’échantillon possédant
la caractéristique A. On sait que la moyenne de la fréquence empirique
K
F = est E(F ) = p et V (F ) = p(1−p)
n
n

Proposition 3.1.7 La fréquence empirique F est un estimateur sans


biais de θ = p. De plus F est un estimateur convergent de p.

3.1.2 Intervalle de confiance


Il est plus réaliste et plus intéressant de fournir une estimation du type

t1 < θ < t2

plutôt que d’écrire sèchement θ = t, car on sait que la valeur estimée t diffère
toujours de la valeur exacte du paramètre recherché, θ. Il est donc souhaitable
de donner la précision de l’estimation en acceptant de faire une erreur α sur
celle-ci.

12
Définition 3.1.8 Soit X une v.a. dont la loi dépend d’un paramètre inconnu
θ.
On appelle intervalle de confiance pour θ de niveau 1−α (ou de risque
ou seuil α ), un intervalle qui dépend de X1 , . . . , Xn , contenant la valeur θ
avec probabilité ≥ 1 − α.
Autrement dit, [t1 , t2 ] est un intervalle de confiance de niveau 1 − α pour
θ signifie
P (t1 < θ < t2 ) = 1 − α

Remarque 1 ˆ Plus le niveau de confiance est élevé, plus la certitude est


grande que la méthode d’estimation produira une estimation contenant
la vraie valeur de θ ).

ˆ Les niveaux de confiance les plus fréquemment utilisés sont 90%, 95%, 99%

ˆ On choisira dans la plupart des cas un intervalle à risques symétriques,


c-a-d t.q.
α α
P (θ < t1 ) = , P (θ > t2 ) =
2 2
ˆ Si on augmente le niveau de confiance 1 − α, on augmente la longueur
de l’intervalle.

Calcul de l’intervalle de confiance:

Soit X une variable aléatoire suit une loi normale de la moyenne µ =


E(X) inconnu et de variance σ 2 .
Soit X1 , X2 , . . . , Xn un n -échantillon aléatoire simple de X, c’est à dire
Xi ∼ N (µ, σ). Si la loi n’est pas gaussienne, on suppose alors que la taille
de l’échantillon est grande (n ≥ 30 en pratique), le théorème central limite
(TCL) permet de faire des approximations par des lois normales, ce qui
donnera des intervalles de confiance approximatifs mais suffisant en pratique.
On fera donc systématiquement comme si les échantillons sont gaussiens
lorsque sa taille est élevé.
On cherche un intervalle de confiance de la moyenne µ (respectivement
la variance σ 2 ). On distingue deux cas σ 2 connue et σ 2 inconnue( resp. µ
connue et µ inconnue).

13
3.1.3 Intervalle de confiance de la moyenne
a. La variance σ 2 connue:
On sait alors qu’un bon estimateur ponctuel de µ est X̄ (estimateur sans
biais, convergent et efficace) et que (vrai aussi pour n > 30 )
 
X1 + X2 + . . . + Xn σ X̄ − µ
X̄ = ∼ N µ, √ et Z = ∼ N (0, 1)
n n √σ
n

On se fixe le risque α et on cherche dans la table de la loi normale la valeur


uα , telle que
P (−uα < Z < uα ) = 1 − α.
Or
X̄ − µ
−uα < Z < uα ⇔ −uα < < uα
√σ
n
σ σ σ σ
⇔ −uα √ < X̄ − µ < uα √ ⇔ −uα √ < µ − X̄ < uα √
n n n n
On obtient ainsi
 
σ σ
P X̄ − uα √ < µ < X̄ + uα √ =1−α
n n

alors un intervalle de confiance de µ au niveau de confiance 1 − α est


 
σ σ
X̄ − uα √ ; X̄ + uα √ .
n n

Dans la pratique, on dispose d’un échantillon non exhaustif tiré au hasard


de la population. Cet échantillon fournit une réalisation de X̄ par le calcul
de la moyenne x̄. Ainsi l’échantillon
h donne une réalisation
i de l’intervalle de
σ σ
confiance au risque α qui est x̄ − uα √n ; x̄ + uα . √n .
Pour calculer uα , on a

P (|Z| ≤ uα ) = 1 − α ⇔ P (Z ≤ uα ) = 1 − α/2

puis on lit la valeur de uα dans la table de la loi N (0, 1) de la v.a. Z.

Proposition 3.1.9 Soit x̄ est une réalisation de X̄, l’intervalle de confiance


de µ de seuil α est  
σ σ
I = x̄ − uα √ , x̄ + uα √
n n

14
Exemple 3.1.10 Exemple 3.3 .4 Une machine M fabrique des engrenages
en grande série. Des études antérieures permettent de dire que les mesures
des diamètres forment une population normale d’écart-type σ = 0, 042 cm.
On extrait un échantillon non exhaustif de la fabrication journalière de taille
n = 200 engrenages. La moyenne des diamètres sur cet échantillon est x̄ =
0, 824 cm. Donner au niveau de confiance 95% un intervalle de confiance de
la moyenne m des diamètres des engrenages.
Solution:

Considérons X la variable aléatoire égale au diamètre des engrenages.


L’énoncé dit que X N (m, σ = 0,042). Soit X1 , X2 , . . . , X200 un 200 -
échantillon au hasard de X. Les n = 200 variables aléatoires Xi suivent la
même loi N (m, σ = 0, 042) que X. Soit m le diamètre moyen inconnu des
engrenages. P200
1
On considère alors l’estimateur sans biais et convergent X̄ = 200 i=1 Xi
de m. Une réalisation de X̄ est x̄ = 0, 824. h i
On sait que l’intervalle de confiance au rsique α est X̄ − uα √σn ; X̄ + uα √σn .
Pour un risque de 5% on a uα = 1, 96. h i
0,042 0,042
Ainsi, l’intervalle de confiance est X̄ − 1, 96 √ 200
; X̄ + 1, 96 √
200
. L’échantillon
fournit une réalisation de cet intervalle de confiance à savoir
 
0, 042 0, 042
0, 824 − 1, 96 √ ; 0, 824 + 1, 96 √
200 200
soit
I = [0, 818; 0, 830]

b. La variance σ 2 inconnue:
Dans cette situation l’expression précédente de l’intervalle de confiance ne
peut être calculée car σ 2 n’est plus connu. On peut remplacer σ 2 par son
estimateur représenté par la variance empirique modifiée
n
2 1 X 2
Sm = Xi − X̄
n − 1 i=1

et faire comme avant sauf qu’il faut remplacer la loi normale N (0, 1) par la
loi de Student T (n − 1). On sait que
X̄ − µ
r ∼ T (n − 1)
2
Sm
n

15
1
Pn 2
On peut considérer la variance empirique S 2 = n i=1 Xi − X̄ on aura
a

X̄ − µ
r ∼ T (n − 1)
S2
n−1
S2 S2
car = m.
n−1 n
P (−tα < T < tα ) = 1 − α.
On reprend le calcul précédent l’intervalle de confiance pour µ
 
Sm Sm
X̄ − tα √ , X̄ + tα √
n n

ou bien  
S S
X̄ − tα √ , X̄ + tα √
n−1 n−1
où tα est donné par

P (|T | ≤ tα ) = 1 − α ⇔ P (T ≤ tα ) = 1 − α/2

dans la table de Student T (n − 1) de la v.a. T .

P (−tn−1,α ≤ T ≤ tn−1,α ) = 1 − α

Proposition 3.1.11 Soit x̄ est une réalisation de X̄ et sm une réalisation


de Sm , l’intervalle de confiance de µ de seuil α est
 
sm sm
I = x̄ − tn−1,α √ , x̄ + tn−1,α √
n n

Aussi, si s une réalisation de S, l’intervalle de confiance de µ de seuil α est


 
s s
I = x̄ − tn−1,α √ , x̄ + tn−1,α √
n−1 n−1

Remarque 2 Quand n est grand (n ≥ 30), on peut considérer que la loi de


Student est proche de la normale et prendre tα dans la table de la loi normale.

16
3.1.4 Intervalle de confiance de la variance
La moyenne µ connue
L’intervalle de confiance de la variance σ 2 se calcule à partir de l’échantillon
de taille n par
"P #
n 2 Pn 2
i=1 (X i (ω) − µ) (X i (ω) − µ)
Iσ2 = , i=1
b a

où a et b sont à trouver dans la table de la loi χ2 (n − 1) de la v.a. U par


P (U ≤ a) = α/2 et P (U ≤ b) = 1 − α/2

La moyenne µ inconnue
À nouveau, comme µ est inconnue, l’idée est de la remplacer par son estima-
tion X̄, alors, l’intervalle de confiance de la variance σ 2 est donné par
 2
nS nS 2

Iσ2 = ,
b a
1 Pn 2
où S 2 = i=1 Xi − X̄ les réels a et b sont à déterminer dans la table de
2
la loi χ2 (n − 1) de la v.a. U par
P (U ≤ a) = α/2 et P (U ≤ b) = 1 − α/2
Si s2 une réalisation de la variance empirique S 2 , alors
 2
ns ns2

Iσ2 = ,
b a

3.1.5 Intervalle de confiance de la fréquence


Dans une population donnée de grande taille, la proportion d’individus p
ayant une modalité donnée A est inconnue. On désire déterminer, à partir
d’un tirage d’un échantillon non exhaustif de taille n de la population, un
intervalle de confiance au risque α de p. Soit K le nombre d’individus ayant la
K
modalité A dans cet échantillon. La fréquence F = est un bon estimateur
n
(estimateur sans biais, convergent et efficace) du paramètre
 p. 
q
p(1−p)
Par le théorème centrale limite TCL, on a F N p, n
, pra-
tiquement pour n ≥ 30, np ≥ 5 et nq ≥ 5. Soit Z = qF −p , alors on a
p(1−p)
n
Z N (0, 1).

17
On se fixe le risque α puis on cherche dans la table de la loi normale la
valeur zα , telle que
P (−zα < Z < zα ) = 1 − α,
ceci est équivalent à
r r !
p(1 − p) p(1 − p)
P F − zα < p < F + zα = 1 − α.
n n
On obtient un intervalle de confiance de p au niveau de confiance 1 − α
 r r 
pq pq
Ip = F − zα ; F + zα
n n
Proposition 3.1.12 Soit f une réalisation de la fréquence empirique F .
Alors l’intervalle de confiance de p de risque α est
" r r #
p(1 − p) p(1 − p)
Ip = f − zα ; f + zα
n n

18

Vous aimerez peut-être aussi