Cours Statistiques Inf

Sta.
inf
statistique:
Le mot statistique désigne à la fois un ensemble de données et l’activité
qui consiste à les recueillir, les traiter et les interpréter.
Statistique descriptive:
Son but est de synthétiser, résumer l’information contenue dans les
données. Elle utilise les tableaux statistiques et les représentations
graphiques.
Statistique inférentielle:
Son but est d’effectuer des estimations et des prévisions à partir d’un
sous-ensemble de la population. C’est dans ce cadre que rentrent
par exemple les sondages d’opinion, ou alors l’étude statistique de
l’efficacité d’un médicament. Le calcul des probabilités joue un rôle
important
Population:
ensemble d’objets ou d’individus ayant des caractéristiques qui leurs
sont propres
Échantillon: est un sous-ensemble de n individus (d’effectif n) ex-

traits de la population pour lesquels on a mesuré (observé) un caractère
quantitatif ou qualitatif.
Sondage: Étudier les unités de l’échantillon.
On veut à partir d’un échantillon, déduire des informations sur la pop-

ulation. Le problème qui se pose alors est comment choisir une partie de
la population qui reproduit le plus fidèlement possible ses caractéristiques .
C’est le problème d’échantillonnage(sondage).
1
Chapter 1
Échantillonnage
Soit Ω = {ω1 , ω2 , . . . , ωN } une population de taille N. Soit X le caractère

que l’on voudrait étudier sur cette population.
Définition 1.0.1 On appelle échantillon de taille n d’une variable aléatoire

X une succession de n variables aléatoires (X1 ; ...; Xn ) indépendantes et
toutes de même loi (celle de X). Il est dit aussi n-échantillon aléatoire sim-
ple.
Cela correspond aux conditions suivantes :
tous les individus sont sélectionnés dans la même population et sont

donc identiques à quelques variations près
les individus sont sélectionnés de manière indépendante
La loi de X sera appelée loi mère. Une réalisation de l’échantillon (X1 ; ...; Xn )
est un n-uplet de réels (x1 , ..., xn ). Cette réalisation est appelée ensemble des
valeurs observées
Définition 1.0.2 Une statistique Y sur un échantillon (X1 , X2 , . . . , Xn ) est

une variable aléatoire fonction mesurable des Xi : Y = f (X1 , X2 , . . . , Xn )
prend la valeur f (x1 , x2 , . . . , xn )
1.0.1 Moyenne et variance empiriques

Définition 1.0.3 On appelle moyenne de l’échantillon ou moyenne empirique,
la statistique notée X̄ définie par
n
1X
X̄ = Xi
n i=1
2
Sa réalisation est x̄ = n1 ni=1 xi (qui est la moyenne de l’échantillon) aussi
P
appelée moyenne observée.
Propriétés 1.0.4 Soit X une variable aléatoire de moyenne µ et d’écart-

type σ. On a :

σ2
E(X̄) = µ, V (X̄) =
n
X̄−→µ. (Loi forte des grands nombres).
Preuve 1.0.5
n
! n n
1X 1X 1X
E Xi = E (Xi ) = µ=µ
n i=1 n i=1 n i=1
Et, en raison de l’indépendance des Xi

n
! n n
1X 1 X 1 X 2 nσ 2 σ2
V Xi = 2 V (Xi ) = 2 σ = 2 =
n i=1 n i=1 n i=1 n n
Définition 1.0.6 Variance empirique

Soit (X1 , X2 , . . . , Xn ) un n-échantillon aléatoire simple issu d’une variable
aléatoire X de moyenne µ et de variance σ 2 . On appelle variance empirique
de l’échantillon la quantité :
n n
2 1X 2 1X 2
S = Xi − X̄ = X − X̄ 2
n i=1 n i=1 i
Sa réalisation est s2 = n1 ni=1 (xi − x̄)2 (qui est la variance de l’échantillon),

P
aussi appelée variance observée.
Définition 1.0.7 Soit X une variable aléatoire, on appelle moment centré

d’ordre k la quantité
µk = E (X − E(X))k

Propriétés 1.0.8 Soit X une variable aléatoire d’écart-type σ et de moment

centré d’ordre 4, µ4 = E(X − X̄)4 . On a
σ 2 (n−1)
1. E (S 2 ) = n
2. S 2 −→p.s σ 2
3
n−1
3. Var (S 2 ) = n3
[(n − 1)µ4 − (n − 3)σ 4 ] ,.
Preuve 1.0.9
n n
1X 2 1 X 2
Xi − X̄ = (Xi − µ) − (X̄ − µ)
n i=1 n i=1
n n
1X 2 X
= (Xi − µ)2 − (X̄ − µ) (Xi − µ) + (X̄ − µ)2
n i=1 n i=1
n
1X
= (Xi − µ)2 − 2(X̄ − µ)2 + (X̄ − µ)2
n i=1
n
1X
= (Xi − µ)2 − (X̄ − µ)2
n i=1
D’où n
2 1X σ2 n−1 2
V (Xi ) − V (X̄) = σ 2 −

E S = = σ
n i=1 n n
Cette propriété montre que E (S 2 ) 6= σ 2 . On dit que S 2 est une statistique
biaisée pour σ 2 . Le biais vaut σ 2 /n et tend donc vers 0 .
Cas de grands échantillons

En utilisant le théorème Limite Centrale (TLC), on a le théorème suivant
Théorème 1.0.10 Pour n assez grand,
L σ X̄ − µ L
X̄ −→ N µ, i.e −→ N (0, 1)
n √σ
n
En pratique pour n ≥ 30, on a

σ
X̄ suit approximativement N µ, √
n
Exercice 1.0.11 Soit un lot de 500 chocolats. Le poids d’un chocolat est
une v.a. telle que µ = 5g et σ = 0.5g. Quelle est la probabilité qu’une boite
de 50 chocolats issus de ce lot ait un poids total supérieur à 260g ?
4
Cas d’échantillon gaussien
Il correspond le cas de petits échantillons qui suivent des lois normales.
Théorème 1.0.12 Toute somme de variables aléatoires normales indépendantes
normale. Ainsi, si X ∼ N (µ, σ) alors pour toute
est une variable aléatoire √
valeur de n, X̄ ∼ N (µ, σ/ n), ou
X̄ − µ
√ ∼ N (0, 1)
σ/ n
nS 2
Théorème 1.0.13 La variable aléatoire 2 suit approximativement la loi
σ
du Khi deux à (n − 1) de degrés de liberté, c’est à dire
nS 2
2
∼ χ2 (n − 1)
σ
Autrement dit
σ2 2
S2 ∼ χ (n − 1)
n
Preuve 1.0.14 D’après la décomposition de S 2 :
n n
X 2
X 2
(Xi − µ) = Xi − X̄ + n(X̄ − µ)2
i=1 i=1
En divisant par σ 2 :
n 2 X n 2
X Xi − µ Xi − X̄ n
= + 2 (X̄ − µ)2
i=1
σ i=1
σ σ
!2
nS 2 X̄ − µ
= 2 +
σ √σ
n
2 2
On a : Xiσ−µ ∼ N (0, 1) ⇒ Xiσ−µ ∼ χ21 D’où : ni=1 Xiσ−µ χ2n , (Comme
P
somme de n carrés de variables aléatoires indépendantes normales centrées
réduites).
!2
X̄ − µ X̄ − µ
σ ∼ N (0, 1) ⇒ σ ∼ χ21
√ √
n n
D’où, on en déduit:
nS 2
∼ χ2n−1
σ2
2 σ2 2
i.e S ∼ χn−1
n
5
On a aussi
X̄ − µ
√ √ ∼ tn−1
S 2/ n − 1
Fréquence empirique:
Soit une population comportant deux modalité A et B. Soit p la proportion
d’individus possédant la modalité A.1−p est donc la proportion des individus
possédant la modalité B
On extrait de la population un échantillon de taille n. Soit la variable
aléatoire Kn : nombre d’individus dans l’échantillon ayant la modalité A.
Définition 1.0.15 La variable aléatoire F = Knn s’appelle fréquence em-

pirique ( le pourcentage de réalisations de A) , sa réalisation f est la pro-
portion d’individus dans l’échantillon ayant la modalité A.
Propriété:

Kn ∼ B(n, p), E (Kn ) = np, Var (Kn ) = npq

p(1 − p)
E(F ) = p et Var(F ) =
n
Loi de probabilité pour F :
Pour n > 30, np ≥ 5 et n(1 − p) ≥ 5 approximativement on a
r
p(1 − p)
F ∼ N (p, )
n
ou
F −p
r ∼ N (0, 1)
p(1 − p)
n
6
Chapter 2
Distributions d’échantillonnage
Dans la théorie d’échantillonnage les échantillons sont prélevés d’une manière

aléatoire, c’est à dire que tous les individus de la population aient la même
chance d’être prélevés.
L’échantillonnage est dit exhaustif si l’individu n’est pas remis dans la
population après avoir été prélevé. Il est dit non-exhaustif dans le cas con-
traire. Lorsque la population est très grande, on peut considérer que les
deux notions sont équivalentes puisqu’un prélèvement exhaustif ne modifie
pratiquement pas l’effectif de la population.
2.0.1 Distribution des moyennes

Soit X un caractère quantitatif étudié dans une population d’effectif N . La
distribution de X dans cette population sera présentée pas les paramètres
µ = E(X) est la moyenne, et σ = σ(X) l’écart-type, du caractère X.
Soit Xi le même caractère étudié dans un échantillon de taille n. La
distribution de Xi dans cet échantillon sera présenté par les paramètres µi =
E (Xi ) et σi = σ (Xi ) . On suppose que les échantillons ont tous la même taille
n.
Échantillonnage non-exhaustif:
Considérons l’ensemble de tous les échantillonnages possibles de taille n pou-
vant être prélevés dans la population-mère, d’une manière non-exhaustive,
et soit k le nombre de ces échantillons.
Définition 2.0.1 On appelle distribution d’échantillonnage des moyennes

l’ensemble des moyennes des différents échantillons, soit
{µ1 , µ2 , µ3 , . . . µi , . . . µk }
7
On introduit ainsi un nouveau caractère µ qui associe la valeur µi à l’échantillon
i. La distribution de µ est caractérisée par les paramètres le nombre d’échantillons
k, la moyenne E(µ) et variance σ(µ).
Proposition 2.0.2
E(µ) = E(X) = M
V (µ) = V (X)
n
σ(µ) = σ(X)
√
n
= √σn
Échantillonnage exhaustif
Dans ce cas les échantillonnages possibles de taille n pouvant être prélevés
dans la population-mère, d’une manière exhaustive (tirage sans remise).
Proposition 2.0.3 On a
E(µ) = M
V (µ) = V (X) N−n
nq N−1
σ(µ) = √σ N−n
n N−1
où N est l’effectif total de la population-mère.
On voit que lorsque N est très grand comparé à n, la variance est équivalente
à celle du cas non-exhaustif.
2.0.2 Distribution des fréquences

Supposons que dans une population composée de deux modalités A et B. Le
caractère étudié X ne puisse prendre que les deux valeurs 1 si l’individu est
de A et 0 sinon. On désigne par p la proportion d d’éléments de caractère
1 (de modalité A) et par q la proportion des éléments de caractère 0. La
distribution d’un tel caractère dans cette population est caractérisée par une
moyenne et un écart-type donnés par :
E(X) = p
p
σ(X) = p(1 − p)
On prélève dans cette population tous les échantillons de taille n et on

détermine pour chaque échantillon i la proportion d’éléments dont le car-
actère a la valeur 1. On définit ainsi un nouveau caractère f qui associe à
chaque échantillon i la fréquence fi .
8
Définition 2.0.4 On appelle distribution d ’échantillonnage des fréquences
l’ensemble des fréquences fi des différents échantillons
{f1 , f2 , f3 · · · fi · · · fk }
La distribution de f est présenté par les paramétrés k le nombre d’échantillons,

E(f) la moyenne de f et σ(f) son écart-type.
Proposition 2.0.5 Échantillonnage non-exhaustif: On a
E(f) = p
p
σ(f) = pqn
Échantillonnage exhaustif
E(f ) = p q
σ(f ) = pq N −n
p
n N −1
où N est l’effectif de la population-mère.
Exercice 2.0.6 Dans une population de 5 objets, on étudie le caractère X

associé au poids de chacun de ces objets. Les poids mesurés sont
2, 5 kg; 2, 53 kg; 2, 6 kg; 2, 62 kg; 2, 7 kg
1. Déterminer la valeur moyenne E(X) = M et l’écart-type σ(X) de cette

distribution de poids.
2. Quel est le nombre k3 d’échantillons (tirage exhaustif ) de taille n = 3

que l’on peut obtenir à partir de la population de ces 5 objets ?
3. Calculer la moyenne E(µ) et l’écart-type σ(µ) de 1a distribution d’échantillonnage

des moyennes des différents échantillons.
q
4. Vérifier que E(µ) = M et que σ(µ) = n N−n
σ
√
N−1
où N est l’effectif total.
(Cas d’une population finie et d’un échantillon exhaustif ).
9
Chapter 3
Estimation
La théorie de l’échantillonnage étudie les liens entre une population et des

échantillons de cette population. À partir d’informations relatives à la loi
d’une variable X pour une population donnée, on en déduit le comportement
d’échantillons aléatoires simples relatifs à cette variable. Dans la pratique
c’est le problème inverse qui se pose. En général on ne connait pas la loi
de X, on ne connait pas tous ses paramètres et on souhaite obtenir des
informations à partir de l’observation d’un échantillon. Ce problème fait
partie de la théorie de l’estimation.Souvent on s’intéresse à la valeur d’un
paramètre bien précis de la loi de X, espérance, variance, proportion. Ce
paramètre noté θ est appelé paramètre d’intérêt, c’est un nombre dont la
valeur est inconnue. On cherche à évaluer ce nombre à partir de l’observation
d’un échantillon. À partir des données de l’observation d’un échantillon, on
détermine une valeur numérique θ̂ qu’on appelle estimation ponctuelle du
paramètre d’intérêt.
3.1 Généralités sur les estimateurs

3.1.1 Définitions
Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ. Soit (X1 , . . . , Xn )
un n -échantillon de X et (x1 , . . . , xn ) sa réalisation. Il s’agit d’estimer le
paramètre θ ∈ Θ, où Θ ⊂ R est l’ensemble des valeurs a priori possibles du
paramètre.
Définition 3.1.1 Un estimateur de θ est une variable aléatoire Tn = f (X1 , . . . , Xn )

qui dépend d’un échantillon X1 , . . . , Xn de X. On utilise souvent la nota-
tion θb pour un estimateur de θ. Une estimation de θ est la valeur réelle
tn = f (x1 , . . . , xn ) prise par une réalisation particulière de l’échantillon.
10
Définition 3.1.2 Soit Tn un estimateur de θ.
On appelle biais de Tn est la différence E [Tn ] − θ
On dit que Tn est sans biais si E [Tn ] = θ, quel que soit θ ∈ Θ.
Si E(Tn ) 6= θ, on dit que Tn est biaisé et le biais vaut E(Tn − θ) =

E(Tn ) − θ
Définition 3.1.3 Un estimateur Tn de θ est dit asymptotiquement sans

biais si E(Tn ) −→ θ pour n → ∞
Un estimateur Tn est dit convergent si, quel que soit θ ∈ Θ,
pour tout α > 0, P (|Tn − θ| > α) −→ 0

n→∞
Un estimateur ( sans biais ou asymptotiquement sans biais ) est dit

convergent si V (Tn ) −→ 0 pour n → ∞
Soient Tn et Tn0 deux estimateurs sans biais de θ.Tn est dit plus efficace
que Tn0 si
V (Tn ) ≤ V (Tn0 )
L’estimateur sans biais et de variance minimale est appelé estimateur

efficace.
Exemples d’estimateurs
Considérons soit X1 , X2 , . . . , Xn un n-échantillon aléatoire simple.
Moyenne empirique d’un échantillon:

On sait que E(X̄) = E(X) = µ, alors E(X̄) − µ = 0
Proposition 3.1.4 La moyenne empirique X̄ est un estimateur sans

biais de θ = µ.
Variance empirique d’un échantillon: 2

1
Pn
L’espérance de la variance empirique S 2 = n i=1 Xi − X̄ est
n−1 2
E(S 2 ) = σ
n
2 2σ2
alors, E(S ) − σ = − = 6 0
n
11
Proposition 3.1.5 La variance empirique X̄ est un estimateur biaisé
σ2
de θ = σ 2 de biais − .
n
Variance empirique modifiée d’un échantillon:

La valeur moyenne de la variance empirique n’est pas exactement égale
à la variance théorique, c’est pourquoi on introduit la variance em-
pirique modifiée (ou corrigée) où on divise non pas par le nombre de
termes de la somme, mais par n − 1.
On appelle variance empirique modifiée de l’échantillon X1 , ..., Xn la
quantité
n
2 1 X 2
Sm = Xi − X̄n
n − 1 i=1
2
Proposition 3.1.6 On a E(Sm ) = σ 2 , alors Sm
2
est estimateur sans
biais de θ = σ 2 car E(Sm
2
) − σ 2 = 0.
Fréquence empirique :
Soit une population ayant des individus possédant une certaine car-
actéristique A. On veut estimer à partir d’un échantillon de taille n la
proportion p d’individus possédant cette caractéristique A. Soit K la
v.a qui représente le nombre d’individus dans l’échantillon possédant
la caractéristique A. On sait que la moyenne de la fréquence empirique
K
F = est E(F ) = p et V (F ) = p(1−p)
n
n
Proposition 3.1.7 La fréquence empirique F est un estimateur sans

biais de θ = p. De plus F est un estimateur convergent de p.
3.1.2 Intervalle de confiance

Il est plus réaliste et plus intéressant de fournir une estimation du type
t1 < θ < t2
plutôt que d’écrire sèchement θ = t, car on sait que la valeur estimée t diffère
toujours de la valeur exacte du paramètre recherché, θ. Il est donc souhaitable
de donner la précision de l’estimation en acceptant de faire une erreur α sur
celle-ci.
12
Définition 3.1.8 Soit X une v.a. dont la loi dépend d’un paramètre inconnu
θ.
On appelle intervalle de confiance pour θ de niveau 1−α (ou de risque
ou seuil α ), un intervalle qui dépend de X1 , . . . , Xn , contenant la valeur θ
avec probabilité ≥ 1 − α.
Autrement dit, [t1 , t2 ] est un intervalle de confiance de niveau 1 − α pour
θ signifie
P (t1 < θ < t2 ) = 1 − α
Remarque 1 Plus le niveau de confiance est élevé, plus la certitude est

grande que la méthode d’estimation produira une estimation contenant
la vraie valeur de θ ).
Les niveaux de confiance les plus fréquemment utilisés sont 90%, 95%, 99%
On choisira dans la plupart des cas un intervalle à risques symétriques,

c-a-d t.q.
α α
P (θ < t1 ) = , P (θ > t2 ) =
2 2
Si on augmente le niveau de confiance 1 − α, on augmente la longueur
de l’intervalle.
Calcul de l’intervalle de confiance:
Soit X une variable aléatoire suit une loi normale de la moyenne µ =

E(X) inconnu et de variance σ 2 .
Soit X1 , X2 , . . . , Xn un n -échantillon aléatoire simple de X, c’est à dire
Xi ∼ N (µ, σ). Si la loi n’est pas gaussienne, on suppose alors que la taille
de l’échantillon est grande (n ≥ 30 en pratique), le théorème central limite
(TCL) permet de faire des approximations par des lois normales, ce qui
donnera des intervalles de confiance approximatifs mais suffisant en pratique.
On fera donc systématiquement comme si les échantillons sont gaussiens
lorsque sa taille est élevé.
On cherche un intervalle de confiance de la moyenne µ (respectivement
la variance σ 2 ). On distingue deux cas σ 2 connue et σ 2 inconnue( resp. µ
connue et µ inconnue).
13
3.1.3 Intervalle de confiance de la moyenne
a. La variance σ 2 connue:
On sait alors qu’un bon estimateur ponctuel de µ est X̄ (estimateur sans
biais, convergent et efficace) et que (vrai aussi pour n > 30 )

X1 + X2 + . . . + Xn σ X̄ − µ
X̄ = ∼ N µ, √ et Z = ∼ N (0, 1)
n n √σ
n
On se fixe le risque α et on cherche dans la table de la loi normale la valeur

uα , telle que
P (−uα < Z < uα ) = 1 − α.
Or
X̄ − µ
−uα < Z < uα ⇔ −uα < < uα
√σ
n
σ σ σ σ
⇔ −uα √ < X̄ − µ < uα √ ⇔ −uα √ < µ − X̄ < uα √
n n n n
On obtient ainsi

σ σ
P X̄ − uα √ < µ < X̄ + uα √ =1−α
n n
alors un intervalle de confiance de µ au niveau de confiance 1 − α est

σ σ
X̄ − uα √ ; X̄ + uα √ .
n n
Dans la pratique, on dispose d’un échantillon non exhaustif tiré au hasard

de la population. Cet échantillon fournit une réalisation de X̄ par le calcul
de la moyenne x̄. Ainsi l’échantillon
h donne une réalisation
i de l’intervalle de
σ σ
confiance au risque α qui est x̄ − uα √n ; x̄ + uα . √n .
Pour calculer uα , on a
P (|Z| ≤ uα ) = 1 − α ⇔ P (Z ≤ uα ) = 1 − α/2
puis on lit la valeur de uα dans la table de la loi N (0, 1) de la v.a. Z.
Proposition 3.1.9 Soit x̄ est une réalisation de X̄, l’intervalle de confiance

de µ de seuil α est
σ σ
I = x̄ − uα √ , x̄ + uα √
n n
14
Exemple 3.1.10 Exemple 3.3 .4 Une machine M fabrique des engrenages
en grande série. Des études antérieures permettent de dire que les mesures
des diamètres forment une population normale d’écart-type σ = 0, 042 cm.
On extrait un échantillon non exhaustif de la fabrication journalière de taille
n = 200 engrenages. La moyenne des diamètres sur cet échantillon est x̄ =
0, 824 cm. Donner au niveau de confiance 95% un intervalle de confiance de
la moyenne m des diamètres des engrenages.
Solution:
Considérons X la variable aléatoire égale au diamètre des engrenages.

L’énoncé dit que X N (m, σ = 0,042). Soit X1 , X2 , . . . , X200 un 200 -
échantillon au hasard de X. Les n = 200 variables aléatoires Xi suivent la
même loi N (m, σ = 0, 042) que X. Soit m le diamètre moyen inconnu des
engrenages. P200
1
On considère alors l’estimateur sans biais et convergent X̄ = 200 i=1 Xi
de m. Une réalisation de X̄ est x̄ = 0, 824. h i
On sait que l’intervalle de confiance au rsique α est X̄ − uα √σn ; X̄ + uα √σn .
Pour un risque de 5% on a uα = 1, 96. h i
0,042 0,042
Ainsi, l’intervalle de confiance est X̄ − 1, 96 √ 200
; X̄ + 1, 96 √
200
. L’échantillon
fournit une réalisation de cet intervalle de confiance à savoir

0, 042 0, 042
0, 824 − 1, 96 √ ; 0, 824 + 1, 96 √
200 200
soit
I = [0, 818; 0, 830]
b. La variance σ 2 inconnue:
Dans cette situation l’expression précédente de l’intervalle de confiance ne
peut être calculée car σ 2 n’est plus connu. On peut remplacer σ 2 par son
estimateur représenté par la variance empirique modifiée
n
2 1 X 2
Sm = Xi − X̄
n − 1 i=1
et faire comme avant sauf qu’il faut remplacer la loi normale N (0, 1) par la
loi de Student T (n − 1). On sait que
X̄ − µ
r ∼ T (n − 1)
2
Sm
n
15
1
Pn 2
On peut considérer la variance empirique S 2 = n i=1 Xi − X̄ on aura
a
X̄ − µ
r ∼ T (n − 1)
S2
n−1
S2 S2
car = m.
n−1 n
P (−tα < T < tα ) = 1 − α.
On reprend le calcul précédent l’intervalle de confiance pour µ

Sm Sm
X̄ − tα √ , X̄ + tα √
n n
ou bien
S S
X̄ − tα √ , X̄ + tα √
n−1 n−1
où tα est donné par
P (|T | ≤ tα ) = 1 − α ⇔ P (T ≤ tα ) = 1 − α/2
dans la table de Student T (n − 1) de la v.a. T .
P (−tn−1,α ≤ T ≤ tn−1,α ) = 1 − α
Proposition 3.1.11 Soit x̄ est une réalisation de X̄ et sm une réalisation

de Sm , l’intervalle de confiance de µ de seuil α est

sm sm
I = x̄ − tn−1,α √ , x̄ + tn−1,α √
n n
Aussi, si s une réalisation de S, l’intervalle de confiance de µ de seuil α est

s s
I = x̄ − tn−1,α √ , x̄ + tn−1,α √
n−1 n−1
Remarque 2 Quand n est grand (n ≥ 30), on peut considérer que la loi de

Student est proche de la normale et prendre tα dans la table de la loi normale.
16
3.1.4 Intervalle de confiance de la variance
La moyenne µ connue
L’intervalle de confiance de la variance σ 2 se calcule à partir de l’échantillon
de taille n par
"P #
n 2 Pn 2
i=1 (X i (ω) − µ) (X i (ω) − µ)
Iσ2 = , i=1
b a
où a et b sont à trouver dans la table de la loi χ2 (n − 1) de la v.a. U par

P (U ≤ a) = α/2 et P (U ≤ b) = 1 − α/2
La moyenne µ inconnue
À nouveau, comme µ est inconnue, l’idée est de la remplacer par son estima-
tion X̄, alors, l’intervalle de confiance de la variance σ 2 est donné par
2
nS nS 2

Iσ2 = ,
b a
1 Pn 2
où S 2 = i=1 Xi − X̄ les réels a et b sont à déterminer dans la table de
2
la loi χ2 (n − 1) de la v.a. U par
P (U ≤ a) = α/2 et P (U ≤ b) = 1 − α/2
Si s2 une réalisation de la variance empirique S 2 , alors
2
ns ns2

Iσ2 = ,
b a
3.1.5 Intervalle de confiance de la fréquence

Dans une population donnée de grande taille, la proportion d’individus p
ayant une modalité donnée A est inconnue. On désire déterminer, à partir
d’un tirage d’un échantillon non exhaustif de taille n de la population, un
intervalle de confiance au risque α de p. Soit K le nombre d’individus ayant la
K
modalité A dans cet échantillon. La fréquence F = est un bon estimateur
n
(estimateur sans biais, convergent et efficace) du paramètre
p.
q
p(1−p)
Par le théorème centrale limite TCL, on a F N p, n
, pra-
tiquement pour n ≥ 30, np ≥ 5 et nq ≥ 5. Soit Z = qF −p , alors on a
p(1−p)
n
Z N (0, 1).
17
On se fixe le risque α puis on cherche dans la table de la loi normale la
valeur zα , telle que
P (−zα < Z < zα ) = 1 − α,
ceci est équivalent à
r r !
p(1 − p) p(1 − p)
P F − zα < p < F + zα = 1 − α.
n n
On obtient un intervalle de confiance de p au niveau de confiance 1 − α
r r
pq pq
Ip = F − zα ; F + zα
n n
Proposition 3.1.12 Soit f une réalisation de la fréquence empirique F .
Alors l’intervalle de confiance de p de risque α est
" r r #
p(1 − p) p(1 − p)
Ip = f − zα ; f + zα
n n
18

Cours Statistiques Inf

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Statistiques Inf

Transféré par

Droits d'auteur :

Formats disponibles

Sta.

 Échantillon: est un sous-ensemble de n individus (d’effectif n) ex-

 Sondage: Étudier les unités de l’échantillon.

On veut à partir d’un échantillon, déduire des informations sur la pop-

Soit Ω = {ω1 , ω2 , . . . , ωN } une population de taille N. Soit X le caractère

Définition 1.0.1 On appelle échantillon de taille n d’une variable aléatoire

Cela correspond aux conditions suivantes :

 tous les individus sont sélectionnés dans la même population et sont

 les individus sont sélectionnés de manière indépendante

Définition 1.0.2 Une statistique Y sur un échantillon (X1 , X2 , . . . , Xn ) est

1.0.1 Moyenne et variance empiriques

Propriétés 1.0.4 Soit X une variable aléatoire de moyenne µ et d’écart-

Et, en raison de l’indépendance des Xi

Définition 1.0.6 Variance empirique

Sa réalisation est s2 = n1 ni=1 (xi − x̄)2 (qui est la variance de l’échantillon),

Définition 1.0.7 Soit X une variable aléatoire, on appelle moment centré

Propriétés 1.0.8 Soit X une variable aléatoire d’écart-type σ et de moment

Cas de grands échantillons

Théorème 1.0.10 Pour n assez grand,

En pratique pour n ≥ 30, on a

Définition 1.0.15 La variable aléatoire F = Knn s’appelle fréquence em-

Dans la théorie d’échantillonnage les échantillons sont prélevés d’une manière

2.0.1 Distribution des moyennes

Définition 2.0.1 On appelle distribution d’échantillonnage des moyennes

où N est l’effectif total de la population-mère.

2.0.2 Distribution des fréquences

On prélève dans cette population tous les échantillons de taille n et on

La distribution de f est présenté par les paramétrés k le nombre d’échantillons,

Proposition 2.0.5  Échantillonnage non-exhaustif: On a

où N est l’effectif de la population-mère.

Exercice 2.0.6 Dans une population de 5 objets, on étudie le caractère X

2, 5 kg; 2, 53 kg; 2, 6 kg; 2, 62 kg; 2, 7 kg

1. Déterminer la valeur moyenne E(X) = M et l’écart-type σ(X) de cette

2. Quel est le nombre k3 d’échantillons (tirage exhaustif ) de taille n = 3

3. Calculer la moyenne E(µ) et l’écart-type σ(µ) de 1a distribution d’échantillonnage

La théorie de l’échantillonnage étudie les liens entre une population et des

3.1 Généralités sur les estimateurs

Définition 3.1.1 Un estimateur de θ est une variable aléatoire Tn = f (X1 , . . . , Xn )

 On appelle biais de Tn est la différence E [Tn ] − θ

 On dit que Tn est sans biais si E [Tn ] = θ, quel que soit θ ∈ Θ.

 Si E(Tn ) 6= θ, on dit que Tn est biaisé et le biais vaut E(Tn − θ) =

Définition 3.1.3  Un estimateur Tn de θ est dit asymptotiquement sans

 Un estimateur Tn est dit convergent si, quel que soit θ ∈ Θ,

pour tout α > 0, P (|Tn − θ| > α) −→ 0

 Un estimateur ( sans biais ou asymptotiquement sans biais ) est dit

 L’estimateur sans biais et de variance minimale est appelé estimateur

 Moyenne empirique d’un échantillon:

Proposition 3.1.4 La moyenne empirique X̄ est un estimateur sans

 Variance empirique d’un échantillon: 2

 Variance empirique modifiée d’un échantillon:

Proposition 3.1.7 La fréquence empirique F est un estimateur sans

3.1.2 Intervalle de confiance

Remarque 1  Plus le niveau de confiance est élevé, plus la certitude est

 On choisira dans la plupart des cas un intervalle à risques symétriques,

Calcul de l’intervalle de confiance:

Soit X une variable aléatoire suit une loi normale de la moyenne µ =

On se fixe le risque α et on cherche dans la table de la loi normale la valeur

alors un intervalle de confiance de µ au niveau de confiance 1 − α est

Dans la pratique, on dispose d’un échantillon non exhaustif tiré au hasard

puis on lit la valeur de uα dans la table de la loi N (0, 1) de la v.a. Z.

Proposition 3.1.9 Soit x̄ est une réalisation de X̄, l’intervalle de confiance

Considérons X la variable aléatoire égale au diamètre des engrenages.

dans la table de Student T (n − 1) de la v.a. T .

Échantillon: est un sous-ensemble de n individus (d’effectif n) ex-

Sondage: Étudier les unités de l’échantillon.

tous les individus sont sélectionnés dans la même population et sont

les individus sont sélectionnés de manière indépendante

Proposition 2.0.5 Échantillonnage non-exhaustif: On a

On appelle biais de Tn est la différence E [Tn ] − θ

On dit que Tn est sans biais si E [Tn ] = θ, quel que soit θ ∈ Θ.

Si E(Tn ) 6= θ, on dit que Tn est biaisé et le biais vaut E(Tn − θ) =

Définition 3.1.3 Un estimateur Tn de θ est dit asymptotiquement sans

Un estimateur Tn est dit convergent si, quel que soit θ ∈ Θ,

Un estimateur ( sans biais ou asymptotiquement sans biais ) est dit

L’estimateur sans biais et de variance minimale est appelé estimateur

Moyenne empirique d’un échantillon:

Variance empirique d’un échantillon: 2

Variance empirique modifiée d’un échantillon:

Remarque 1 Plus le niveau de confiance est élevé, plus la certitude est

On choisira dans la plupart des cas un intervalle à risques symétriques,