Vous êtes sur la page 1sur 19

28/12/2014

Chapitre 5

Echantillonnage et Estimation

Echantillonnage

28/12/2014

Population
Une Population est toute collection dobjets
tudier ayant des proprits communes
appels des individus ou units statistiques
Une population peut tre infinie, ou finie de
taille N.
La statistique traite des proprits des
populations plus que celles dindividus
particuliers.
3

chantillon
Ltude de tous les individus dune population finie
sappelle un recensement. Lorsque lon observe quune
partie de la population, on parle de sondage.
La partie tudie sappelle lchantillon.
Il existe plusieurs mthode de construction dun
chantillon, dont la plus simple est celle de
lchantillonnage alatoire simple correspondant des
tirages quiprobables et indpendants les uns des
autres.
Sa taille est note n<<N
Dans ces conditions, les observations deviennent des
v.a. ainsi que les rsums numrique usuels: ils
convient donc den chercher les lois de probabilit
avant de tenter dextrapoler (infrs) la population.
4

28/12/2014

chantillon
Si on prlve au hasard n individu dans une
population finie de taille N et on veut tudier une
caractristique X de la population.
X est une v.a. appele v.a. mre ou parente.
chaque individu i tir, on associe une v.a. Xi
dont on observe une seule ralisation xi. Alors les
Xi sont des v.a. ayant toutes la mme distribution,
celle de X.
On suppose que les Xi sont mutuellement
indpendantes (ou au moins, indpendantes
deux deux).
5

chantillon
On a donc la double conception suivante: Les
valeurs observes (x1,x2,,xn) constituent n
ralisations indpendantes dune v.a. X ou
encore, une ralisation unique du n-uple
(X1,X2,,Xn) o les Xi sont n v.a.
indpendantes et de mme loi.
On note par la suite un chantillon le n-uple
(X1,X2,,Xn) .
6

28/12/2014

Les statistiques
La thorie de lchantillonnage se propose
dtudier les proprits du n-uple (X1,X2,,Xn)
et des caractristiques le rsumant, les
statistiques, partir de la distribution
suppose connue de la variable parente X, et
dtudier en particulier ce qui se passe lorsque
la taille de lchantillon est leve.

Les statistiques
Il est dusage dans la pratique de rsumer les
n valeurs dun chantillon x1,x2,,xn par
quelques caractristiques simples telles que
moyenne, plus grande valeur, etc.
Ces caractristiques sont elles-mmes des
ralisations de v.a. issues de X1,X2,,Xn.
Une statistique T est une v.a. fonction
mesurable de X1,X2,,Xn
T=f (X1,X2,,Xn )
8

28/12/2014

Les statistiques
Exemples:
La moyenne empirique dun chantillon
(X1,X2,,Xn) est:

1 n
X = Xi
n i =1
Sa variance empirique est:
1 n
2
S = (X i X )
n i =1
2

La distribution de la moyenne
Pour une ralisation (x1,x2,,xn), la statistique X
n
prendra la valeur x = 1 x

i =1

Cette valeur est la moyenne arithmtique.


Pour une autre ralisation, dans les mmes
conditions, un deuxime chantillon donnera
pour ralisation ( x1, x2 ,, xn ) et X prendra alors
1 n
la valeur

x =

x
i =1

10

28/12/2014

Proprits
1. Lesprance mathmatique, note X , de X
est gale la moyenne m de la population:

X = m
En effet, on a:

1 n

X = E (X ) = E X i
n i =1
1 n
1 n
= E X i = E ( X i )
n i =1 n i =1
1
1
= (m + m + + m ) = nm = m
n
n
11

Proprits
2
2

X
2. La variance de , note X , est gale
n
o 2 est la variance de la population et n la
taille de lchantillon.
En effet, on a:
n

Xi

n i =1

X2 = Var (X ) = Var
1
= 2
n

1
2
2
Var ( X i ) = 2 n =

n
n
i =1
n

o les v.a. Xi sont indpendantes


12

28/12/2014

Remarques
La moyenne et la variance de X sont calcules
pour le cas dun chantillon de variables
alatoires indpendantes et identiquement
distribues (chantillon tir avec remise dune
population finie ou chantillon tir avec ou
sans remise dune population infinie).
Si lchantillon est tir sans remise dune
population finie, les variables ne sont plus
indpendantes. Dans ce cas, on a toujours

X = E (X ) = m

13

mais on trouve un autre rsultat pour la


variance
2 N n
Var (X ) =
n N 1
n
En effet, la population tant de taille N, il y a C N
chantillons de taille n et
X2 = Var(X ) = Var

1 n
1
n

=
X
Var

Xi

i
2
n i =1 n
i=1

n
1n

(
)
+
Var
(
X
)
Cov
X
,
X

i
i
j

n2 i=1
i , j =1
i j

avec Var ( X ) = 2 et Cov(X i , X j ) = E [( X i m )(X j m )]


i
14

28/12/2014

Cov(X i , X j ) = E ( X i m )(X j m )

= ( xl m )( xk m )P (X i = xl ; X j = xk )
N

l =1 k =1

= ( xl m )( xk m )P( X i = xl )P (X j = xk / X i = xl )
N

l =1 k =1
N

= ( xl m )( xk m )
l =1 k =1

1
P(X j = xk / X i = xl )
N

N N

(xl m )(xk m ) 1 1
=
l =1 k =1
N N 1
0 pour k = l

On a donc:

Cov (X i , X j ) =

pour k l

1 1 N
(xl m)(xk m)
N N 1 l ,k =1
l k

15

N
N
N

2
(
)
(
)
x

m
=
x

m
+
(xl m )(xk m ),
i
i
i =1
l , k =1
i =1

Comme

l k

( xi m ) = 0
i =1

(x m)

et

i =1

on obtient
et donc
Do

= N 2 ,

Cov(X i , X j ) =

Var(X ) =

1 1
N 2
N N 1

1 2 N 2 1 2 2

n
+
=
n

n
(
n

1
)

n2
n2
N 1
l ,k =1 N 1

l k

Var (X ) =

2 N n
n N 1

N n
sappelle facteur dexhaustivit
N 1

16

28/12/2014

Proprit:
On peut affirmer, en vertu des proprits de la loi
normale, que lorsque la population a une
distribution normale, la distribution
dchantillonnage de la moyenne est aussi
normale.
Le thorme de la limite centrale nous permet
daffirmer, dautre part, que quelle que soit la
distribution de la population, la distribution de
X m
est normale N(0,1) lorsque n est grand
/ n
(en pratique ceci est vrai ds que n>30).
17

La distribution de la variance
La variance empirique dun chantillon alatoire
(X1,X2,,Xn) est dfini par:

1 n
2
S = (X i X )
n i =1
2

Pour une ralisation n(x1,x2,,xn), la statistique S2


prendra la valeur 1 (xi x )2 . Pour une autre
n i =1
ralisation, dans les mmes conditions, un
deuxime chantillon donnera pour ralisation
( x1, x2 ,, xn ) et S2 prendra alors la valeur
1 n
(x'i x ')2 o

n i =1

x'=

1 n
x'i
n i =1

18

28/12/2014

Proprits
1- E (S 2 ) =

n 1 2

( )

2- Var S 2 =

n 1
(n 1) 4 (n 3) 4
3
n

3- Cov(X , S 2 ) = n 2 1 3
n
19

Proprits
4. Si la distribution de la population 2est
normale, la variable alatoire nS 2 suit une

loi du 2 n-1 degrs de libert: nS 2


~ 2 (n 1)
2

En effet, on a:
nS 2

(X
n

i =1

i X) =
2

1 n
( X i m )2 n(X m )2
2
i =1

X m X m

= i

/ n
i =1
n

20

10

28/12/2014

Proprits (suite de 4)
Le premier terme est une somme de n carrs
de variables N(0,1) et suit donc une loi du 2
n degrs de libert. Le second terme est une
variable qui suit une loi du 2 1 degr de
2
libert. Donc, le degr de nS2 est n-1

(on a une relation entre X et Xi: (X i X ) = 0 ).


n

i =1

21

Proprits (suite de 4)
n 1

2
2
On vrifi que E (S ) =
n
En effet, on a

2 nS 2 2 nS 2 2
2

E S 2 = E
=
E
=
k
=
( n 1)
2
2 n

n
n
n

( )

o k est lesprance mathmatique dune


variable alatoire qui suit une loi du 2 k
degrs de libert (dans ce cas k=n-1).

22

11

28/12/2014

Proprits (suite de 4)
De mme, on trouve:
2 nS2 4 nS2 4
4
= 2 Var 2 = 2 2k = 2 2(n 1)
Var S = Var
2

n
n

n
n

( )
2

o 2k est la variance dune variable alatoire


qui suit une loi du 2 k degrs de libert
(dans notre cas k=n-1).

23

Proprits (suite de 4)
On peut affirmer de plus que la v.a. X

suit

S2
n 1

une loi de Student n-1 degrs de libert.


2
En effet, comme X m ~ N (0,1) et nS ~ 2 (n 1), le
/ n

rapport

X m
/ n = X m ~ T ( n 1)
nS 2
S2
( n 1) 2
n 1

24

12

28/12/2014

La distribution des frquences


La probabilit de ralisation dun vnement
est suppose tre gale p.
On considre les chantillons de taille n
extraits, avec remise, dune population de
taille N.
A chaque chantillon extrait correspond une
frquence fn de ralisation de lvnement
considr.
25

Proprits
1. fn=E(fn)=p
En effet, la variable alatoire X=n fn~B(n,p) et
X
n

f = E ( f n ) = E
n

2. Var( f n ) = p(1 p)
n
En effet,

1
1
= E ( X ) = np = p
n
n

1
p (1 p )
X 1
Var ( f n ) = Var = 2 Var ( X ) = 2 np (1 p ) =
n
n
n n
26

13

28/12/2014

Proprits
3. Si le tirage se fait sans remise, on a toujours
E(fn)=p. Mais la variance dans ce cas, vaut:
Var ( f n ) =

p (1 p ) N n
n
N 1

En effet,
X 1
Var ( f n ) = Var = 2 Var ( X ).
n n
Comme X suit une loi hypergomtrique et
Var ( X ) =

N n
np (1 p)
N 1

On en dduit la formule de Var(fn) au dessus.


27

Proprits
4. Pour une taille n de lchantillon assez grande
(en pratique n30), on a

fn fn

fn p
~ N (0,1)
p (1 p )
n

28

14

28/12/2014

La distribution des diffrences de


moyennes
On considre 2 populations P1 et P2 de taille
N1 et N2, de moyennes m1 et m2 et de
variances 2X et 2Y respectivement.
On sintresse, dans de nombreux problmes
la diffrence m1-m2.
On extrait de la population P1 un chantillon
(x1,x2,,xn1) de taille n1 et de la population P2
un chantillon (y1,y2,,yn2) de taille n2.
n
On note X = 1
1 n
X
et
Y = Yj
i
1

n1

i =1

n2

j =1

29

Proprits

1. X Y = m1 m2
En effet,

X Y = E (X Y ) = E (X ) E (Y ) = m1 m2

2.

X2 Y =

1 2 1 2
+
n1 X n2 Y

En effet,

X2 Y = Var (X Y ) = Var (X ) + Var (Y )

car X et Y sont indpendantes. On a donc le


rsultat pour un tirage exhaustif (avec remise)
30

15

28/12/2014

Proprits
(suite 2) Dans le cas dun tirage non exhaustif
(sans remise), il faut tenir compte du
coefficient dexhaustivit
car
X2 N1 n1
2 N n
Var (X ) =
et Var (Y ) = Y 2 2
n1 N1 1

n2 N 2 1

3. En supposant n1 et n2 grands, on peut dire


que X et Y suivent toutes deux des lois
normales. Comme elles sont indpendantes,
X Y suit aussi une loi normale. On conclut
donc que (X Y ) X Y = (X Y ) (m1 m2 ) ~ N (0,1)
X Y

X2
n1

Y2
n2

31

Exercice
On choisit au hasard six nombres parmi les
nombres entiers de 1 9, chacun de ces
nombres a la mme probabilit dtre choisi.
Calculer la moyenne et lcart-type de la
distribution dchantillonnage des moyennes
dans les 2 cas:
1. Tirage sans remise.
2. Tirage avec remise.
32

16

28/12/2014

Solution
1+ 2 + + 9

=5
1. La moyenne de la population est m =
9
Sa variance 2 vaut: 2 = 1 [(1 5)2 + (2 5)2 + + (9 5)2 ] = 6,67
9
Lcart-type est =2,58.
Il y a C96 = 84 faons de choisir six nombres parmi
les 9.
Chacun de ces 84 chantillons
possibles a une
1 6
moyenne x = xi o xi (i=1,2,,6)
n i =1
reprsente un des 9 nombres.
33

Par exemple lchantillon (3, 8, 7, 2, 5, 1) a


pour moyenne x = 4 , 33 .
On obtient ainsi 84 moyennes et la moyenne
de la distribution dchantillonnage des
moyennes X vaut X = m = 5 .
La variance de la distribution
dchantillonnage des moyennes est
=
2
X

2 N n

6,67 9 6

= 0,417
n N 1
6 9 1

Do X = 0,645
34

17

28/12/2014

2. Il y a 96= 531441 faons de choisir six nombres


parmi les 9. Chacun de ces chantillons a une
moyenne x = 1 x o xi (i=1,2,,6)
n
reprsente, comme prcdemment, un des 9
nombres.
Par exemple, lchantillon (4, 3, 4, 5, 7, 8) donne
pour moyenne x = 5 ,17 . On obtient de cette
manire 531441 moyennes et la moyenne
distribution dchantillonnage des moyennes X
vaut X = m = 5.
La variance de la distribution dchantillonnage
des moyennes est: 2 2 6,67
X =
=
= 1,11
Do X =1,05
n
6
6

i =1

35

Annexe 1:
Tirage dun chantillon

Tirage sans remise


(sans rptitions)

Tirage avec remise


(avec rptitions)

Non exhaustif

Exhaustif

Les v.a. sont


dpendantes

Les v.a. sont


indpendantes

Loi utilise
hypergomtrique

Loi utilise
binomiale
36

18

28/12/2014

Annexe 2: Autre criture des caractristiques de la hypergomtrique

On a vu que pour une loi hypergomtrique H(n,a,b)


E(X ) = n

a
a+b

Mais,

et

a+b=N

Var ( X ) =

nab(a + b n )
(a + b )2 (a + b 1)

alors,

nab(N n )
a
Var ( X ) = 2
et
N (N 1)
N
La probabilit de tirer une boule blanche sera:
E(X ) = n

p=

a
N

et

1 p = q = 1

E ( X ) = np et Var ( X ) = npq

a N a b
=
=
N
N
N

(N n ) = np(1 p) (N n )
(N 1)
(N 1)
37

19