Vous êtes sur la page 1sur 19

28/12/2014

Chapitre 5

Echantillonnage et Estimation

Echantillonnage

1
28/12/2014

Population
• Une Population est toute collection d’objets à
étudier ayant des propriétés communes
appelés des individus ou unités statistiques
• Une population peut être infinie, ou finie de
taille N.
• La statistique traite des propriétés des
populations plus que celles d’individus
particuliers.

Échantillon
• L’étude de tous les individus d’une population finie
s’appelle un recensement. Lorsque l’on observe qu’une
partie de la population, on parle de sondage.
• La partie étudiée s’appelle l’échantillon.
• Il existe plusieurs méthode de construction d’un
échantillon, dont la plus simple est celle de
l’échantillonnage aléatoire simple correspondant à des
tirages équiprobables et indépendants les uns des
autres.
• Sa taille est notée n<<N
• Dans ces conditions, les observations deviennent des
v.a. ainsi que les résumés numérique usuels: ils
convient donc d’en chercher les lois de probabilité
avant de tenter d’extrapoler (inférés) à la population.
4

2
28/12/2014

Échantillon
• Si on prélève au hasard n individu dans une
population finie de taille N et on veut étudier une
caractéristique X de la population.
• X est une v.a. appelée v.a. mère ou parente.
• À chaque individu i tiré, on associe une v.a. Xi
dont on observe une seule réalisation xi. Alors les
Xi sont des v.a. ayant toutes la même distribution,
celle de X.
• On suppose que les Xi sont mutuellement
indépendantes (ou au moins, indépendantes
deux à deux).
5

Échantillon
• On a donc la double conception suivante: Les
valeurs observées (x1,x2,…,xn) constituent n
réalisations indépendantes d’une v.a. X ou
encore, une réalisation unique du n-uple
(X1,X2,…,Xn) où les Xi sont n v.a.
indépendantes et de même loi.
• On note par la suite un échantillon le n-uple
(X1,X2,…,Xn) .

3
28/12/2014

Les statistiques
• La théorie de l’échantillonnage se propose
d’étudier les propriétés du n-uple (X1,X2,…,Xn)
et des caractéristiques le résumant, les
statistiques, à partir de la distribution
supposée connue de la variable parente X, et
d’étudier en particulier ce qui se passe lorsque
la taille de l’échantillon est élevée.

Les statistiques
• Il est d’usage dans la pratique de résumer les
n valeurs d’un échantillon x1,x2,…,xn par
quelques caractéristiques simples telles que
moyenne, plus grande valeur, etc.
• Ces caractéristiques sont elles-mêmes des
réalisations de v.a. issues de X1,X2,…,Xn.
• Une statistique T est une v.a. fonction
mesurable de X1,X2,…,Xn
T=f (X1,X2,…,Xn )
8

4
28/12/2014

Les statistiques
• Exemples:
• La moyenne empirique d’un échantillon
(X1,X2,…,Xn) est:
1 n
X = ∑ Xi
n i =1
• Sa variance empirique est:

S = ∑ (X i − X )
21 n 2

n i =1
9

La distribution de la moyenne
• Pour une réalisation (x1,x2,…,xn), la statistique X
n
prendra la valeur x = 1 x
n
∑ i =1
i

• Cette valeur est la moyenne arithmétique.


• Pour une autre réalisation, dans les mêmes
conditions, un deuxième échantillon donnera
pour réalisation ( x1′, x′2 ,…, x′n ) et X prendra alors
la valeur 1 n
′ x =
n
∑x′
i =1
i

10

5
28/12/2014

Propriétés
1. L’espérance mathématique, notée µ X , de X
est égale à la moyenne m de la population:
µX = m
En effet, on a:
µ X = E (X ) = E  ∑ X i 
1 n 
 n i =1 
1  n  1 n
= E ∑ X i  = ∑ E ( X i )
n  i =1  n i =1

= (m + m + … + m ) = nm = m
1 1
n n
11

Propriétés
σ2
X σ 2
2. La variance de , notée X , est égale à
n
où σ2 est la variance de la population et n la
taille de l’échantillon.
En effet, on a:
1 
σ X2 = Var (X ) = Var 
n


 n i =1
Xi

n
σ2
Var ( X i ) = 2 nσ =
1 1
= 2
n

i =1 n
2

n
où les v.a. Xi sont indépendantes
12

6
28/12/2014

Remarques
• La moyenne et la variance de X sont calculées
pour le cas d’un échantillon de variables
aléatoires indépendantes et identiquement
distribuées (échantillon tiré avec remise d’une
population finie ou échantillon tiré avec ou
sans remise d’une population infinie).
• Si l’échantillon est tiré sans remise d’une
population finie, les variables ne sont plus
indépendantes. Dans ce cas, on a toujours
µ X = E (X ) = m
13

mais on trouve un autre résultat pour la


variance σ2 N −n
Var (X ) =
n N −1 n
En effet, la population étant de taille N, il y a C N
échantillons de taille n et
σ X2 = Var(X ) = Var
1 n  1  n 
∑ X i
 n i =1  n
 = 2
Var ∑ Xi 
 i=1 
 
1n
( )
n
= ∑ Var( X ) + ∑ Cov X , X 
n2  i=1 
i i j
i , j =1
 i≠ j 
avec Var ( X ) = σ 2 et Cov(X i , X j ) = E [( X i − m )(X j − m )]
i

14

7
28/12/2014

[
Cov(X i , X j ) = E ( X i − m )(X j − m ) ]
= ∑∑ ( xl − m )( xk − m )P (X i = xl ; X j = xk )
N N

l =1 k =1

= ∑∑ ( xl − m )( xk − m )P( X i = xl )P (X j = xk / X i = xl )
N N

l =1 k =1

P(X j = xk / X i = xl )
N N
= ∑∑ ( xl − m )( xk − m )
1
l =1 k =1 N

N N
= ∑∑
 (xl − m )(xk − m ) 1 1 pour k ≠ l
l =1 k =1
 0 pour k = l N N −1

Cov (X i , X j ) =
1 1 N
On a donc: ∑ (xl − m)(xk − m)
N N − 1 l ,k =1
l ≠k 15

2
N  N N
Comme ∑ i ( x − m ) ∑ i
= ( x − m )2
+ ∑ (xl − m )(xk − m ),
 i =1  i =1 l , k =1
l ≠k
2
N 
∑ ( xi − m ) = 0
 i =1 
N

∑ (x − m) = Nσ 2 ,
2
et i
i =1

on obtient Cov(X i , X j ) =
1 1
N N −1
(
− Nσ 2 )
 
1  2 N  − σ 2  1  2 σ 2 
et donc Var(X ) = nσ + ∑ 
  =
 n2 nσ − n( n − 1) 
n2  l ,k =1 N −1   N −1 
 l ≠k 
σ2 N −n
D’où Var (X ) =
n N −1
N −n
s’appelle facteur d’exhaustivité
N −1 16

8
28/12/2014

Propriété:
• On peut affirmer, en vertu des propriétés de la loi
normale, que lorsque la population a une
distribution normale, la distribution
d’échantillonnage de la moyenne est aussi
normale.
• Le théorème de la limite centrale nous permet
d’affirmer, d’autre part, que quelle que soit la
distribution de la population, la distribution de
X −m est normale N(0,1) lorsque n est grand
σ/ n
(en pratique ceci est vrai dès que n>30).
17

La distribution de la variance
• La variance empirique d’un échantillon aléatoire
(X1,X2,…,Xn) est défini par:
S = ∑ (X i − X )
21 n 2

n i =1
• Pour une réalisation n(x1,x2,…,xn), la statistique S2
prendra la valeur 1 ∑ (xi − x )2 . Pour une autre
n i =1
réalisation, dans les mêmes conditions, un
deuxième échantillon donnera pour réalisation
( x1′, x′2 ,…, x′n ) et S2 prendra alors la valeur
1 n 1 n
∑ (x'i − x ')2 où x'= ∑ x'i
n i =1 n i =1 18

9
28/12/2014

Propriétés
n −1 2
1- E (S 2 ) = σ
n

2- Var S 2 = ( ) n −1
n 3
[
(n − 1)µ 4 − (n − 3)σ 4 ]

3- Cov(X , S 2 ) = n −2 1 µ3
n

19

Propriétés
4. Si la distribution de la population 2est
normale, la variable aléatoire nS 2 suit une
σ
loi du χ2 à n-1 degrés de liberté: nS 2
~ χ 2 (n − 1)
En effet, on a: σ 2

∑ (X i − X) = ( X i − m )2 − n(X − m )2 
nS 2 1 n
1  n
2 ∑
2
=
σ2 σ2 i =1 σ  i =1 
2
 X −m  X −m 
n 2

= ∑ i  − 
i =1  σ   σ / n 
20

10
28/12/2014

Propriétés (suite de 4°)


Le premier terme est une somme de n carrés
de variables N(0,1) et suit donc une loi du χ2 à
n degrés de liberté. Le second terme est une
variable qui suit une loi du χ2 à 1 degré de
2
liberté. Donc, le degré de nS2 est n-1
σ

(on a une relation entre X et Xi: ∑ (X i − X ) = 0 ).


n

i =1

21

Propriétés (suite de 4°)


n −1
• On vérifié que E (S ) = σ2
2

n
En effet, on a
 σ 2 nS 2  σ 2  nS 2  σ 2 σ2
( )
E S 2 = E 
σ 2 
 = E   =
 σ2  n k = ( n − 1)
 n  n   n

où k est l’espérance mathématique d’une


variable aléatoire qui suit une loi du χ2 à k
degrés de liberté (dans ce cas k=n-1).

22

11
28/12/2014

Propriétés (suite de 4°)


• De même, on trouve:
 σ 2 nS2  σ 4  nS2  σ 4 σ4
( )
Var S = Var
2

σ
 = 2 Var 2  = 2 2k = 2 2(n −1)
2 
 n  n σ  n n
où 2k est la variance d’une variable aléatoire
qui suit une loi du χ2 à k degrés de liberté
(dans notre cas k=n-1).

23

Propriétés (suite de 4°)


• On peut affirmer de plus que la v.a. X − m suit
S2
n −1
une loi de Student à n-1 degrés de liberté.
En effet, comme X − m ~ N (0,1) et nS ~ χ 2 (n − 1), le
2

σ/ n σ2
X −m
rapport σ / n = X − m ~ T ( n − 1) .
nS 2 S2
( n − 1)σ 2 n −1

24

12
28/12/2014

La distribution des fréquences


• La probabilité de réalisation d’un événement
est supposée être égale à p.
• On considère les échantillons de taille n
extraits, avec remise, d’une population de
taille N.
• A chaque échantillon extrait correspond une
fréquence fn de réalisation de l’événement
considéré.

25

Propriétés
1. μfn=E(fn)=p
En effet, la variable aléatoire X=n fn~B(n,p) et
X  1
µ f = E ( f n ) = E  = E ( X ) = np = p
1
n  n n
n

2. Var( f n ) = p(1 − p)
n
En effet,
X 1 p (1 − p )
Var ( f n ) = Var   = 2 Var ( X ) = 2 np (1 − p ) =
1
n n n n
26

13
28/12/2014

Propriétés
3. Si le tirage se fait sans remise, on a toujours
E(fn)=p. Mais la variance dans ce cas, vaut:
p (1 − p ) N − n
Var ( f n ) =
n N −1
• En effet,
X 1
Var ( f n ) = Var   = 2 Var ( X ).
n n
Comme X suit une loi hypergéométrique et
N −n
Var ( X ) = np (1 − p)
N −1
On en déduit la formule de Var(fn) au dessus.

27

Propriétés
4. Pour une taille n de l’échantillon assez grande
(en pratique n≥30), on a
fn − µ fn fn − p
= ~ N (0,1)
σf n
p (1 − p )
n

28

14
28/12/2014

La distribution des différences de


moyennes
• On considère 2 populations P1 et P2 de taille
N1 et N2, de moyennes m1 et m2 et de
variances σ2X et σ2Y respectivement.
• On s’intéresse, dans de nombreux problèmes
à la différence m1-m2.
• On extrait de la population P1 un échantillon
(x1,x2,…,xn1) de taille n1 et de la population P2
un échantillon (y1,y2,…,yn2) de taille n2.
n
• On note X = 1 1
1 n
∑ i
2
X et Y = ∑Yj
n1 i =1 n2 j =1
29

Propriétés
1. µ X −Y = m1 − m2
En effet,
µ X −Y = E (X − Y ) = E (X ) − E (Y ) = m1 − m2
2. 1 2 1 2
σ X2 −Y = σ + σ
n1 X n2 Y
En effet,
σ X2 −Y = Var (X − Y ) = Var (X ) + Var (Y )
car X et Y sont indépendantes. On a donc le
résultat pour un tirage exhaustif (avec remise)
30

15
28/12/2014

Propriétés
• (suite 2°) Dans le cas d’un tirage non exhaustif
(sans remise), il faut tenir compte du
coefficient d’exhaustivité car
σ X2 N1 − n1 σ2 N −n
Var (X ) = et Var (Y ) = Y 2 2
n1 N1 − 1 n2 N 2 − 1
3. En supposant n1 et n2 grands, on peut dire
que X et Y suivent toutes deux des lois
normales. Comme elles sont indépendantes,
X − Y suit aussi une loi normale. On conclut
donc que (X − Y ) − µ X −Y = (X − Y ) − (m1 − m2 ) ~ N (0,1)
σ X −Y σ X2 σ Y2
+ 31
n1 n2

Exercice
On choisit au hasard six nombres parmi les
nombres entiers de 1 à 9, chacun de ces
nombres a la même probabilité d’être choisi.
Calculer la moyenne et l’écart-type de la
distribution d’échantillonnage des moyennes
dans les 2 cas:
1. Tirage sans remise.
2. Tirage avec remise.

32

16
28/12/2014

Solution
1+ 2 +⋯ + 9
1. La moyenne de la population est m = =5
9
Sa variance σ2 vaut: σ 2 = 1 [(1 − 5)2 + (2 − 5)2 + ⋯ + (9 − 5)2 ] = 6,67
9
L’écart-type est σ=2,58.
Il y a C96 = 84 façons de choisir six nombres parmi
les 9.
Chacun de ces 84 échantillons possibles a une
1 6
moyenne x = ∑ xi où xi (i=1,2,…,6)
n i =1
représente un des 9 nombres.
33

• Par exemple l’échantillon (3, 8, 7, 2, 5, 1) a


pour moyenne x = 4 , 33 .
• On obtient ainsi 84 moyennes et la moyenne
de la distribution d’échantillonnage des
moyennes µ X vaut µ X = m = 5 .
• La variance de la distribution
d’échantillonnage des moyennes est
σ2  N −n 6,67  9 − 6 
σ =
2
 =   = 0,417
X
n  N −1  6  9 −1 

• D’où σ X = 0,645
34

17
28/12/2014

2. Il y a 96= 531441 façons de choisir six nombres


parmi les 9. Chacun de ces échantillons a une
6
moyenne x = 1 ∑ x où xi (i=1,2,…,6)
i
n i =1
représente, comme précédemment, un des 9
nombres.
• Par exemple, l’échantillon (4, 3, 4, 5, 7, 8) donne
pour moyenne x = 5 ,17 . On obtient de cette
manière 531441 moyennes et la moyenne
distribution d’échantillonnage des moyennes µ X
vaut µ X = m = 5.
• La variance de la distribution d’échantillonnage
des moyennes est: 2 σ 2 6,67
σX = = = 1,11
• D’où σX =1,05 n 6

35

Annexe 1:
Tirage d’un échantillon

Tirage sans remise Tirage avec remise


(sans répétitions) (avec répétitions)

Non exhaustif Exhaustif

Les v.a. sont Les v.a. sont


dépendantes indépendantes

Loi utilisée Loi utilisée


hypergéométrique binomiale

36

18
28/12/2014

Annexe 2: Autre écriture des caractéristiques de la hypergéométrique


On a vu que pour une loi hypergéométrique H(n,a,b)

E(X ) = n
a nab(a + b − n )
et Var ( X ) =
a+b (a + b )2 (a + b − 1)
Mais, a+b=N alors,
nab(N − n )
E(X ) = n
a et Var ( X ) = 2
N N (N − 1)
La probabilité de tirer une boule blanche sera:
a a N −a b
p= et 1− p = q = 1− = =
N N N N

⇒ E ( X ) = np et Var ( X ) = npq
(N − n ) = np(1 − p) (N − n )
(N − 1) (N − 1)
37

19