Vous êtes sur la page 1sur 41

Statistique II

1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 1 / 41
Statistique II
1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 2 / 41
Statistique II
1e année bachelor, 2010-11

Définitions
 En général, l’inférence est définie comme une opération
mentale qui consiste à tirer une conclusion d’une série de
propositions reconnues pour vraies. Ces conclusions sont tirées
à partir de règles de base.
 L’inférence statistique est définie comme le processus
d’utilisation des données d’un échantillon pour estimer ou tester
des hypothèses sur les caractéristiques numériques
(« paramètres ») d’une population.
 Une population (ou « population mère ») est définie comme
l’ensemble de tous les éléments d’intérêt dans une étude
particulière.
 Un échantillon est défini comme un sous-ensemble de la
population.
Chapitre 1
L’échantillonnage 3 / 41
Statistique II
1e année bachelor, 2010-11

Pourquoi prendre un échantillon ?


 Le coût : recenser toute la population coûte trop cher et/ou
prend trop de temps
→ Recensement de la population 2010 : recensement
traditionnel (questionnaire à tous les ménages, fait tous les
10 ans depuis 1850) aurait coûté 200 millions ; proposition du
Conseil fédéral (échantillonnage + recensement fondé sur les
registres coûte 124 millions [estimations faites en 2006])
→ Management : contrôle de qualité (gestion des opérations) ;
audit (comptabilité) ; sondage clients (marketing) ; etc.
→ Économie : Étant donné l’impossibilité d’examiner chaque
être humain, toute étude empirique d’hypothèses générales
en sciences sociales doit être basée sur des échantillons,
soit d’individus soit de groupes d’individus (ménages, firmes,
industries, pays,...)
Chapitre 1
L’échantillonnage 4 / 41
Statistique II
1e année bachelor, 2010-11

Un exemple fictif : Statville


 Commune Statville : 2500 habitants adultes (= population)
 Syndic s’intéresse à la distribution des revenus parmi ces
habitants et à la participation des habitants à la dernière
assemblée communale (ils étaient trop nombreux pour être
comptés)
 Interroger tous les 2500 habitants serait trop cher
 Budget permet d’interroger un échantillon de 30 habitants
 Paramètres de la population (inconnus par le syndic !) :
o Revenu moyen (): 51800 francs
o Ecart-type du revenu (): 4000 francs
o Taux de participation à la dernière assemblée (p) : 60%
 Que devrait faire le syndic ?
Chapitre 1
L’échantillonnage 5 / 41
Statistique II
1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 6 / 41
Statistique II
1e année bachelor, 2010-11

L’échantillonnage aléatoire simple


 Population de N éléments ; échantillon de n éléments
 Définition pour une population finie (N connu): tous les
éléments de la population ont la même probabilité de faire partie
de l’échantillon
→ Probabilité qu’un élément de la population soit contenu dans
l’échantillon est n/N.
 Définition pour une population infinie (N inconnu): les éléments
de l’échantillon sont sélectionnés indépendamment de la même
population
 Echantillonnage sans remise (chaque élément ne peut être
sélectionné qu’une fois) :
o Nombre d’échantillons possibles = C = N!/(n!(N-n)!)
o Probabilité qu’un échantillon particulier soit tiré = 1/C
o Exemple Statville : C ≈ 2.75 * 1069
Chapitre 1
L’échantillonnage 7 / 41
Statistique II
1e année bachelor, 2010-11

Comment obtenir un échantillon aléatoire


simple ?
 Critère : probabilité de sélection indépendante de toute
caractéristique des éléments de la population
 Population finie :
 Tirage au sort
 Choix avec nombres aléatoires à partir d’une liste des
éléments [Excel : =ALEA() génère des nombres aléatoires
entre 0 et 1]
 Population infinie (processus continu dans le temps) :
→ Sélectionner selon une loi de Bernoulli [Excel :
=SI(ALEA()>=P;″oui″;″non″) répond « oui » dans
(1 P) pourcent de cas]
→ Trouver astuce (exemple contrôle douanier : examiner
chaque voiture arrivant après une voiture orange)
Chapitre 1
L’échantillonnage 8 / 41
Statistique II
1e année bachelor, 2010-11

Autres types d’échantillon


 Echantillon aléatoire stratifié
→ Critère : strates homogènes
→ Difficulté de la pondération représentative des strates
→ Statville : sélectionner aléatoirement des individus selon le
niveau d’éducation
 Échantillon aléatoire par grappes
o Critère : grappes composées de façon hétérogène et donc
représentative
o Statville : sélectionner aléatoirement des ménages/quartiers
 Échantillonnage subjectif
→ Critère : échantillon qui semble représentatif
→ Statville : syndic choisit 30 individus qui lui semblent
représentatifs de la population municipale
→ Évidemment problématique (danger de biais de sélection) !
Chapitre 1
L’échantillonnage 9 / 41
Statistique II
1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 10 / 41
Statistique II
1e année bachelor, 2010-11

Bases

 But : estimer la valeur d’un paramètre de la population


(« estimation ponctuelle »)

 Méthode : calculer la statistique d’échantillon correspondante


→ « Méthode des moments » : prendre moment de
l’échantillon comme estimateur du moment de la population
→ Statistiques d’échantillon : toute mesure de tendance
centrale, de dispersion, etc.

Chapitre 1
L’échantillonnage 11 / 41
Statistique II
1e année bachelor, 2010-11
ind. revenu participation revenu participation
1 49094.3 1 Somme 1554420 19

Exemple 2
3
53263.9
49643.5
1
1
Moyenne
Ecart type
51814
3347.7
0.63
0.49
4 49894.9 1
Statville (1) 5
6
47621.6
55924.0
0
1
7 49092.3 1
8 51404.4 1
Échantillon aléatoire 9 50957.7 1
10 55109.7 1
de 30 individus 11 45922.6 1
12 57268.4 0
13 55688.8 1
14 51564.7 0
15 56188.2 0
16 51766.0 1
17 52541.3 0
18 44980.0 1
19 51932.6 1
20 52973.0 1
21 45120.9 1
22 51753.0 1
23 54391.8 0
24 50164.2 0
25 52973.6 0
26 50241.3 0
27 52793.9 0
28 50979.4 1
29 55860.9 1
30 57309.1 0
Chapitre 1
L’échantillonnage 12 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (2)


 Revenu : moyenne de l’échantillon

x  revenui 1554420
  51814    51800
n 30
 Revenu : écart type de l’échantillon

s  ( revenu i -x )2

325009260
 3348    4000
n -1 29
 Participation : moyenne de l’échantillon

p  participationi 19
  0.63  p  0.60
n 30
 Les estimations ponctuelles ne correspondent pas exactement
aux paramètres de la population  que faire ?

Chapitre 1
L’échantillonnage 13 / 41
Statistique II
1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 14 / 41
Statistique II
1e année bachelor, 2010-11

Bases
 Idée de départ : répéter la sélection d’un échantillon multiples
fois et étudier comment se comportent les statistiques de
l’échantillon par rapport aux paramètres correspondants de la
population
→ En moyenne, la statistique de l’échantillon a-t-elle tendance
à être proche du paramètre « vrai » correspondant, ou y a-t-
il une divergence systématique (c.à.d. un « biais ») ?
 Distribution d’échantillonnage = distribution de probabilité de
toutes les valeurs possibles d’une statistique de l’échantillon
→ Puisque la sélection d’échantillons suit un processus
aléatoire, les statistiques de l’échantillon sont elles-aussi
des variables aléatoires et suivent donc un distribution de
probabilité
Chapitre 1
L’échantillonnage 15 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (1)


 Supposons (pour fixer les idées, pas parce-que ce serait réaliste
ou intelligent) que le syndic ait les moyens de répéter
l’expérience initiale multiples fois, c.à.d. de resélectionner des
échantillons aléatoires de taille 30 parmi les habitants de
Statville.
 Pour chacun de ces échantillons, il calcule x , s et p.
 Ensuite il résume les valeurs de chacune de ces trois statistiques
d’échantillon p.ex. sous forme d’un histogramme
 approximation empirique de la distribution d’échantillonnage
 Excel : un histogramme peut être dessiné via les menus Outils
– Utilitaire d’analyse (installer via Macro complé-
mentaire) – Histogramme (Représentation graphique)
voir aussi Utilitaire d’analyse – Génération de
nombres aléatoires et Échantillonnage
Chapitre 1
L’échantillonnage 16 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (2)


 Valeurs de x , s et p obtenues à partir de 500 échantillons
aléatoires simples de 30 habitants
revenu: revenu: participation:
échantillon
moyenne ( x ) écart type (s ) moyenne ( p )

1 51814 3347.7 0.63


2 52670 4239.1 0.70
3 51780 4433.4 0.67
4 51588 3985.3 0.53
... ... ... ...
500 51752 3857.8 0.50
moyenne 51808 3995.4 0.61
écart type ( sx x, ,spp) 729.4 0.0896
Chapitre 1
L’échantillonnage 17 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (3)


 Distribution de fréquence de x obtenue à partir des 500
échantillons
revenu: fréquence
fréquence
moyenne relative
49500-49999 2 0.004
50000-50499 16 0.032
50500-50999 52 0.104
51000-51499 101 0.202
51500-51999 133 0.266
52000-52499 110 0.220
52500-52999 54 0.108
53000-53499 26 0.052
53500-53999 6 0.012
Total 500 1
Chapitre 1
L’échantillonnage 18 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (4)


 Histogramme de la
0.3

fréquence relative
0.25
des valeurs de x
obtenues à partir 0.2

fréquence relative
des 500
échantillons 0.15

 Approximation 0.1

empirique de la
distribution 0.05

d’échantillonnage
de x ! 0
49500- 50000- 50500- 51000- 51500- 52000- 52500- 53000- 53500-
49999 50499 50999 51499 51999 52499 52999 53499 53999

Chapitre 1
L’échantillonnage 19 / 41
Statistique II
1e année bachelor, 2010-11

L’espérance

 La moyenne de la variable aléatoire x si le nombre


d’échantillons tend vers l’infini (« moyenne des moyennes »)
correspond à l’espérance mathématique de x , E( x ).
 Rappel :  = moyenne de la population (le paramètre « vrai »)
 On peut montrer que E( x ) =  .
 La moyenne d’un échantillon aléatoire est un estimateur
non-biaisé de la moyenne de la population.

Chapitre 1
L’échantillonnage 20 / 41
Statistique II
1e année bachelor, 2010-11

L’erreur type
 Soit  x l’écart type de la distribution d’échantillonnage de x ,
désormais dénommé « erreur type ».
   N n
 On peut montrer que  x    .
 n  N 1
 Pour une population infinie (N  ), on a  x = ( n) .
N n
 = « facteur de correction pour une population finie »
N 1
 Règle pratique : ( n ) est une approximation satisfaisante si la
population est finie et nN  0.05.
N n
→ Statville : nN = 302500 = 0.012   0.994  1
N 1
Chapitre 1
L’échantillonnage 21 / 41
Statistique II
1e année bachelor, 2010-11

La distribution d’échantillonnage toute


entière (1)
 Nous avons défini la moyenne et l’écart type de la distribution
d’échantillonnage de la moyenne. Pouvons nous définir la
distribution d’échantillonnage toute entière ? Oui !
 Résultat 1 : Si les données de la population suivent une
distribution normale, la distribution d’échantillonnage de x est
normale elle aussi, quelle que soit la taille de l’échantillon n.
o Cas plutôt rare
o Inspecter histogramme
o On peut tester formellement l’hypothèse selon laquelle un
certain échantillon est tiré d’une population qui suit une
distribution normale (p.ex. test du Khi-deux, ch. 3.3.5)
Chapitre 1
L’échantillonnage 22 / 41
Statistique II
1e année bachelor, 2010-11

La distribution d’échantillonnage toute


entière (2)
 Résultat 2 : Si les données de la population ne sont pas
distribuées selon une loi normale, on peut appliquer le théorème
centrale limite :

Pour des échantillons aléatoires simples, la distribution


d’échantillonnage de x peut être approchée par une distribution
de probabilité normale, lorsque la taille de l’échantillon devient
importante.

Chapitre 1
L’échantillonnage 23 / 41
Statistique II
1e année bachelor, 2010-11

La distribution d’échantillonnage toute


entière (3)
 Formellement, avec un échantillon aléatoire simple :

x  
x  N (  , x ) ,   z   N (0,1) ,
 x 
2
 x  
0.5 
1
où x  N (  , x )  f  x   e  x 
,
 x 2
1 0.5 z 2
et z  N (0,1)  f  z   e .
2

 Règle pratique approximative : le théorème centrale limite peut


être invoqué pour des échantillons de taille n  30.
Chapitre 1
L’échantillonnage 24 / 41
Statistique II
1e année bachelor, 2010-11

Illustration
du théorème
centrale limite (1)

Chapitre 1
L’échantillonnage 25 / 41
Statistique II
1e année bachelor, 2010-11

Illustration du théorème centrale limite (2)

Chapitre 1
L’échantillonnage 26 / 41
Statistique II
1e année bachelor, 2010-11

Illustration du théorème centrale limite (3)

Chapitre 1
L’échantillonnage 27 / 41
Statistique II
1e année bachelor, 2010-11

Illustration du théorème centrale limite (4)

Chapitre 1
L’échantillonnage 28 / 41
Statistique II
1e année bachelor, 2010-11

Illustration du théorème centrale limite (5)

Chapitre 1
L’échantillonnage 29 / 41
Statistique II
1e année bachelor, 2010-11

Illustration du théorème centrale limite (6)

Chapitre 1
L’échantillonnage 30 / 41
Statistique II
1e année bachelor, 2010-11

Le cas de p
 Continuons à supposer qu’on ait un échantillon aléatoire simple.
 L’espérance mathématique de la variable aléatoire p (moyenne
dans l’échantillon de la mesure de proportion p) est donnée par :
E( p ) = p  p est un estimateur non-biaisé de p

p(1  p ) N  n
 L’erreur type de p est donné par :  p  ;
n N 1
p(1  p )
et, pour une population infinie, par :  p  .
n
 La distribution d’échantillonnage toute entière peut être
approchée par une distribution de probabilité normale lorsque
np  5 et n(1  p )  5 (règle pratique approximative ; basée sur la
convergenence de la loi binomiale avec la loi normale).
Chapitre 1
L’échantillonnage 31 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville :
distribution d’échantillonnage de la moyenne

Chapitre 1
L’échantillonnage 32 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville :
distribution d’échantillonnage d’une proportion

Chapitre 1
L’échantillonnage 33 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville :
erreur type et taille de l’échantillon

Chapitre 1
L’échantillonnage 34 / 41
Statistique II
1e année bachelor, 2010-11

Chapitre 1 : L’ÉCHANTILLONNAGE

1.1 Introduction
1.2 L’échantillonnage aléatoire
1.3 Estimation ponctuelle
1.4 Distributions d’échantillonnage
1.5 Intervalles de probabilité

Chapitre 1
L’échantillonnage 35 / 41
Statistique II
1e année bachelor, 2010-11

Base
 Lorsqu’on a un échantillon, il est hautement improbable que les
statistiques de l’échantillon ( x , p ) correspondent exactement aux
paramètres de la population (, p)
 Que peut-on dire sur la probabilité que la valeur d’une statistique
particulière soit « proche » du paramètre de la population, ou
« proche » signifie un écart maximum de M ?
 Les distributions d’échantillonnage contiennent la réponse !
 Statville :
o Quelle est la probabilité que le revenu moyen de
l’échantillon, x , soit à 500 francs près du revenu moyen de la
commune,  ?  (M = 500)
o Quelle est la probabilité que la proportion des participants de
l’échantillon, p , soit à 5 points de pourcentage près de la
proportion totale, p ?  (M = 0.05)
Chapitre 1
L’échantillonnage 36 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (1)


 Probabilité que le revenu moyen d’un échantillon de taille 30 soit
à  500 francs près du revenu moyen de la population  ?
x 
 Rappel :    N (0,1)
 x 
 x    M  500
 4000
 n  30 :  x    730.3 (inconnu par le syndic !)
n 30

 500   500 
 P (   500  x    500 n  30)  P  Z    P Z  
 730.3   730.3 

Chapitre 1
L’échantillonnage 37 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (2)


 500 730.3

 Moyenne : M  500, n  30
 P (   500  x    500 n  30)  P ( 0.68  Z  0.68)  0.50

* *

* voir la Table 1, p. 730, du


manuel de Anderson et al.,
où F(z)  P(0 < Z < z)

Chapitre 1
L’échantillonnage 38 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (3)  500 400

 Moyenne : M  500, n  100


 P (   500  x    500 n  100)  P ( 1.25  Z  1.25)  0.79

* *

* voir la Table 1, p. 730, du


manuel de Anderson et al.,
où F(z)  P(0 < Z < z)

Chapitre 1
L’échantillonnage 39 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (4)  0.05 0.089

 Proportion : M  0.05, n  30
 P ( p  0.05  p  p  0.05 n  30)  ( 0.56  Z  0.56)  0.42

* *

* voir la Table 1, p. 730, du


manuel de Anderson et al.,
où F(z)  P(0 < Z < z)

Chapitre 1
L’échantillonnage 40 / 41
Statistique II
1e année bachelor, 2010-11

Exemple Statville (4)

 Grand problème : le syndic ne connaît pas 

 Que faire pour juger de la fiabilité des estimations basées sur


son échantillon?

 Attendre le chapitre prochain...

Chapitre 1
L’échantillonnage 41 / 41

Vous aimerez peut-être aussi