Vous êtes sur la page 1sur 40

STATISTIQUE APPLIQUEE

Chap. I1: Introduction à la théorie


de l’échantillonnage

Rachid MCHICH
I - Introduction et définitions
L’étude des propriétés caractéristiques d’un
ensemble, quand on ne dispose pas encore de
données, nécessite d’examiner et d’observer des
éléments de cet ensemble.

La manière de recueillir ces données est appelée


théorie des sondages ou théorie de
l’échantillonnage (sampling theory).
Cette théorie concerne l’optimisation de la collecte
de données selon divers critères et répond à
certaines interrogations sur la façon de procéder à
cette collecte en rapport avec l’information
disponible et l’effort d’échantillonnage consenti.
Définitions :

•  Population : Un ensemble de personnes, d’objets


ou d’événements, base de l’étude statistique.

•  Echantillon : c’est un sous-ensemble de la


population, ayant les mêmes caractéristiques de la
population-mère, utilisé en vue d'inférer quelque
chose à propos de cette population.
•  Sondage : c’est l’observation partielle d’une
population statistique; c.à.d. l’observation d’une
partie de la population.

•  M é t h o d e d ’ é c h a n t i l l o n n age ( o u d e
sondage) : Procédure par laquelle on choisit dans
une population un sous-groupe représentatif.

Objectif : avoir un échantillon suffisamment


représentatif pour que les données puissent être
extrapolées à la population.
II – Méthodes d’échantillonnage :

II-1 Echantillonnages aléatoires :

Un échantillon aléatoire fournit un échantillon


représentatif dès lors que chaque individu de la
population a une probabilité connue et non nulle
d’être inclus dans l’échantillon.
Echantillonnage aléatoire simple (EAS) :

•  Un échantillon aléatoire simple de taille n,


issu d’une population finie de taille N, est un
échantillon sélectionné de manière à ce que
chaque échantillon possible de taille n ait la même
probabilité d’être sélectionné.
Un échantillon aléatoire simple, issu d’une
population infinie, est un échantillon sélectionné de
façon à ce que les conditions suivantes soient
satisfaites :

•  Chaque élément sélectionné provient de la même


population

•  Chaque élément est sélectionné de façon


indépendante
Exemple : Le directeur du personnel d’une société
est chargé d’identifier le profil de 2500 techniciens de
la société. Les caractéristiques concernent le salaire
annuel moyen des techniciens et la proportion des
techniciens ayant suivi une formation en management,
mis en place par la société.
En considérant les 2500 techniciens comme
population de l’étude et en utilisant des données déjà
disponibles sur le salaire de chaque technicien et en
consultant leurs dossiers, le directeur a pu calculer la
moyenne et l’écart type du salaire annuel pour la
population :
Ø  Moyenne de la population : µ = 51 800 dh

Ø  Ecart type de la population : σ = 4 000 dh

Ø  On sait aussi que 1500 parmi les 2500 techniciens ont
suivi la formation. D’où la proportion de la population
ayant suivi la formation :
1500
p= = 0, 60
2500
Ø  En absence d’informations nécessaires, on peut utiliser
un échantillon de techniciens au lieu des 2500
techniciens et voir comment on peut obtenir des
estimations des paramètres de la population.
Echantillonnage aléatoire stratifié :

—  Division de la population en sous groupes


appelés : strates.

—  Chaque élément apparaît dans une et une seule


strate.

—  L’élément de base qui définit une strate (un


service, un lieu, un âge, un type d’industries …
etc.) est laissé à la discrétion du créateur de
l’échantillon.
—  Sélection d’un échantillon aléatoire simple dans
chaque strate.

—  Critères de stratification : homogénéité des


sous groupes

—  Une bonne homogénéité implique une faible


variance et de bonnes estimations des
caractéristiques de la strate.
Echantillonnage par grappes :

—  Division de la population en sous groupes ou


grappes.

—  Chaque élément de la population appartient à


une et une seule grappe.

—  Sélection d’un échantillon aléatoire simple des


grappes

—  Tous les éléments contenus dans une grappe


sélectionnée forment l’échantillon.
Echantillonnage systématique :

—  Lorsque les populations sont importantes, il est


coûteux (en temps) de sélectionner un échantillon
aléatoire simple en trouvant tout d’abord un
nombre aléatoire et ensuite en cherchant dans la
liste de la population l’élément correspondant. Au
lieu d’un EAS on utilisera un échantillonnage
systématique.

—  Un échantillon systématique est généralement


supposé avoir les propriétés d’un EAS, surtout
lorsque la liste de la population est une
énumération aléatoire des éléments de la
population.
II-2 Echantillonnages non aléatoires :

On parle d’un échantillon non aléatoire (ou


empirique ou par choix raisonné) lorsque l’échantillon
est construit par des procédés comportant une part
d’arbitraire et ne permettant pas l’évaluation de la
précision d’estimation.

Les échantillons non aléatoires sont utilisés dans les


études qualitatives où il n’est pas envisagé une
extrapolation à la population statistique dans sa
globalité.
Echantillonnage de commodité :

Dans ce cas, les éléments sont inclus dans


l’échantillon sans probabilité connue ou pré-
spécifiée d’être choisis.

Par exemple, un professeur qui mène une


expérience à l’université peut utiliser des étudiants
volontaires pour constituer un échantillon
simplement parce qu’ils sont disponibles et
participeront en tant que sujets à l’expérience pour
un coût très faible ou même nul.
Echantillonnage subjectif :

Dans cette approche, la personne la mieux


documentée sur le sujet de l’étude sélectionne des
éléments de la population qu’elle pense être les plus
représentatifs de la population.

Par exemple, un journaliste peut choisir deux ou


trois personnes, en jugeant que l’opinion de ces
personnes reflète l’opinion générale.
Conclusion
—  Toutes les méthodes d’échantillonnage
peuvent être combinées
—  L a c o m p l e x i t é d e l a p ro c é d u re
d’échantillonnage entraine une complexité
des calculs
—  Il n’y a pas un critère standard de choix :
appel au bon sens et à l’expérience
Cependant, il est recommandé d’utiliser les
méthodes aléatoires au détriment des
méthodes non aléatoires, car des formules
permettent d’évaluer la qualité des
estimations des caractéristiques de la
population, fournies par les résultats de
l’échantillon.
III – Echantillonnage aléatoire simple

III-1 Estimation ponctuelle :


Supposons que (dans l’exemple précédent) un échantillon aléatoire
simple a été choisi avec les données correspondantes suivantes :

Salaire annuel Pgm de Salaire annuel Pgm de


(dh) formation (dh) formation
x1 = 49094,30 Oui x16 = 51766,00 Oui
x2 = 53263,90 Oui x17 = 52541,30 Non
x3 = 49643,50 Oui x18 = 44980,00 Oui
x4 = 49894,90 Oui x19 = 51932,60 Oui
x5 = 47621,60 Non x20 = 52973,00 Oui
x6 = 55924,00 Oui x21 = 45120,90 Oui
x7 = 49092,30 Oui x22 = 51753,00 Oui
x8 = 51404,40 Oui x23 = 54391,80 Non
x9 = 50957,70 Oui x24 = 50164,20 Non
x10 = 55109,70 Oui x25 = 52973,60 Non
x11 = 45922,60 Oui x26 = 50241,30 Non
x12 = 57268,40 Non x27 = 52793,90 Non
x13 = 55688,80 Oui x28 = 50979,40 Oui
x14 = 51564,70 Non x29 = 55860,90 Oui
x15 = 56188,20 Non x30 = 57309,10 Non
III-2 Distributions d’échantillonnage :

Supposons qu’on sélectionne un autre échantillon pour


lequel on a les estimations ponctuelles suivantes :

x = 52 670 dh p = 0, 70

Supposons qu’on répète le processus plusieurs fois en


calculant à chaque fois les estimateurs. Considérons
ainsi les tableaux suivants (avec 500 échantillons) :
Numéro de Moyenne Ecart type Proportion
l’échantillon d’échantillon d’échantillon d’échantillon
1 51 814,00 3 347,72 0,63
2 52 669,70 4 239,07 0,70
3 51 780,30 4 433,43 0,67
4 51 587,90 3 985,32 0,53
. . . .
. . . .
. . . .
500 51 752,00 3 857,82 0,50
Moyenne d’échantillon Fréquence Fréquence
relative
[49 500—50 000[ 2 0,004
[50 000—50 500[ 16 0,032
[50 500—51 000[ 52 0,104
[51 000—51 500[ 101 0,202
[51 500—52 000[ 133 0,266
[52 000—52 500[ 110 0,220
[52 500—53 000[ 54 0,108
[53 000—53 500[ 26 0,052
[53 500—54 000[ 6 0,012
Total 500 1,00

Distributions de fréquence de la moyenne d’échantillon


Considérons maintenant :
Ø  L’expérience aléatoire : sélection d’un E. A. S.
Ø  La v. a. : valeur de la moyenne d’échantillon x .

Par conséquent, x a une espérance mathématique, une


variance et une distribution (loi) de probabilité,
appelée: distribution d’échantillonnage de x .

La connaissance de cette distribution d’échantillonnage


et de ses propriétés nous permet de tirer des
conclusions en termes de probabilités quant à l’écart
entre la moyenne d’échantillon x et la moyenne de la
population µ .
III-2-1 Distributions d’échantillonnage de x :

La distribution d’échantillonnage de x correspond à la


distribution de probabilité de toutes les valeurs
possibles de la moyenne x . On a ainsi les résultats
suivants :
Ø  L’espérance mathématique de x est donnée par :
E(x) = µ

Ø  L’écart type est donné par :


N −n σ
-  Pour une population finie : σ x = ( )
N −1 n
σ
-  Pour une population infinie : σ x =
n
Forme de la distribution d’échantillonnage de x :

Théorème central limite:

En sélectionnant des échantillons aléatoires simples


de taille n d’une population, la distribution
d’échantillonnage de la moyenne d’échantillon x peut
être approchée par une distribution de probabilité
normale, lorsque la taille de l’échantillon devient
importante.
Remarques :

1.  En général, la moyenne et l’écart type de la


population ne sont pas connus. D’autres techniques
montrent comment sont utilisés la moyenne et
l’écart type de l’échantillon lorsque ceux de la
population sont inconnus.

2.  Le théorème central limite s’applique pour des


populations infinies ou finis dans lesquelles
l’échantillonnage est fait avec remise. Cependant, le
théorème reste valable pour un échantillonnage
sans remise mais pour une taille de la population
assez grande.
III-2-2 Distributions d’échantillonnage de p :

La distribution d’échantillonnage de p est l’estimateur


ponctuel de la proportion de la population p :
x
p=
n
Ainsi, l’espérance mathématique de p est donnée par :
E( p) = p

Et l’écart type est donné par :


N −n p(1− p)
-  Pour une population finie : σ p =
N −1 n
p(1− p)
-  Pour une population infinie : σp =
n
p(1− p)
A noter que la formule σp = est utilisée
lorsque : n

•  la population est infinie; ou


•  La population est finie et la taille de l’échantillon est
inférieur ou égale à 5% de la taille de la population,
c.à.d. n/N <= 0,05

σ p est appelé : l’erreur type de la proportion.

Pour notre exemple,


p(1− p) 0, 6(1− 0, 6)
σp = = = 0, 0894
n 30
Forme de la distribution d’échantillonnage de p :
On a : x
p=
n

Pour un EAS, la valeur de x est une v. a. binomiale,


indiquant le nombre d’éléments dans l’échantillon
possédant la caractéristique à laquelle on s’intéresse.

Et on a déjà vu qu’une loi binomiale peut être


approchée par une loi normale si :

np ≥ 5 et n(1− p) ≥ 5
Intérêt pratique 1: Supposons que le directeur de la
société considère comme acceptable une différence de
500 dh entre la moyenne d’échantillon et la moyenne de
la population. Autrement dit, quelle est la probabilité que
la différence entre les deux moyennes ne dépasse pas
500 dh?

Sachant que µ = 51800 , on veut que : 51300 ≤ x ≤ 52300


Intérêt pratique 2: Supposons que le directeur de la
société considère comme acceptable un écart d’au plus
0,05 entre la proportion d’échantillon et la proportion
de la population. Autrement dit, quelle est la probabilité
d’obtenir un échantillon dont la proportion soit
comprise entre 0,55 et 0,65?

Sachant que p = 0, 60 , on veut que : 0, 55 ≤ p ≤ 0, 65


V – Estimation par intervalle

V. 1 De la moyenne d’une population :

Ø  Lorsque σ est connu, l’estimation par


intervalle de la moyenne d’une population
est donnée par:
σ
x ± zα
2 n
Où :
1− α correspond au coefficient de confiance,

zα est la valeur z fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de probabilité normale
centrée réduite
Exemple : Le responsable d’un magasin sélectionne,
chaque semaine, un échantillon aléatoire simple de
100 clients pour connaître le montant des dépenses
réalisées par ces clients à chaque fois qu’ils font leurs
courses. Soit x le montant des dépenses à chaque
visite, la moyenne d’échantillon x fournit une
estimation ponctuelle du montant moyen des
dépenses à chaque visite.
On suppose la valeur de l’écart type connue : σ connu
et que la population suit une loi normale.
Si x = 820 dh, calculons la marge d’erreur et l’estimation par
intervalle de cette population.
Ø  Lorsque σ est inconnu, l’estimation par
intervalle de la moyenne d’une population
est donnée par:
s
x ± tα
2 n
Où :
s correspond à l’écart type de l’échantillon,

1− α correspond au coefficient de confiance

tα est la valeur t fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de Student avec n -1
degrés de liberté.
Exemple : Une étude vise à estimer le solde moyen des
ménages d’une petite ville. Un échantillon de n = 85 ménages
fournit les soldes du tableau suivant :

9619 6921 3678 968 4667 7979 5071 9980 8452


5364 5759 3581 4714 5219 3258 9536 8718 10658
8348 8047 5625 4334 6416 8660 4459 12545 5938
7348 3924 5619 4911 13627 7511 8047 4935 7888
381 3470 9032 1920 3091 4447 8083 13236 7644
2998 5994 4447 3780 943 6550 2153 5266
1686 4652 609 3478 8762 7581 8003 3910
1962 5376 414 6185 1407 7959 6795 7503
4920 5998 7636 1141 6644 2563 5915 1582
5047 7530 3344 7577 11169 6787 7164 14442

Calculons l’estimation par intervalle de la moyenne de la population


dans ce cas.
V. 2 De la proportion d’une population :

Ø  L’estimation par intervalle de la proportion


d’une population est donnée par:
p(1− p)
p ± zα
2 n
Où :

1− α correspond au coefficient de confiance,

zα est la valeur z fournissant une aire égale à α 2 dans la


2
queue supérieure de la distribution de probabilité normale.
Exemple : Une étude de satisfaction a été
menée auprès de 900 clients, dont 396 ont révélé
être satisfaits du produit présenté. Etudions
l’estimation par intervalle de la proportion de la
population.
V.3 Détermination de la taille d’échantillon :

Ø  La taille d’échantillon pour l’estimation par intervalle


de la moyenne d’une population est donnée par:

(zα )2 σ 2
2
n=
E2

Ø  La taille d’échantillon pour l’estimation par intervalle


de la proportion d’une population est donnée par:

(zα )2 p* (1− p* )
2
n=
E2
Exemple : Une étude sur le coût moyen de
location d’une catégorie de voitures était d’environ
550 dh.

Supposons que l’organisme responsable de cette


étude souhaite effectuer une nouvelle étude pour
estimer la moyenne, au niveau de la population du
coût de location actuel, par jour, d’une voiture de la
même catégorie. Le directeur du projet a spécifié
que la moyenne de la population du coût de
location par jour devrait être estimée avec une
marge d’erreur de 20 dh et un seuil de confiance de
95%.

Déterminons alors la taille de l’échantillon.

Vous aimerez peut-être aussi