Vous êtes sur la page 1sur 15

Chapitre 4:

Echantillonnage

I. Echantillons représentatifs et échantillons biaisés


Le but principal de la statistique est de déterminer les caractéristiques d’une
population donnée à partir de l’étude d’une partie de cette population, appelée
échantillon.

La façon de sélectionner l’échantillon est aussi importante que la


manière de l’analyser.

Il faut que l’échantillon soit représentatif de la population.

Méthodes du choix de l’échantillon


1- L'échantillonnage aléatoire: Chaque élément de cette échantillon a la même
probabilité d'être choisi que tous les autres éléments de la population visée.

2- L'échantillonnage par grappes: il s'agit de subdiviser une population homogène


en grappe (sous-groupe) et à choisir aléatoirement des grappes et à tout considérer les
éléments de chaque grappe.

Exemple : les classes d’un établissement d’enseignement Supérieur (Exemple : 1HA,


2TOPO, 3TV de l’ESIM)

3-L'échantillonnage systématique: Cette méthode consiste à dresser la liste de tous


les éléments de la population visée et de déterminer le rapport suivant:

(nombre d'éléments de la population) / (Taille de l'échantillon)

Exemple:Un bottin téléphonique contient 4000 noms. Je veux un échantillon de 200


individus. Je vais faire 4000/200 = 20.

Alors, à partir du début du bottin, on choisit le 20ième, le 40ième, le 60ième, toujours


en faisant des bonds de 20.

1
4-L'échantillonnage stratifiée: il s'agit de subdiviser une population hétérogène en
strate (sous-groupe). Cette méthode consiste à retrouver dans l'échantillon les mêmes
proportions pour chacune des strates selon les caractéristiques choisies pour l'étude
dans la population visée.

Exemple 1: J'ai un stock de 200 lampes électronique de deux types : L45 et L85.

Type Nombre de lampes

L45 84

L85 116

L45: 84 lampes==> 42% du stock


L85: 116 lampes ==> 58% du stock
84 + 116 = 200 lampes du stock

Je veux un échantillon de 50 lampes et je veux qu'il représente fidèlement ma


population. Je vais donc utiliser les proportions pour obtenir quelque chose de
représentatif.
L45: 50 * 42% = 21
L85: 50 * 58% = 29
21 + 29 = 50 lampes du stock

Exemple 2:
Nous désirons déterminer la taille moyenne des étudiants de l’ESIM qui étaient
présents au 1er cours de statistique, à partir d’un échantillon de 10 individus.

(la réponse exacte, pour la population totale de 86 étudiants, est de 174,0 cm).
Mus par une bonne intention, sachant que les garçons sont, en général, plus grands
que les filles, nous choisissons un échantillon contenant autant de filles que de
garçons.

Soient 5 filles et 5 garçons choisis au hasard :


Taille des filles (cm) Taille des garçons (cm)
171 193
165 187
173 180
174 185
166 178

2.
A partir de cet échantillon de 10 individus, nous obtenons une taille moyenne de
177,2 cm, soit 3,2 cm de plus que la valeur exacte.
Avons-nous procédé correctement au choix de l’échantillon, sachant que la
population contient 51 filles et 35 garçons ?
Non, car chaque garçon avait plus de chances d’être choisi que chaque fille.

En effet, les 5 garçons étant tirés au hasard dans une population de 35 individus,
chacun d’eux avait 5 chances sur 35 d’être choisi, soit une probabilité de 5/35 ≅
0,143.

Les 5 filles étant choisies dans une population de 51 individus, chacune d’entre elles
avait 5 chances sur 51 d’être choisie, soit une probabilité de 5/51 ≅ 0,098, donc
nettement plus faible que pour les garçons.

Nous avons biaisé l’échantillon en faveur des garçons. Il n’est donc pas surprenant
que nous obtenions un résultat trop élevé.
La manière correcte de procéder est de choisir au hasard dans toute la population,
sans considération du sexe.

Un tel tirage au hasard a donné les tailles suivantes (en cm) :

187, 165, 180, 168, 165, 160, 174, 183, 168, 176

La moyenne de l’échantillon est de 172,6 cm.

Elle est plus proche de la valeur exacte (erreur de − 1,4 cm).

[En fait, vu les petits échantillons utilisés, le hasard aurait pu donner un résultat
inverse. Ce sera beaucoup moins probable pour de grands échantillons. Le
raisonnement est néanmoins valable en toute généralité].

Une autre manière de procéder est d’utiliser la technique des quotas.

Sachant que la population étudiée contient 35/86 ≅ 40% de garçons et 51/86 ≅ 60%
de filles, nous pourrions nous assurer que l’échantillon respecte les mêmes
proportions, soient 4 garçons et 6 filles.
Exercice :

Les échantillons suivants sont-ils représentatifs de la population visée ?

1. Pour connaître les opinions politiques de la population d’une ville, on envoie 5


enquêteurs pour interroger les gens à la sortie de 5 grands magasins. Ils doivent
questionner les clients jusqu’à ce qu’ils réunissent, chacun, un échantillon de
200 réponses.

3.
R.: Non, car les clients des supermarchés ne sont pas typiques de l'ensemble de
la population (en général, dans un ménage, c'est toujours la même personne
qui fait les courses; l'échantillon contiendra probablement trop de femmes,
d'inactifs,…)
2. On désire faire une enquête sur les goûts musicaux de la population tunisienne.
Pour cela, on choisit au hasard 1000 numéros de téléphone dans l’ensemble des
annuaires et on les appelle pendant les heures de bureau. On obtient 583
réponses.

R.: Non car cet échantillon élimine pratiquement tous les individus actifs
(étudiants, travailleurs, …).
Une amélioration de cet échantillon consisterait à téléphoner en soirée et à
répéter l'appel pendant plusieurs jours si on n'obtient pas de réponse, de
telle manière que l'échantillon obtenu se rapproche le plus possible de
l'échantillon sélectionné.
1. Pour me faire une idée du niveau de la classe, je prends les étudiants des 2
premières rangées et je les questionne. Est-ce un échantillon représentatif ?
R : Cet échantillon n'est pas représentatif car:

• les élèves qui se mettent aux 1ers rangs ne sont pas représentatifs de la
moyenne. Il faudrait les tirer au hasard.

• les élèves présents auront probablement une meilleure cote en moyenne


que les absents.

Ces exemples illustrent la difficulté de réunir un échantillon représentatif, surtout


lorsqu’il s’agit d’êtres humains (certains sont plus faciles à joindre, d’autres refusent
de répondre,…).

II. Précision des Indicateurs Issus de l’Echantillonnage


Nous supposons maintenant que notre échantillon est représentatif de la population
mère. Nous cherchons à savoir si les indicateurs statistiques (la moyenne, la prportion
et l’écart type) calculés à partir de l’échantillon sont proches de ceux de la
population mère. Si c’est le cas, on l’appelle « Estimateur sans Biais ».
Nous désirons savoir quelle est la précision de cette estimation, afin de connaître de
quelle quantité la vraie valeur est susceptible de s’écarter de notre estimation.

En fait, la précision va dépendre :


de la taille de l’échantillon
de la dispersion de la population
4.
Population 1 et 2

n
o
m
b
r
e

valeur
individus de l'échantillon

Dans la première population : peu dispersée, toutes les valeurs de l’échantillon seront
forcément proches de la moyenne. Dans la deuxième population : plus dispersée, les
valeurs de l’échantillon seront généralement plus éloignées de la moyenne. La
moyenne de l’échantillon pourra donc s’écarter plus fortement de celle de la
population.
Soient:

n le nombre d’individus dans l’échantillon,


σ l’écart type de la population
Alors, la précision de la moyenne peut être mesurée par un écart type sur la
moyenne :

σ
( )
σ X =
n

La précision sur la valeur moyenne sera donc d’autant meilleure que :


1. la population sera peu dispersée (σ petit)
2. l’échantillon sera grand (n grand)

La présence d’une racine carrée au dénominateur implique que :


pour une précision 2 fois meilleure, il faut un échantillon 4 fois plus grand.
pour une précision 10 fois meilleure, il faut un échantillon 100 fois plus
grand.

→ la précision coûte cher !

III. Types d’Estimateurs


a. Estimateur Ponctuel :
5.
L’estimateur est une mesure approximative de l’un des paramètres de la population mère
(moyenne, proportion ou écart type) sous forme d’un chiffre (par opposition à
l’intervalle de confiance).
Les estimateurs sont vus dans le chapitre précédent.
Un estimateur de bonnes propriétés est celui : (1) sans biais et (2) convergent.

1. Un estimateur T d'un paramètre est dit sans biais si et seulement si E(T) =

2. Un estimateur T d'un paramètre est dit convergent si et seulement

Exemple :

1. Dans la population de 151 filles de l’ESIM, la taille moyenne est de

µ = 167,9 cm

(nous noterons µ la valeur moyenne – généralement inconnue – pour la


population et X la valeur moyenne pour l’échantillon)
L’écart type sur la taille est de:

σ = 5,3 cm

Si on estime la taille moyenne à partir d’un échantillon de 4 personnes, on aura


une précision (écart type) sur la moyenne de
5,3 5,3
( )
σ X = =
2
= 2,65 cm
4

A partir d’un échantillon de 10 personnes, l’écart type serait de :


5,3
σ X =( ) ≅ 1,7 cm
10

2. Nous désirons déterminer la taille moyenne des étudiants ESIM.


Nous disposons d’un échantillon de 35 étudiants de l’ESIM.

Si cet échantillon est représentatif, sa taille moyenne est une estimation de celle
de la population en question.
Elle est de 182,9 cm.
Pour estimer la précision de cette moyenne, il faudrait connaître l’écart type de la
taille pour toute la population considérée, ce qui n’est pas le cas.

6.
Si notre échantillon n’est pas trop petit (en principe, au moins 100 individus),
nous pouvons remplacer l’écart type σ de la population par l’écart type s de
l’échantillon.
Dans ce cas, il vaut s = 6,7 cm

La précision sur la moyenne serait donc de :


6,7
( )
σ X = ≅ 1,1 cm
35
Comme pour la moyenne, nous réserverons les lettres grecques pour les grandeurs
relatives à la population et les caractères romains pour les grandeurs correspondant à
l’échantillon.
moyenne écart type

population µ σ

Échantillon X s
(estimateur)

Écart type de la moyenne : σ( X )

Si l’écart type de la grandeur analysée dans la population n’est pas connu, on peut le
remplacer par l’écart type calculé dans l’échantillon, pour autant que cet échantillon
soit suffisamment grand.

s
( )
σ X ≅ (si n ≥ 30 )
n

b. Intervalles de confiance
Nous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie
moyenne µ de la population.

Nous voudrions estimer également la précision de cette moyenne, c'est-à-dire donner


une marge d'erreur ou un intervalle de confiance.
Nous pouvons utiliser les tables des lois statistiques pour estimer ces intervalles de
confiance en fonction de la disponibilité des parametres de la population mère et de
taille de l’échantillon. Ces lois sont récapitulés comme suit :

7.
Paramètre à
loi de la population statistique loi
estimer
Loi Normale X −µ N(0 ; 1)
n<30 connu
σ
n
X −µ Student(n-1)
inconnu
S
moyenne n
quelconque X −µ ~ N(0 ; 1)
n > 30 connu
σ
n
X −µ ~ N(0 ; 1)
inconnu
S
n
Normale
variance connu à n d.d.l

inconnu à (n-1) d.d.l

Proportion n>50 F−P ~ N(0 ; 1)

p (1 − p )
n

8.
9.
Exemple 2 :

1. Une organisation de consommateurs désire savoir si le poids réel des pains de


800gr produits dans une boulangerie est bien conforme au poids annoncé.

Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids moyen de
780 gr, avec un écart type de 80 gr.

Quelle est la probabilité que le boulanger triche en moyenne sur le poids de ses
pains?
n = 100 X = 780 gr s = 80 gr
s 80
Ecart type de X: ( )
σ X = = = 8 gr
n 100

Il n'y a pas tricherie si µ est de 800 gr au moins, c'est-à-dire 20 gr au-dessus de X.


20 20
z0 = = = 2,5
( )
σX 8

D'après la table, la probabilité que µ soit supérieur à X d'au moins 2,5 σ( X ) est
de 0,006.
100 - 100 × 0,006 = 100 - 0,6 = 99,4

Il y a 99,4 % de chance pour que le boulanger triche

→ on peut raisonnablement conclure à la tricherie !


2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au résultat
suivant :
n = 100 X = 795 gr s = 50 gr
s 50
( )
σ X = = = 5 gr
n 100
800 − 795 5
z0 = = =1
5 5

D’après la table, la probabilité que µ soit supérieur ou égal à 800 gr est de 0,159.

Il y a donc 84,1 % de chances que ce boulanger triche.

Même si la présomption est forte, ce n’est pas vraiment suffisant pour conclure à
la tricherie !

3. Dans une troisième boulangerie, on obtient :


n = 100 X = 810 gr s = 50 gr
s 50
( )
σ X = = = 5 gr
n 100

10.
800 − 810 10
Z0 = = − = −2
5 5
D'après la table, la probabilité que µ soit inférieur ou égal à 800 gr est de 0,023.

Il n'y a que 2,3 % de chances que ce boulanger triche.

On peut conclure qu'il est honnête !

4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève à 62 000


DT net par mois, avec un écart type de 16 000 DT.

a. Quelle est la probabilité que le revenu moyen de l'ensemble de la population


soit inférieur à 60 000 DT ?
Solution: n = 16 X = 62000 s = 16000
s 16000 16000
()
σX = = =
4
= 4000
n 16
δ = 60000 − 62000 = −2000
δ 2000
z0 = = = 0,5
( )
σ X 4000
< 60 000: s'écarte de X de plus de 0,5×σ( X )

→ on prend la valeur de la table

Prob = 0,309 = 30,6 %


b. Quelle est la probabilité que le revenu moyen de la population soit inférieur à
65 000 DT ?
Solution: δ = 65000 − 62000 = 3000
δ 3000
Z0 = = = 0,75
( )
σ X 4000

< 65000: ne s'écarte pas de X de plus de 0,75 ×σ( X ) vers le haut

→ on prend la valeur p de la table et on calcule 1-p

p = 0,227
1-p = 0,773 = 77,3 %

5.5. Comparaison de deux échantillons indépendants


Des échantillons sont indépendants lorsqu’une modification dans l’un d’eux n’a pas
d’influence sur les autres.

11.
Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour
déterminer le poids moyen des filles et celui des garçons sont indépendants.
Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans
un sondage politique ne forment pas deux échantillons indépendants car si une
personne de plus déclare voter pour A, il y a un électeur potentiel en moins pour B
(les résultats de A et B s’influencent).

La différence moyenne est simplement:

X D = X1 − X 2

Son écart type est donné par:

( )2
σ D = σ1 X + σ 2 X ( ) 2

(formule approchée, mais suffisamment précise)

Pour la taille des filles et des garçons:

X D = 182,9 − 167,9 = 15 cm
σ D = 0,742 + 1,132 = 1,35 cm

L'intervalle de confiance à 95 % est de:

2 × 1,35 = 2,7 cm
XD = 15,0 ± 2,7 cm

Si nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus
grands, en moyenne, que les filles?
différence moyenne de taille: XD = 15,0 cm
écart type de cette différence: σD = 1,35 cm
nombre d'écarts types au-dessus de 0 cm (0 cm ≡ pas de différence de taille)
15,0
z0 = = 11,1111
1,35

Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la
moyenne de plus de 11 σ est inférieure à 2.10-28 et donc complètement négligeable.

Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence
de taille soit due au hasard.

12.
Exemple

On sélectionne un échantillon de 25 paysans dans la région de Medjez El Bab. La


superficie de leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5
hectares.
Pour un échantillon de 16 paysans bordures, la superficie moyenne des terres est de
26 hectares, avec un écart type de 8 hectares.

Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus de terres
que les bordures ?

Solution:
Ces échantillons sont indépendants.

• échantillon syldave: n1 = 25
X 1 = 24 s1 = 5
5 5
( )
écart type sur la moyenne: σ X 1 = = =1
25 5

• échantillon bordure: n2 = 16 X 2 = 26 s2 = 8
8 8
écart type sur la moyenne: σ (X 2 ) = = =2
16 4

différence moyenne: (syldave-bordure):


X D = X 1 − X 2 = 24 − 26 = −2

écart type sur la différence:

σ D = σ X1( ) 2
( )
+σ X2
2
= 12 + 2 2 = 5 ≅ 2,24

les syldaves ont plus de terre en moyenne que les bordures si la différence est
>0→s'écarte de la valeur moyenne calculée de plus de 2
δ 2
z0 = = ≅ 0,89
σ D 2,24

table→Prob = 0,187 = 18,7 % de chances que la superficie moyenne soit supérieure


en Syldavie.

3.3. Un exemple d’échantillonnage statistique : l’audimat

13.
Une application courante des sondages statistiques est l’estimation de l’audience des
émissions de télévision. Nous allons passer en revue quelques-unes des méthodes
utilisées, en présentant leurs principaux avantages et inconvénients.

Cet exemple illustre bien les difficultés auxquelles on peut parfois se heurter pour
réunir un échantillon représentatif, permettant de mesurer la grandeur effectivement
recherchée.

1. Analyse du courrier
Méthode peu coûteuse

Défaut: l'échantillon de personnes qui écrivent aux stations n'est pas représentatif.

2. Interviews
On questionne les gens pour connaître les programmes qu'ils ont regardé la veille.

Défauts: 1. fait appel à la mémoire → risque d’erreurs


2. favorise les émissions qui passaient la veille à l'heure de l'interview.
3. Panels avec journaux d'écoute
Ce sont des groupes permanents de personnes chargées de noter leurs écoutes et leurs
appréciations des programmes.

Méthode peu coûteuse


Défauts: 1. le travail des panélistes est assez astreignant
2. difficulté d'obtenir un échantillon représentatif car certaines catégories
de personnes risquent d’être peu disponibles pour ce travail.

4. Panels audimétriques
Des appareils enregistreurs (audimètres) sont placés dans les foyers qui participent au
panel.

Ils enregistrent le fonctionnement du récepteur et envoient automatiquement


l'information par voie téléphonique au milieu de la nuit.
Avantages: 1. rapidité
2. précision (mesure à la seconde près)
3. exactitude (pas d'erreur humaine)

Inconvénient: ne mesurent que le fonctionnement du récepteur, sans tenir compte


des auditeurs
Solutions: 1. adjonction d'un clavier avec boutons permettant aux auditeurs
de signaler leur présence (source possible d'erreurs)
2. système automatique pour identifier les personnes présentes
14.
Difficultés générales
1. l'augmentation du nombre de canaux:
• rend plus difficile le recours à la mémoire
• nécessite des panels plus nombreux pour conserver la même
précision
2. l'utilisation du magnétoscope complique les mesures
Questions non résolues
1. Faut-il compter toutes les personnes présentes dans la pièce ou essayer
de déterminer lesquelles regardent effectivement la TV ?
2. Quelle doit être la durée minimale d'écoute pour considérer qu'un
programme est suivi ?
3. Comment procéder lorsque les panélistes sont absents pour de longues
périodes (vacances,…) ?
Les solutions adoptées varient d'un pays à l'autre

15.

Vous aimerez peut-être aussi