Académique Documents
Professionnel Documents
Culture Documents
Echantillonnage
1
4-L'échantillonnage stratifiée: il s'agit de subdiviser une population hétérogène en
strate (sous-groupe). Cette méthode consiste à retrouver dans l'échantillon les mêmes
proportions pour chacune des strates selon les caractéristiques choisies pour l'étude
dans la population visée.
Exemple 1: J'ai un stock de 200 lampes électronique de deux types : L45 et L85.
L45 84
L85 116
Exemple 2:
Nous désirons déterminer la taille moyenne des étudiants de l’ESIM qui étaient
présents au 1er cours de statistique, à partir d’un échantillon de 10 individus.
(la réponse exacte, pour la population totale de 86 étudiants, est de 174,0 cm).
Mus par une bonne intention, sachant que les garçons sont, en général, plus grands
que les filles, nous choisissons un échantillon contenant autant de filles que de
garçons.
2.
A partir de cet échantillon de 10 individus, nous obtenons une taille moyenne de
177,2 cm, soit 3,2 cm de plus que la valeur exacte.
Avons-nous procédé correctement au choix de l’échantillon, sachant que la
population contient 51 filles et 35 garçons ?
Non, car chaque garçon avait plus de chances d’être choisi que chaque fille.
En effet, les 5 garçons étant tirés au hasard dans une population de 35 individus,
chacun d’eux avait 5 chances sur 35 d’être choisi, soit une probabilité de 5/35 ≅
0,143.
Les 5 filles étant choisies dans une population de 51 individus, chacune d’entre elles
avait 5 chances sur 51 d’être choisie, soit une probabilité de 5/51 ≅ 0,098, donc
nettement plus faible que pour les garçons.
Nous avons biaisé l’échantillon en faveur des garçons. Il n’est donc pas surprenant
que nous obtenions un résultat trop élevé.
La manière correcte de procéder est de choisir au hasard dans toute la population,
sans considération du sexe.
187, 165, 180, 168, 165, 160, 174, 183, 168, 176
[En fait, vu les petits échantillons utilisés, le hasard aurait pu donner un résultat
inverse. Ce sera beaucoup moins probable pour de grands échantillons. Le
raisonnement est néanmoins valable en toute généralité].
Sachant que la population étudiée contient 35/86 ≅ 40% de garçons et 51/86 ≅ 60%
de filles, nous pourrions nous assurer que l’échantillon respecte les mêmes
proportions, soient 4 garçons et 6 filles.
Exercice :
3.
R.: Non, car les clients des supermarchés ne sont pas typiques de l'ensemble de
la population (en général, dans un ménage, c'est toujours la même personne
qui fait les courses; l'échantillon contiendra probablement trop de femmes,
d'inactifs,…)
2. On désire faire une enquête sur les goûts musicaux de la population tunisienne.
Pour cela, on choisit au hasard 1000 numéros de téléphone dans l’ensemble des
annuaires et on les appelle pendant les heures de bureau. On obtient 583
réponses.
R.: Non car cet échantillon élimine pratiquement tous les individus actifs
(étudiants, travailleurs, …).
Une amélioration de cet échantillon consisterait à téléphoner en soirée et à
répéter l'appel pendant plusieurs jours si on n'obtient pas de réponse, de
telle manière que l'échantillon obtenu se rapproche le plus possible de
l'échantillon sélectionné.
1. Pour me faire une idée du niveau de la classe, je prends les étudiants des 2
premières rangées et je les questionne. Est-ce un échantillon représentatif ?
R : Cet échantillon n'est pas représentatif car:
• les élèves qui se mettent aux 1ers rangs ne sont pas représentatifs de la
moyenne. Il faudrait les tirer au hasard.
n
o
m
b
r
e
valeur
individus de l'échantillon
Dans la première population : peu dispersée, toutes les valeurs de l’échantillon seront
forcément proches de la moyenne. Dans la deuxième population : plus dispersée, les
valeurs de l’échantillon seront généralement plus éloignées de la moyenne. La
moyenne de l’échantillon pourra donc s’écarter plus fortement de celle de la
population.
Soient:
σ
( )
σ X =
n
Exemple :
µ = 167,9 cm
σ = 5,3 cm
Si cet échantillon est représentatif, sa taille moyenne est une estimation de celle
de la population en question.
Elle est de 182,9 cm.
Pour estimer la précision de cette moyenne, il faudrait connaître l’écart type de la
taille pour toute la population considérée, ce qui n’est pas le cas.
6.
Si notre échantillon n’est pas trop petit (en principe, au moins 100 individus),
nous pouvons remplacer l’écart type σ de la population par l’écart type s de
l’échantillon.
Dans ce cas, il vaut s = 6,7 cm
population µ σ
Échantillon X s
(estimateur)
Si l’écart type de la grandeur analysée dans la population n’est pas connu, on peut le
remplacer par l’écart type calculé dans l’échantillon, pour autant que cet échantillon
soit suffisamment grand.
s
( )
σ X ≅ (si n ≥ 30 )
n
b. Intervalles de confiance
Nous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie
moyenne µ de la population.
7.
Paramètre à
loi de la population statistique loi
estimer
Loi Normale X −µ N(0 ; 1)
n<30 connu
σ
n
X −µ Student(n-1)
inconnu
S
moyenne n
quelconque X −µ ~ N(0 ; 1)
n > 30 connu
σ
n
X −µ ~ N(0 ; 1)
inconnu
S
n
Normale
variance connu à n d.d.l
p (1 − p )
n
8.
9.
Exemple 2 :
Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids moyen de
780 gr, avec un écart type de 80 gr.
Quelle est la probabilité que le boulanger triche en moyenne sur le poids de ses
pains?
n = 100 X = 780 gr s = 80 gr
s 80
Ecart type de X: ( )
σ X = = = 8 gr
n 100
D'après la table, la probabilité que µ soit supérieur à X d'au moins 2,5 σ( X ) est
de 0,006.
100 - 100 × 0,006 = 100 - 0,6 = 99,4
D’après la table, la probabilité que µ soit supérieur ou égal à 800 gr est de 0,159.
Même si la présomption est forte, ce n’est pas vraiment suffisant pour conclure à
la tricherie !
10.
800 − 810 10
Z0 = = − = −2
5 5
D'après la table, la probabilité que µ soit inférieur ou égal à 800 gr est de 0,023.
p = 0,227
1-p = 0,773 = 77,3 %
11.
Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour
déterminer le poids moyen des filles et celui des garçons sont indépendants.
Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans
un sondage politique ne forment pas deux échantillons indépendants car si une
personne de plus déclare voter pour A, il y a un électeur potentiel en moins pour B
(les résultats de A et B s’influencent).
X D = X1 − X 2
( )2
σ D = σ1 X + σ 2 X ( ) 2
X D = 182,9 − 167,9 = 15 cm
σ D = 0,742 + 1,132 = 1,35 cm
2 × 1,35 = 2,7 cm
XD = 15,0 ± 2,7 cm
Si nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus
grands, en moyenne, que les filles?
différence moyenne de taille: XD = 15,0 cm
écart type de cette différence: σD = 1,35 cm
nombre d'écarts types au-dessus de 0 cm (0 cm ≡ pas de différence de taille)
15,0
z0 = = 11,1111
1,35
Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la
moyenne de plus de 11 σ est inférieure à 2.10-28 et donc complètement négligeable.
Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence
de taille soit due au hasard.
12.
Exemple
Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus de terres
que les bordures ?
Solution:
Ces échantillons sont indépendants.
• échantillon syldave: n1 = 25
X 1 = 24 s1 = 5
5 5
( )
écart type sur la moyenne: σ X 1 = = =1
25 5
• échantillon bordure: n2 = 16 X 2 = 26 s2 = 8
8 8
écart type sur la moyenne: σ (X 2 ) = = =2
16 4
σ D = σ X1( ) 2
( )
+σ X2
2
= 12 + 2 2 = 5 ≅ 2,24
les syldaves ont plus de terre en moyenne que les bordures si la différence est
>0→s'écarte de la valeur moyenne calculée de plus de 2
δ 2
z0 = = ≅ 0,89
σ D 2,24
13.
Une application courante des sondages statistiques est l’estimation de l’audience des
émissions de télévision. Nous allons passer en revue quelques-unes des méthodes
utilisées, en présentant leurs principaux avantages et inconvénients.
Cet exemple illustre bien les difficultés auxquelles on peut parfois se heurter pour
réunir un échantillon représentatif, permettant de mesurer la grandeur effectivement
recherchée.
1. Analyse du courrier
Méthode peu coûteuse
Défaut: l'échantillon de personnes qui écrivent aux stations n'est pas représentatif.
2. Interviews
On questionne les gens pour connaître les programmes qu'ils ont regardé la veille.
4. Panels audimétriques
Des appareils enregistreurs (audimètres) sont placés dans les foyers qui participent au
panel.
15.