Vous êtes sur la page 1sur 51

MQT-1102

Chapitre 7
L’échantillonnage et les distributions
d’échantillonnage
Plan de la séance
 Échantillonnage
 Estimation ponctuelle
 Distributions d’échantillonnage

◦ de
◦ de
 Autres méthodes d’échantillonnage

La bonne compréhension des chapitres suivants repose sur la


capacité de compréhension et d’utilisation des distributions
d’échantillonnage présentées dans ce chapitre
Exemple: U-Réussite
 L’université U-Réussite reçoit 7000 applications
par année provenant d’éventuels étudiants. Le
formulaire de demande d’admission inclut le
score d’un test d’aptitude (SAT) ainsi que
l’information sur le lieu de résidence de
l’étudiant. Le directeur des admissions aimerait
avoir une idée du score SAT moyen des
postulants, et de la proportion des postulants
qui sont résidents de la province ?

 Il y a deux façons d’obtenir cette information


Exemple: U-Réussite
 Option #1: effectuer un recensement des
7000 postulants
◦ Scores SAT (Scholastic Aptitude Test)
 Moyenne de la population =990
 Écart-type de la population =80

◦ Les postulants résidant dans la province


 Proportion de la population =0,72
Exemple: U-Réussite
 Option #2 : prendre un échantillon
aléatoire de 50 postulants
No. Postulant Score Résidant
1 Connie Reight 1025 Oui
2 Willie Haggard 950 Oui
3 Fannie Lennox 1090 Non
4 Eric Pacman 1120 Oui
5 Winona Jiver 1015 Oui
. . . .
. . . .
50 Kevin Costmore 965 Non
Choisir un échantillon aléatoire de
50 étudiants
 Numéroter les étudiants de 1
à 7000
 Aller dans la table de
nombres aléatoires et
prendre les 4 derniers
chiffres qui ne dépassent
pas 7000
 Choisir l’étudiant
correspondant au numéro
3271dans la liste des 7000
 Répéter pour 50 étudiants
 5957; 6276; 5363;3186;
6520; 1628; 4149
Dans les projets d’échantillonnage, on utilise
des nombre aléatoires générés par ordinateur
afin de guider le processus de sélection
Échantillonnage
 On analyse un échantillon pour obtenir de
l’information sur la population (par exemple
moyenne, variance, etc.)

 Raisons pour faire un échantillonnage au lieu


d’un recensement :
◦ Lorsque la population est très grande
◦ Par souci d’économie
◦ Si le test est destructif
◦ Pour obtenir de l’information rapidement
Rappel - Terminologie
 Moyenne de la variable aléatoire X, valeur espérée
de X, espérance de X, m(X), mX signifient la même
chose. On peut aussi simplement écrire m s’il y a
seulement une variable aléatoire X

 Variance de la variable aléatoire X, Var(X), s2X, s2(X)


signifient la même chose. On peut aussi
simplement écrire s2 s’il y a seulement une variable
aléatoire X

 L’écart-type s (X) ou sX est la racine carrée de la


variance. On peut aussi simplement écrire s s’il y a
seulement une variable aléatoire X
Rappel - Terminologie
 Statistique :
 Toute mesure numérique calculée à partir des données
provenant d’un échantillon, e.g. :
 Moyenne, écart-type, proportion de l’échantillon,

 , s,

 Paramètre :
 Toute mesure numérique calculée à partir de l’ensemble
des données d’une population, e.g. : m, s, p
 Moyenne, écart-type, proportion de la population
Échantillonnage
 L’échantillon fournit seulement des
estimations des valeurs des paramètres de la
population (moyenne, variance, etc.)

 Avec de bonnes méthodes d’échantillonnage,


les résultats provenant d’un échantillon
aléatoire fourniront une “bonne” estimation
des paramètres de la population
Échantillon aléatoire simple –
population finie
 Un échantillon aléatoire simple de taille n est sélectionné d’une
population finie de taille N tel que chaque échantillon possible
de taille n a une probabilité égale d’être sélectionné

 Il faut avoir la liste des éléments de N au complet


◦ Tous les numéros de carte de crédit d’une certaine institution bancaire
◦ Liste des membres d’une organisation

 L’échantillonnage sans remise est la procédure la plus


couramment utilisée

 Si on replace chaque élément de l’échantillon afin de


sélectionner les éléments subséquents, on parle
d’échantillonnage avec remise
Échantillonnage aléatoire simple
 Dans EXCEL :

◦ Société Electronics Associates


 Salaire des 2500 employés
 Excel : EAI.xlsx

 Il faut avoir installé l’utilitaire d’analyse


 Aller dans : Données/Utilitaire
d’analyse/Échantillonnage
Échantillon aléatoire simple –
population infinie
◦ Une population est considérée infinie si elle
concerne un processus continu où il est impossible
d’énumérer tous les éléments (d’avoir la liste à
l’avance)
 e.g. clients arrivant à un restaurant, transactions dans
une banque

◦ La procédure de sélection par nombre aléatoire ne


peut pas être utilisée pour les populations infinies
 Il faut alors concevoir des procédures
d’échantillonnage
Échantillon aléatoire simple –
population infinie
 Un échantillon aléatoire simple d’une
population infinie est un échantillon choisi tel
que :
◦ Chaque élément sélectionné provient de la même
population
◦ Chaque élément est sélectionné de manière
indépendante
 Attention au biais de sélection
◦ McDonald’s: les clients suivent ceux qui présentent
des bons de réduction
L’inférence statistique
 L’inférence regroupe l’ensemble des méthodes
qui, à partir d’un échantillon aléatoire prélevé de
la population, permettent de tirer des conclusions
soit sur les paramètres d’une variable étudiée
dans cette population, soit sur la distribution ou
tout autre aspect de cette variable

 Deux grandes parties composent l’inférence


statistique :
◦ L’estimation de paramètres
◦ Les tests d’hypothèses
L’estimation ponctuelle
 Estimer un paramètre, une moyenne (m), une
variance (s2), une proportion (p) etc., c’est
chercher une valeur approchée en se basant
sur les résultats d’un échantillon

 Lorsqu’un paramètre est estimé par un seul


nombre déduit des résultats de l’échantillon,
ce nombre est appelé une estimation
ponctuelle du paramètre
◦ C'est une variable statistique
Exemple: U-Réussite
 Données obtenues d’un échantillon aléatoire simple de 50
postulants
No. Postulant Score Résidant
1 Connie Reight 1025 Oui
2 Willie Haggard 950 Oui
3 Fannie Lennox 1090 Non
4 Eric Pacman 1120 Oui
5 Winona Jiver 1015 Oui
. . . .
. . . .
50 Kevin Costmore 965 Non

Total 49850 34 Oui


Exemple: U-Réussite
 Estimations ponctuelles
◦ comme estimateur ponctuel de 

◦ s comme estimateur ponctuel de 


√ √
2
( 𝑥𝑖 − 𝑥 ) 277097
𝑠= = =75 , 2
◦ comme estimateur49 p
ponctuel de 49

𝑝=34 /50=0 ,68


 Note: D’autres nombres aléatoires auraient identifié d’autres
postulants, et donc d’autres échantillons et d’autres valeurs
échantillonnales de moyenne, écart-type, proportion
L’estimation ponctuelle
 Dans l’estimation ponctuelle on utilise les
données de l’échantillon afin de calculer une
valeur d’une statistique de l’échantillon qui
sert d’estimation du paramètre de la
population
 On dit que est l’estimateur ponctuel de la

moyenne de la population μ.
 s est l’estimateur ponctuel de l’écart-type de la

population σ.
 est l’estimateur ponctuel de la proportion de la

population p
Erreur d’échantillonnage
 En généralisant à toute la population
l’information partielle obtenue d’un
échantillon, on introduit une erreur plus ou
moins grande appelée “erreur
échantillonnale”
 La grandeur de cette erreur dépend de la

taille d’échantillon et aussi de la façon dont il


est tiré
◦ L’échantillon aléatoire devrait être représentatif
Erreur d’échantillonnage
 La différence absolue entre un estimateur ponctuel
et le paramètre de la population correspondant est
appelée erreur d’échantillonnage
 C’est le résultat de l’utilisation d’un sous-ensemble
de la population (échantillon) au lieu de toute la
population pour obtenir des estimations des
valeurs de paramètres
 Les erreurs d’échantillonnage sont :
|x| pour la moyenne échantillonnale
|s - s | pour l’écart type échantillonnal
| p p| pour la proportion
échantillonnale
Erreurs d’échantillonnage
 U-réussite :

◦ pour la moyenne échantillonnale


|x| = |997-990| = 7

◦ pour l’écart type échantillonnal


|s - s | = |75,2-80| = 4,8

◦ pour la proportion échantillonnale

| p  p | = |0,68-0,72| = 0,04
Erreurs d’échantillonnage

◦ Société Electronics Associates


 Salaire des 2500 employés
 Excel : EAI.xlsx
 Échantillons de 30
 Combien y-en-a-t-il de différents: =
 2745831915145900000000000000000000000000000000000000000000000000000000
Distribution d’échantillonnage
 Si on considère le processus de choisir un
échantillon aléatoire comme une expérience
aléatoire, les statistiques , s, sont des
descriptions numériques de résultats
d'expérience

◦ , s, sont donc des variables aléatoires


Espérance de
 L'espérance E()= m est la moyenne des
moyennes échantillonnales où m est
l’espérance de X, la moyenne de la population
Distribution d’échantillonnage

◦ Population de 5 individus: Estimation de moyenne


et variance échantillonnales
 Excel: estimation-sampling.xls
Variance de

 VAR () = s2 / n (population infinie)


2
 VAR () =   N  n  (population finie)
 
n  N 1 
où s2 est la variance de X (variance de la
population)


√¿¿
◦ Une population finie est considérée comme infinie si n/N < 0,05.
est le facteur de correction à utiliser si n/N > 0,05

 x est l'erreur-type de la moyenne


Distribution d’échantillonnage
 étant une variable aléatoire, on peut alors
parler de sa distribution de probabilité et des
paramètres de la distribution

La distribution d’échantillonnage de est la distribution


de probabilité de toutes les valeurs possibles
des moyennes d’échantillons
Distribution d’échantillonnage

 Comme toute variable aléatoire, la statistique a


une valeur espérée, un écart-type et une
distribution de probabilité

 La distribution d’échantillonnage est la distribution


de probabilité d’une statistique

 La distribution d’échantillonnage peut fournir des


informations probabilistes sur l’écart entre la
statistique calculée à partir de l’échantillon et la
valeur réelle du paramètre de la population m
Théorème central limite
 En sélectionnant des échantillons aléatoires
simples de taille n, la distribution
d’échantillonnage de la moyenne
d’échantillon peut être approchée par une
distribution de probabilité normale, lorsque
la taille de l’échantillon devient importante :
◦ n  30
◦ ou n  50 pour lorsque la distribution de X est
asymétrique
Distribution d’échantillonnage de -
loi normale (2 cas)
 Lorsque la variance de la variable aléatoire X est
connue et lorsque
◦ l’échantillon prélevé est grand (théorème central limite)

◦ ou lorsque l'échantillon est petit et que la variable


aléatoire X suit une loi normale

Nous avons alors (population infinie)


2
 :
xN (  , )
n
 =E()= et Var( ) =
Exemple: U-Réussite
 Puisque n=50, =990 et =80, la
distribution échantillonnale de , f(), pour
les scores SAT est N(, ) où :

𝐸 ( 𝑥)=𝜇=990
𝜎 80
𝜎 𝑥= = =11 ,3
√ 𝑛 √ 50
 ~ N(, )

𝑥
990
Exemple: U-Réussite
◦ Quelle est la probabilité qu’un échantillon
aléatoire simple de 50 postulants fournira une
estimation du score SAT moyen dans un
intervalle de plus ou moins 10 de la vraie valeur
 ? En d’autres termes quelle est la probabilité
que soit entre 980 et 1000 ?

 On cherche P(980≤ ≤1000)


Exemple: U-Réussite
 Quelle est P(980≤ ≤1000) où suit N(, ) ?
◦ On transforme en Z

P((980-990)/11,3≤ ( -990)/11,3 ≤(1000-990)/11,3)


= P(-0,88≤Z ≤0,88)

f( ) La distribution échantillonnale de

980 990 1000


Exemple: U-Réussite
P(-0,88≤Z ≤0,88) = P(Z ≤0,88) –P(Z ≤-0,88)

À l’aide de la table de probabilité pour la loi normale


centrée réduite on obtient 0,8106-0,1894 = 0,6212

f(z)

Aire = 0,3106 Aire = 0,3106

z
980 990
-0,88 0,88
0 1000
Loi normale est
symmétrique P(X ≤-x ) = 1-P X ≤x)
Distribution d’échantillonnage de
Exemple : X  N (   170 cm ,  2  25 cm 2 )

X = taille en cm
n = 20 observations
Quelle est la probabilité que la taille moyenne de
l’échantillon soit supérieure à 172 cm ?

On cherche P( =
suit une loi Normale: E(=m=170; = =1,25
Transformons en Z :
P( = P(/ =

P( = P( =
1- P(Z≤1,79) = 1-0,9633= 0,04
La distribution d’échantillonnage de

 La distribution échantillonnale de est la


distribution de toutes les valeurs possibles
des proportions échantillonnales
 Espérance de (moyenne des )

𝐸 (𝑝)=𝑝
où:
p = est la proportion dans la
population
Distribution d’échantillonnage de
 Écart-type de

Population Finie Population


infinie
𝜎 2 𝑝 =¿ ¿ 𝜎 2 𝑝 =¿ ¿

◦ est la variance des proportions estimées par


des échantillons
si n/N ≤0,05 On utilise la formule de la population infinie
(plus grande variance)
 p est l'erreur-type de la proportion
Distribution d’échantillonnage de

La distribution d'échantillonnage de suit


approximativement une distribution Normale,
lorsque np ≥ 5 et n(1-p) ≥ 5
 p (1  p ) 
p  N  p,  (population infinie)
 n 

 p (1  p )  N  n  
p  N  p,    (population finie)
 n  N 1 
Exemple: U-Réussite
Quelle est la probabilité qu’un échantillon
aléatoire simple de 50 postulants fournira une
estimation de la proportion des postulants qui
est à plus ou moins 0,05 de la vraie proportion?

C’est-à-dire quelle est la probabilité que soit


entre 0,67 et 0,77?
P(0,67≤ ≤0,77)
Exemple: U-Réussite
 Distribution d’échantillonnage pour les
résidants de la province
0 , 72( 1  0 , 72 )
p   0 , 0635
50

p
E ( p )  p  0,72
Exemple: U-Réussite
P(0,67≤ ≤0,77)

0,67 0,72 0,77

p suit N ( 0,72;0 ,0635 )


2
Exemple: U-Réussite
 P(0,67≤ ≤0,77)=
 On définit Z la variable normale centrée réduite
 P((0,67-0,72)/0,0635 ≤Z≤ 0,77-0,72)/0,0635)=
 P(-0,79≤ Z ≤0,79) =0,5704

 La probabilité est de 0,5704 que la


proportion de l’échantillon sera à l’intérieur
de +/-0,05 de la proportion de la population
Autres méthodes d’échantillonnage
aléatoire
 Échantillonnage aléatoire stratifié
 Échantillonnage par grappes
 Échantillonnage systématique
Échantillonnage aléatoire stratifié
 La méthode consiste à subdiviser la
population en sous-groupes relativement
homogènes appelés «strates»
◦ Un strate peut être déterminée par un groupe
d’âge, etc.
 Par la suite, on tire de chaque strate un
échantillon aléatoire simple; le regroupement
de tous ces échantillons partiels constitue
l’échantillon de taille n désiré.
Échantillonnage aléatoire stratifié
 Approprié lorsque les éléments d’une strate
sont semblables, e.g. un âge, un lieu, etc.
 Avantage : Si les strates sont homogènes,

cette technique d’échantillonnage est aussi


précise que l’échantillonnage aléatoire simple
tout en requérant un plus petit échantillon
Échantillonnage par grappes
 Il faut d’abord subdiviser la population en sous-groupes appelés
«grappes», chacune représentative de la population;
 On tire ensuite un échantillon aléatoire de grappes et on observe
tous les individus faisant partie des grappes sélectionnées.
 Une grappe fournit une représentation à petite échelle de la
population
 Les éléments d’une grappe sont ne sont pas semblables, e.g.
quartier d’une ville
 Exige une taille d’échantillon plus grande

Grappe 4
Grappe 1

Grappe 3
Grappe 2
Échantillon systématique
 Méthode utilisée seulement si les unités de la
population sont déjà classées dans un certain
ordre.
◦ Si coûteux de sélectionner un échantillon aléatoire
simple
 On choisit les unités dans la population à des
intervalles fixes selon le temps, l’espace ou
l’ordre d’occurrence.
 On sélectionne par exemple au hasard le 1er
élément parmi les 100 premiers d’une liste, et
ensuite d’une façon systématique le 101e, 201e,
301e etc.
Méthodes d’échantillonnage non-
probabilistes

 L’échantillonnage de commodité
 Étudiants volontaires

 L’échantillonnage subjectif
 Personne choisit selon son jugement
 Un journaliste choisit 3 ou 4 députés à interviewer

◦ Attention à l’interprétation des résultats


◦ On ne peut pas faire d’inférence statistique
Fin du Chapitre 7

Vous aimerez peut-être aussi