Vous êtes sur la page 1sur 36

L’Echantillonnage au Service de la

Recherche en Sciences Sociales

M.JERRY

Enseignant Chercheur à FEGK


Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Introduction

Etude Statistique = étude des caractéristiques (variables


statistiques) d’un ensemble d’objets (population, composée
d’individus ou d’éléments).
ä Un élément ou un individu est une entité pour laquelle
des données sont collectées.
ä Une population est l’ensemble de tous les éléments
auxquels on s’intéresse.
ä Un échantillon est un sous-ensemble de la population.
La constitution d’un échantillon permet de collecter des
données pour répondre à une question concernant une
population.
a Recensement : les valeurs des variables sont disponibles
sur l’ensemble de la population Ô⇒ statistique descriptive
(pas besoin de statistique inférentielle).
ä Exemple : Recensement de la population marocaine, notes
obtenues par tous les candidats à un examen, salaires de
tous les employés d’une entreprise, ...
ä Problème : coûteux, long, impossible (population infinie),
mesures destructrices (ex : tests en vieillissement
accélérés).
a Sondage :
ä On n’étudie qu’une partie de la population : un échantillon.
Les méthodes permettant de réaliser un échantillon de
bonne qualité sont étudiées en théorie de l’échantillonnage.
ä On cherche alors à extrapoler à la population entière les
propriétés mises en évidence sur l’échantillon Ô⇒
statistique inférentielle.
Exemples

ä On désire étudier la préférence pour tel ou tel candidat


dans une circonscription. La population statistique est
l’ensemble des électeurs de la circonscription.
ä On s’intéresse à la répartition d’une maladie sur les arbres
d’une forêt. La population statistique est l’ensemble des
arbres de cette forêt.
ä On désire évaluer le budget mensuel moyen des étudiants
d’une université. La population statistique est l’ensemble
des étudiants de cette université.
ä On désire évaluer le salaire mensuel moyen des employés
d’une entreprise. La population statistique est l’ensemble
des employés de cette entreprise.
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Echantillon
ä L’échantillon est un sous ensemble de la population de
base qui est interrogé après sélection lors d’une enquête.
ä Après traitement, les résultats obtenus auprès de
l’échantillon sont extrapolés à la population étudiée.
ä Pour assurer la fiabilité de cette extrapolation, l’échantillon
doit être représentatif.
ä Le recours à un plan d’échantillonnage répond en général
à une contrainte pratique (manque de temps, de place,
coût financier ...) interdisant l’étude exhaustive de la
population.
a Théorie de l’échantillonage : Etude des liaisons
existantes entre une population et les échantillons de cette
population, prélevés par sondage.
Méthodes d’échantillonnage : ensemble des méthodes
permettant de réaliser un sondage (de prélever un
échantillon de données) au sein d’une population, de
manière à reproduire un échantillon aussi représentatif que
possible de cette population.
Evaluation de ces méthodes : le système
d’échantillonnage sera jugé d’après la qualité des
approximations des paramètres de la population, calculées
sur l’échantillon prélevé. Pour cela, on étudiera la loi des
caractéristiques classiques d’un échantillon (moyenne
arithmétique, variance empirique, ...)

Souvent le coût de la collecte d’informations à partir d’un


échantillon est largement inférieur à celui généré par la
collecte d’informations à partir de la population entière, en
particulier lorsque l’obtention de ces informations
nécessitent des entretiens avec le personnel.
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Les méthodes empiriques

Les méthodes empiriques sont les plus utilisées par les instituts
de sondage. Leur précision ne peut pas être calculée et leur
réussite dépend de l’expertise des enquêteurs.
a Echantillonnage sur la base du jugement : Echantillon
prélevé à partir d’avis d’experts, qui connaissent bien la
population et sont capable de dire quelles sont les entités
représentatives.
Problème : l’avis des experts est subjectif.
a Echantillonnage par la méthode des quotas :
Echantillon prélevé librement à condition de respecter une
composition donnée à l’avance (sexe, âge, ...).
Problème : repose sur la pertinence des catégories
retenues.
a Echantillonnage de commodité : On choisit des
individus statistiques qui sont d’accès facile. Par exemple,
un professeur qui mène une expérience à l’université peut
utiliser des étudiants volantaires pour constituer un
échantillon simplement parce qu’ils sont disponible.
Problème : Les échantillons de commodité ont l’avantage
d’être facilement constitués et les données sont facilement
collectées ; cependant, il est impossible d’évaluer le degré
de représentativité de la population.
a Echantillonnage par boule de neige : On choisit
quelques individus (au sein d’une population humaine) qui
sont pertinents pour l’étude, et ensuite on leur demande de
proposer d’autres individus pour l’enquête.
Problème : Il est impossible d’évaluer le degré de
représentativité de la population.
Les méthodes aléatoires
Les méthodes aléatoires reposent sur le tirage au hasard
d’échantillons et sur le calcul des probabilités.
a Echantillonnage aléatoire simple (Simple random
sample) :
ä On prélève dans la population, des individus au hasard,
sans remise : tous les individus ont la même probabilité
d’être prélevés, et ils le sont indépendamment les uns des
autres.
ä La procédure de sélection d’un échantillon aléatoite simple,
à partir d’une population finie, consiste à choisir les
éléments de l’échantillon un par un, de façon à ce que les
éléments restants dans la population aient la même
probabilité d’être sélectioné.
ä Le nombre d’échantillons aléatoires simples de taille n
différents qui peuvent être sélectionés à partir d’une
population de taille N est
N!
CNn =
n!(N − n)!
a Echantillonnage aléatoire stratifié :
ä La population est tout d’abord divisée en groupes
d’éléments appelés strates, de façon à ce que chaque
élément de la population appartienne à une et une seule
strate. L’élément de base qui définit une strate, tel qu’un
service, un lieu, un âge, un type d’industrie, etc..., est laissé
à la discrétion du créateur de l’échantillon.
ä La population est divisée en H strates de taille N1 ,..., NH .
La procédure d’échantillonnage consiste à exécuter un plan
aléatoire simple sans remise de taille nh dans la strate h,
indépendamment des autres strates.
ä Le nombre d’échantillon possible est
H
n
∏ CNhh
h=1

ä L’échantillonnage aléatoire stratifié fournit de meilleurs


résultats lorsque la variance parmi les éléments de chaque
strate est relativement faible.
a Echantillonnage par grappe :
ä La population est tout d’abord divisée en groupes
d’éléments séparés, appelés grappes. chaque élément de
la population appartient à une et une seule grappe. Un
échantillon aléatoire simple des grappes est ensuite
sélectionné. Tous les éléments contenus dans une grappe
sélectionnée forment l’échantillon.
ä on tire au hasard des grappes ou familles d’individus, et on
examine tous les individus de la grappe (ex : on tire des
immeubles puis on interroge tous les habitants). La
méthode est d’autant meilleure que les grappes se
ressemblent et que les individus d’une même grappe sont
différents, contrairement aux strates.
ä La population est divisée en G grappes, pas forcément de
même taille. L’échantillonnage consiste à choisir g grappes
selon un plan aléatoire simple sans remise. Le nombre
d’échantillons possibles est CGg .
ä L’échantillonnage par grappes fournit de meilleurs résultats
lorsque chaque grappe représente, à plus petite échelle, la
population.
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Estimation ponctuelle

ä L’inférence statistique consiste à induire les


caractéristiques inconnues d’une population à partir d’un
échantillon issu de cette population. Les caractéristiques
de l’échantillon, une fois connues, reflètent avec une
certaine marge d’erreur possible celles de la population.
ä L’estimation consiste à rechercher la valeur numérique
d’un ou plusieurs paramètres inconnus d’une loi de
probabilité à partir d’observations (échantillon).
ä Un estimateur est une v.a., en d’autres termes, l’estimation
du paramètre dépend des individus présents dans
l’échantillon.
ä Quelle que soit la technique d’échantillonnage utilisée, le
contenu du jeu de données prélevé varie d’un sondage à
l’autre.

ä On pourrait répéter le sondage un grand nombre de fois,


on obtiendrait la plupart du temps une répartition différente
des valeurs prélevées (la moyenne, la variance et la
proportion). Le résultat d’un sondage est aléatoire.
Estimateur de la moyenne

ä La moyenne, ou valeur moyenne, est peu-être la mesure


de tendance centrale la plus importante pour une variable.
ä Si les données sont issues d’un échantillon, la moyenne
est notée x̄ ; si les données sont issues d’une population,
la moyenne est notée µ.
n
∑ xi
i=1 x1 + x2 + . . . + xn
x̄ = =
n n

ä La moyenne d’échantillon x̄ est l’estimateur ponctuel


sans biais de la moyenne de la population µ.
Estimateur de la variance

ä La variance est une mesure de dispersion qui utilise toutes


les observations.
ä La variance est basée sur la différence entre la valeur de
chaque observation xi et la moyenne (x̄ pour un
échantillon, µ pour la population).
ä La différence entre chaque observation xi et la moyenne
est appelée écart par rapport à la moyenne.
ä Pour calculer la variance, les écarts par rapport à la
moyenne sont élevés au carré.
Estimateur de la variance
ä La variance d’un échantillon est notée par :

1 n
S2 = ∑(xi − x̄)
2
n i=1

ä La variance empirique corrigée ou la quasi-variance d’un


échantillon est notée :
1 n
S̄ 2 = ∑(xi − x̄)
2
n − 1 i=1

ä La variance de la population est notée par le symbole grec


σ2.
ä La quasi-variance d’un échantillon S̄ 2 est l’estimateur
ponctuel sans biais de la variance de la population σ 2 .
Estimateur de la proportion

ä On considère une population avec p est la proportion


d’une caractéristique connue dans cette population, et f
est la proportion ou la fréquence de la même
caractéristique dans un échantillon qui se trouve dans la
même population.
ä Soit un échantillon de taille n, et x représente l’effectif
d’une caractéristique dans l’échantillon.

nombre de cas favorable x


f= =
nombre de cas possible n

ä La fréquence f de l’échantillon est l’estimateur


ponctuel sans biais de la proportion de la population
p.
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Introduction

ä Lorsque l’on effectue une enquête on s’intéresse à une


population mère (population totale) dont on va
généralement interroger une petite partie, c’est
l’échantillon dont il faut déterminer la taille soigneusement
car elle a une grande importance sur la précision des
estimations réalisées sur les caractéristiques de la
population-mère.
ä Pour des raisons économiques, il est nécessaire d’utiliser
une taille d’échantillon la plus réduite possible tout en
obtenant un taux de confiance et une marge d’erreur
suffisants.
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Paramètres en jeux
* N : Taille de la population-mère (ou population parent, ou
population de référence, ou population d’origine).
* n : Taille de l’échantillon pour une population mère très
grande (infinie).
* s : Seuil de confiance (ou Niveau de confiance ou encore
Taux de confiance) que l’on souhaite garantir sur la
mesure, noté aussi par 1 − α, où α est le risque.
* t : Coefficient de marge déduit du Taux de confiance « s ».
* E : Marge d’erreur (erreur relative) que l’on se donne pour
la grandeur que l’on veut estimer (par exemple on veut
connaître la proportion réelle à 5% près).
* p : Proportion (connue ou supposée estimée) des
éléments de la population-mère qui présentent une
propriété donnée. (lorsque p est inconnue, on utilise p =
0,5). (on dit ausi : Probabilité de succès ou probabilité de
réalisation positive).
* q = 1 − p : Probabilité d’échec ou probabilité de réalisation
négative.
n
* R= N
: Le taux de sondage.
* I = 2E : La fourchette d’incertitude.

ä Les taux de confiance « s » les plus utilisés et les


coefficients de marge « t » associés sont donnés dans le
tableau suivant :
Taux de confiance s Coefficients de marge t t2
80% 1,28 1,6384
85% 1,44 2,0736
90% 1,645 2,7060
95% 1,96 3,8416
96% 2,05 4,2025
98% 2,33 5,4289
99% 2,575 6,6306
1+s α
ä t est le quantile d’ordre =1− de la loi N (0, 1).
2 2
Table des Matières I

1. Introduction

2. Théorie de l’échantillonnage
2.1 Introduction
2.2 Les méthodes d’échantillonnage
2.3 Estimation ponctuelle

3. La taille de l’échantillon
3.1 Introduction
3.2 Paramètres en jeux
3.3 Taille de l’échantillon
Taille de l’échantillon avec la formule de Slovin

ä La formule de Slovin est une équation très générale que


l’on utilise lorsqu’on peut estimer la taille d’une population,
sans savoir comment elle se comporte. Cette formule est
décrite comme suit :
N
n=
1 + NE 2

ä Il est à noter qu’il s’agit de l’équation la moins précise et,


par conséquent, la moins appropriée à utiliser. Vous ne
devriez l’utiliser que si les circonstances vous empêchent
de déterminer un niveau de confiance approprié (sans
lequel, vous ne pouvez pas définir le coefficient de marge).
Taille de l’échantillon si la population est petite ou
moyenne

ä Si la population en question est petite ou moyenne et que


vous connaissez toutes les valeurs importantes, vous
devez utiliser la formule standard. L’équation standard pour
calculer la taille de l’échantillon est la suivante :

t 2 p(1 − p)

n= E2
t p(1 − p)
2
1+( )
NE 2
Taille de l’échantillon pour des populations inconnues
ou très nombreuses

ä Pour connaître la taille n nécessaire pour obtenir la


précision voulue (marge d’erreur), au seuil de confiance
déterminé, pour une proportion maximale (ou à l’occasion
pour une proportion spécifique connue), on utilise la
formule suivante :

t 2 p(1 − p)
n=
E2

ä Sa réciproque

p(1 − p)
E =t
n
ä Toutefois, il n’est pas possible d’utiliser directement ces
formules, puisque la proportion p ne sera connu qu’après
avoir sélectionné un échantillon. En pratique, cette valeur
préalable p est obtenue par l’une des procédures
suivantes.
¶ Utiliser la proportion d’échantillon obtenue à partir d’un
échantillon précédent ayant des caractéristiques similaires.
· Utiliser une étude pilote pour sélectionner un échantillon
préliminaire. La proportion de cet échantillon peut servir de
valeur préalable p.
¸ Utiliser votre intuition pour déterminer la valeur p.
¹ Si aucune de ces procédures n’ait applicable, utiliser la
valeur p = 0, 5.
Valeurs calculées de la taille de l’échnatillon n

ä Le tableaux ci-dessous présente la taille n des échantillons


pour un niveaux de confiance s = 95%, donc t = 1, 96 et
différentes proportion p de la population mère.

Marge d’erreur E

Proportion p q =1−p 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1

0,1 0,9 3457 864 384 216 138 96 71 54 43 35

0,2 0,8 6147 1537 683 384 246 171 125 96 76 61

0,3 0,7 8067 2017 896 504 323 224 165 126 100 81

0,4 0,6 9220 2305 1024 576 369 256 188 144 114 92

0,5 0,5 9604 2401 1067 600 384 267 196 150 119 96
Fiabilité de l’échantillon

la taille n de l’échantillon dépend :


ä de t donc du seuil de confiance s,
ä de la proportion p des éléments de la population-mère et
ä de la marge d’erreur E.
Considérons un échantillon du tableau ci-dessus, il est définis
avec un seuil de confiance s de 95%, cela signifie 5% de risque
de nous tromper (1 sur 20). Acceptons une marge d’erreur E de
2% et considérons que la proportion p dans la population mère
est de 40%, la taille de l’échantillon est alors de 2305. Donc en
terme de fiabilité, cela signifie qu’avec cet échantillon on a 95%
de chance (on a 5% de risque de se tromper) qu’un résultat qui
vaut 40% est sûr à + ou - 2%, c’est à dire qu’il se trouve dans
l’intervalle [38%, 42%]. En d’autres termes seuls 5% de
l’échantillon sera en dehors de cet intervalle [38%, 42%].
Merci de votre attention

Vous aimerez peut-être aussi