Académique Documents
Professionnel Documents
Culture Documents
DES SONDAGES
Notes de cours
Bienvenu M. Selenge
Anderson, D. R., Sweeney, D. J., Williams, T. A., Camm, J. D. & Cochran, J. J. (2015), Statistiques pour l’économie et la
gestion, 5 edn, De Boeck Supérieur, Paris.
Bugandwa, D. (2013-2014), Cours de théorie et pratique des sondages, Université Catholique de Bukavu.
Levy, P. S. & Lemeshow, S. (2008), Sampling of populations : methods and applications, 4 edn, Wiley, Hoboken, New
Jersey.
McClave, J., Benson, G. & Sincich, T. (2018), Statistics for Business and Economics, 13 edn, Pearson Education, Harlow,
UK.
Pitard, F. F. (2019), Theory of Sampling and Sampling Practice, 3 edn, CRC Press.
Tillé, Y. (2020), Théorie des sondages : échantillonnage et estimation en populations finies, Wiley, Hoboken, NJ.
Tremblay, M.-E., Lavallée, P. & haj Tirari, M. E. (2011), Pratiques et méthodes de sondage, Dunod, Paris.
Avant-propos 2
Bibliographie 2
Introduction 5
La statistique descriptive, la statistique mathématique et d’autres cours connexes donnent aux chercheurs que nous
sommes une démarche, une technique pour résoudre les problèmes d’économie et de gestion quel que soit le domaine.
Ces techniques statistiques indispensables à toutes autres sciences ou plus particulièrement aux responsables et cadres
d’entreprises, constituent ce que nous appelons « les méthodes de recherche statistique ». Une grande partie de ces méthodes
ayant été vue dans les cours susmentionnés, nous consacrerons notre étude aux méthodes de sondages, à leur interprétation
et à leur pratique.
Les données dont on dispose pour faire une étude proviennent parfois de la population dans son ensemble, mais le plus
souvent ces données proviennent d’un échantillon. Le problème principal consistera à déterminer, à partir des informations
fournies par un échantillon, certaines caractéristiques de la population d’où est extrait cet échantillon. En d’autres termes,
les résultats obtenus auprès de l’échantillon représentatif choisi seront extrapolés à l’ensemble de la population qu’elle
représente.
En règle générale, il est intéressant d’avoir les données les plus exhaustives possibles sur une population. C’est un
moyen d’avoir une représentation, un portrait le plus fiable possible de cette population que l’on étudie. C’est le cas pour
le dénombrement de la population d’un pays ou d’une région donnée, de ses naissances et de ses décès, de sa répartition
suivant l’âge ou le sexe. Mais il n’est pas toujours nécessaire de procéder au recueil d’une information la plus large possible
sur une population. C’est le cas de taux d’équipements des ménages ou de leur poste de dépenses de consommation :
l’interrogation d’un échantillon est largement suffisante.
Quand faut-il interroger toute une population au plutôt un échantillon ? C’est l’importance attribuée à l’obtention d’un
portrait exhaustif de la population, sa nécessité et sa faisabilité qui vont déterminer si un échantillon et suffisant ou pas ou
si l’image complète de la population est nécessaire. Chacun de ces choix a des avantages et des inconvénients. Le principal
intérêt d’interroger une population complète est l’exhaustivité et donc la précision de l’information. Ses défauts sont, entre
autres, son coût, sa lourdeur dans sa gestion administrative et les délais très longs. L’échantillon a pour principal avantage
d’être moins coûteux et de donner, grâce aux techniques statistiques, une image assez fiable de l’ensemble de la population.
Son inconvénient majeur c’est que l’erreur d’échantillonnage remet en question la fiabilité de l’image. Il arrive que malgré
une grande rigueur dans la constitution de l’échantillon, celui-ci ne reflète pas la population qu’il est censé représenter.
Dans ce cas on parle de distorsion entre l’échantillon et sa population d’origine.
L’exemple le plus connu de l’enquête pour obtenir un portrait exhaustif d’une population donnée est le recensement de
la population et l’exemple le plus connu d’enquête sur un échantillon est le sondage d’opinion. On aura donc recours à des
techniques (méthodes) bien plus précises pour construire un échantillon et s’assurer qu’il est représentatif de sa population.
Coût et rapidité
Supposons que le Ministère de l’habitat confie à une équipe de chercheurs l’étude de la faisabilité de développement
d’un vaste programme d’habitation à l’échelle nationale. Il sera utile aux chercheurs de connaître au préalable les besoins
(superficie, nombre de pièces,...), les goûts (maisons individuelles, appartements,...) et la possibilité de financement de
la population en matière de logement. Deux solutions peuvent être envisagées : i) L’équipe peut envisager d’effecteur
une enquête exhaustive en interrogeant tous les ménages de la RDC, ii) L’équipe peut aussi procéder par sondage en
interrogeant, par exemple, un ménage sur 3000.
Il y a plusieurs millions de ménages en RDC. On imagine quels moyens matériels et quels délais seraient nécessaires
pour mettre en œuvre la première solution (enquête exhaustive). En procédant par sondage, au contraire, le nombre
d’interviews à réaliser devient relativement faible en dépenses et en temps et donne des résultats assez fiables.
phase que l’enquête du marché proprement dite sera effectuée. Pour la réalisation d’un sondage aléatoire, les difficultés
seront encore plus grandes : on devra disposer d’une base de sondage, c’est-à-dire la liste permettant de repérer sans
omission ni répétition tous les individus appartenant à la population de référence.
catégorie socioprofessionnelle, le statut matrimonial, le niveau d’éducation, etc. Nous considérons ici trois variables de
contrôle pour le besoin de l’exemple (Tableau 1.1).
L’application de la méthode des quotas conduit à la multiplication des effectifs correspondants par le taux de sondage,
on obtient les quotas destinés à assurer l’identité par rapport aux variables de contrôle de la structure de l’échantillon et
de la population. Le résultat est présenté dans le tableau 1.2 ci-après.
On interrogera au total 1 155 personnes parmi lesquelles il devra y avoir 544 hommes, 272 âgés de 15 à 24 ans, 196
âgés de 25 à 34 ans,357 âgés de 35 à 54 ans, 201 fonctionnaires, etc. Ces quotas sont donc imposés aux enquêteurs :
chacun d’eux recevra un tableau de contrôle lui indiquant combien de personnes de chaque catégorie il devra interroger.
designer au premier degré de sondage un échantillon de divisions administratives (unités primaires). Puis, dans celles-ci, on
choisit au second degré un échantillon d’unités secondaires qui peuvent être des personnes, des ménages, points de ventes,
établissement industriels, des avenues, etc. selon la nature de l’enquête.
Organisation de l’enquête
– Utiliser un réseau permanent d’enquêteurs travaillant au voisinage de leur domicile.
Ce procédé permet de diminuer le coût des enquêtes en maîtrisant les frais de déplacement. Ce mode d’organisation
permet également à chaque enquêteur d’opérer dans une seule localité, les quotas étant établis séparément pour
chacune des localités.
– Employer des équipes d’enquêteurs itinérants dirigés par un chef d’enquête dont chacune couvre une large portion
du territoire soumis à l’enquête. Cette méthode et plus coûteuse car les frais de déplacement sont très élevés, mais
elle est souple.
– Le contrôle des enquêteurs :
– Il est prudent d’exiger les enquêteurs qu’ils notent les noms et l’adresse des personnes interviewées de manières à
ce que le manager ait la possibilité de contrôler.
– Il y a lieu le restreindre l’initiative laissée aux enquêteurs dans le choix des individus de l’échantillon par en limiter
par l’influence sur le résultat.
– On inspira alors aux enquêteurs, en dehors du respect des quotas, des conditions supplémentaires suivantes :
– Interdiction de sélectionner les personnes à interviewer sur les listes (listes d’abonnés, liste des clients, etc.)
– Interdiction d’opérer dans la rue ou sur le lieu de travail ;
– Interdiction de revenir interroger les mêmes personnes.
Un procédé très souvent utilisé dans les enquêtes urbaines pour limiter l’initiative des enquêteurs dans le choix des
ménages à interroger, est la méthode de Politz, méthode qui impose à chaque enquêteur un itinéraire en lui indiquant
exactement les points d’enquête.
1.2.2.2 Inconvénients
– La méthode de quotas n’a pas de fondement théorique suffisant. Elle repose simplement sur la principe suivant lequel
une distribution correcte des caractères contrôlés assure la représentativité de la distribution des caractères étudiés ;
– La méthode des quotas ne permet pas de calculer la précision des estimations obtenues à partir de l’échantillon. Les
personnes interrogées étant choisies par les enquêteurs, il est impossible de savoir quelle probabilité avait à priori
chaque individu de la population d’appartenir à l’échantillon ;
– Avec plusieurs variables de contrôle, il peut être très difficile de respecter les quotas.
En conclusion, la méthode des quotas est une méthode empirique qui, bien que dénuée de fondement théorique
satisfaisant, peut rendre des services appréciables.
Mais cette théorie ne nous indique pas par elle-même la valeur numérique de la probabilité de cet événement ; seules
les données observées permettent d’estimer celle-ci. Un pont est donc à jeter entre données empiriques et concepts abstraits
de la probabilité, c’est la loi des grands nombres introduite au début du 18e siècle par Jacques Bernoulli.
Par définition, σ 2 = ∑ pi (xi − µ)2 . Distinguons les valeurs de X se trouvant à l’intérieur de l’intervalle µ ± tσ que nous
désignerons pat Xr , et celles Xs , se trouvant à l’extérieur :
Si nous nous intéressons uniquement à des valeurs qui ne sont pas dans l’intervalle considéré :
σ 2 ⩾ ∑ ps (Xs − µ)2 (puisque ∑r pr (Xr − µ)2 est un nombre positif ou nul) (1.3)
s
Par ailleurs, par définition, les écarts Xs − µ sont supérieurs ou égaux à tσ en valeur absolue :
1 ⩾ t 2 ∑ ps (1.6)
s
1
⩾ ps (1.7)
t2 ∑
s
Pour rappel, ∑s ps représente la probabilité pour que X prenne une valeur n’appartenant pas dans l’intervalle µ ± tσ .
On a donc : ∑s ps = 1 − P et
1 1
⩾ ps ⇔ 2 ⩾ 1 − P
t2 ∑ s t
1
P ⩾ 1− 2
t
La définition de cette inégalité est la suivante : connaissant la valeur de l’écart-type σ d’une variable aléatoire, on peut
toujours choisir t assez grand pour que la probabilité relative à l’intervalle µ ± tσ soit, quelle que soit la loi de probabilité
de la variable X considérée, aussi proche de 1 qu’on le désir.
C’est ce qu’on appelle la loi des grands nombres, il suffit de tirer un échantillon d’un effectif suffisant dans une
population de composition donnée (comportant une proportion p d’individu A) pour que la fréquence observée fn des
individus A soit presque justement très voisine de la probabilité p.
Il n’y a pas cependant une certitude absolue que fn se trouve dans l’intervalle désirée autour de p : la probabilité qu’il
n’en soit pas ainsi est au plus égale à 1/t 2 . On dit que la fréquence absolue d’un événement converge en probabilité vers la
probabilité de cet événement, lorsque n augmente indéfiniment.
Le principal intérêt de la loi des grands nombres est le suivant : si on ignore la valeur de probabilité p (proportion des
individus A dans la population) , on peut toujours prélever un échantillon aléatoire d’effectif suffisant pour que la fréquence
observée donne une estimation de cette probabilité aussi précise qu’on le désire. La loi des grands nombres permet ainsi de
jeter un pont entre la construction axiomatique de calcul des probabilités et la pratique, en donnant un moyen d’affecter des
valeurs numériques aux probabilités des événements observés.
µx = µ (1.10)
et d’écart type
σ
σx = √ . (1.11)
n
Démonstration. L’espérance mathématique de X est :
!
1 n 1 n 1
E(X) = E ∑ Xi = ∑ E (Xi ) = (nE (X)) = E (X) = µ.
n i=1 n i=1 n
Exemple 1.3. Dans l’exemple précédent (Exemple 1.2), un échantillon de 240 000 unités est un luxe inutile pour obtenir,
avec une probabilité de 99 % une estimation de p à 1/100 près c’est-à-dire P(| f n − P| ⩽ 0,01) ⩾ 0,99. En effet, dans
ce cas, non connaissons la distribution de probabilité de la fréquence fn : c’est une loi normale de paramètres µ = p et
q
d’écart type σ = pq n . On peut déterminer la valeur de la variable normale centrée réduite z telle qu’il y ait 99 chances
sur 100 pour que fn se trouve dans l’ensemble p ± zσ .
r r
pq pq
P(|p − t ⩽ fn ⩽ p+t ) ⩾ 0,99.
n n
La consultation de la table de loi normale inverse indique t = 2,58. t étant aussi fixe pour avoir n nous avons :
r r
pq 0,4 × 0,6
t ⩽ 0,01 ⇔ 2,58 ⩽ 0,01 ⇔ n ⩾ 15 975.
n n
Il faut choisir n ≃ 16 000.
Il est donc inutile de procéder à 240 000 observations, puisque 16 000 (soit 15 fois moins) suffisent pour obtenir la
précision désirée.
Remarques. À partir de la formule (1.13), on peut montrer que pour un même niveau de confiance, plus on augmente la
taille de l’échantillon, plus l’écart type σx diminue, ce qui a pour conséquence de diminuer la marge d’erreur E et, par le
fait même, de donner une estimation plus précise de la moyenne de la population.
On peut donc fixer d’avance la marge d’erreur que l’on ne veut pas excéder et choisir la taille de l’échantillon en
conséquence. Comme nous venons de le voir, plus l’échantillon est grand, plus la marge d’erreur est petite, mais plus les
coûts du sondage sont élevés.
Quand la valeur de σ est inconnue, on fait une enquête préliminaire avec un échantillon d’au moins 30 unités, et on
utilise l’écart type corrigé s de cet échantillon comme estimateur de σ .
r
1
s= (xi − x̄)2 (1.14)
n−1 ∑
Si les données sont sous forme des proportions, la taille de l’échantillon s’obtient à partir de la formule :
r r
p(1 − p) pq
E =z =z (1.15)
n n
En pratique, l’équation (1.15) nécessite de savoir la proportion p des individus dans la population. Or, cette information
est généralement inconnue. Dans ce cas, on prendra p = 0,5 afin d’avoir la plus grande valeur du produit pq et par
conséquent la plus grande taille minimale de l’échantillon n permettant d’obtenir les précisions désirées toutes choses
restant égales par ailleurs.
Exemple 1.4. Quelle taille minimale d’échantillon faudrait-il prendre pour estimer la moyenne d’âge des étudiants d’une
université avec une marge d’erreur d’au plus 1,5 an et un niveau de confiance de 95%, si des études antérieures ont donné
un écart type σ de 5,7 ans pour la population ?
Solution
On a : E = 1,5 an, σ = 5,7 ans, 1 − α = 95% ⇔ Zα/2 = 1,96.
σ
E = zσx ⇔ E = z √
n
5,7
⇔ 1,5 = 1,96 × √
n
1,96 × 5,7 2
⇔n= ≃ 56.
1,5
Il faut enquêter un échantillon d’au moins 56 étudiants.
Exemple 1.5. Afin d’inciter ses citoyens à économiser l’eau potable, une société songe à instaurer une tarification de
l’eau en fonction du volume consommé par résidence. Pour savoir si ce projet recevra un bon accueil dans la population,
elle organise un sondage visant à estimer le pourcentage de citoyens qui appuieraient un tel projet.
1. Quelle taille devrait avoir l’échantillon si l’on veut que la marge d’erreur de l’estimation n’excède pas 3%, avec un
niveau de confiance de 95% ?
2. Quelle taille devrait avoir l’échantillon si, a priori, on estime à environ 20 % le pourcentage de personnes favorables
au projet ?
Solution
E = 3% ; 1 − α = 95% d’où z = 1,96.
1. Comme la valeur de p n’est pas fournie, on prend p = 50 % (pour avoir le produit pq le plus maximal) :
r
pq
E =z
n
r
50 × 50
3 = 1,96
n
50 × 50
n = 1,962 ≃ 1068.
32
Il faut sonder au moins 1 068 individus pour espérer avoir les précisions désirées.
2. p̂ = 20%, d’où q̂ = 80%
r
pq
E =z
n
r
20 × 80
3 = 1,96
n
2 20 × 80
n = 1,96 ≃ 683.
32
Il suffira de sonder un minimum de 683 individus.
1.4 Exercices
1. On désire choisir sans remise un échantillon de 6 per- provinciale du Tanganyika compte 30 députés, si l’on
sonnes dans un groupe de 60. On numérote les indivi- prélève sans remise un échantillon aléatoire de 5 dé-
dus du groupe de 1 à 60 et on procède à un tirage au putés, quelle est la probabilité que 60 % d’entre eux
hasard. Donner les numéros des individus de l’échan- aient appuyé Zoé ?
tillon : 6. Qu’est-ce que le développement économique ? En
a) Si l’on effectue un échantillonnage systématique 2020, 24,5 % d’étudiants inscrits en sciences éco-
dont le point de départ, tiré au hasard, est 3 ; nomiques avaient échoué de définir ce concept. On
b) Si l’on effectue un échantillonnage systématique prélève un échantillon de 50 étudiants. Quelle est la
dont le point de départ, tiré au hasard, est 8. probabilité que huit d’entre eux échouent de définir le
2. Indiquer la méthode d’échantillonnage employée pour développement économique ?
prélever les échantillons suivants : 7. En 2015, 57 % des détenteurs d’un diplôme d’État en
a) Des économistes font une étude sur la distri- commercial ont poursuivi leurs études universitaires
bution du revenu dans la ville de Kalemie. À en économie. En 2021, un échantillon de 50 détenteurs
l’aide d’une carte de la ville, ils ont divisé 20 d’un diplôme d’État est prélevé parmi les diplômés
zones, puis ont choisi au hasard 10 zones en vue de la promotion 2020. Dans l’hypothèse où les sta-
de procéder à l’analyse de chacun des ménages tistiques de 2015 sont encore valables, en moyenne,
compris dans ces zones. combien de diplômés peut-on espérer trouver en éco-
b) La faculté d’économie réalise une enquête au- nomie dans l’échantillon ?
près d’un certain nombre d’étudiants sélection- 8. Une étude révèle que 37 % d’étudiants de l’Université
nés par tirage au sort dans la liste d’étudiants de Kalemie n’ont pas de Smartphone. On prélève un
inscrits en économie. échantillon de 12 étudiants.
c) Un étudiant interroge des passants au marché a) Quelle est la probabilité qu’un seul n’ait pas de
Kisebwe pour connaître leur opinion sur la des- Smartphone ?
titution du gouverneur. b) Quelles sont les chances que 8 des 12 étudiants
d) Un médecin chercheur demande la participation aient un Smartphone ?
des albinos jumeaux monozygotes pour une re- 9. Le pourcentage d’internautes qui utilisent des sites
cherche médicale. de réseautage social, tels que Facebook, Instagram
e) Une usine produit 1 000 pièces par jour. Pour et Twitter, est de 70 % chez les femmes et de 64 %
vérifier la qualité de celles-ci, on prélève chaque chez les hommes. On prélève un échantillon de 10
jour un échantillon de 50 pièces de la façon sui- utilisatrices d’Internet.
vante : on retire une pièce de la production par a) Quelle est la probabilité que 8 des 10 femmes
20 pièces produites en sélectionnant la première utilisent des sites de réseautage social ?
pièce au hasard entre la 1re et la 20e pièce pro- b) Quelle est la probabilité que moins de 8 femmes
duite. utilisent des sites de réseautage social ?
f ) Dans le cadre d’une recherche sur l’intention 10. Une épicerie reçoit la livraison de son stock d’œufs
entrepreneuriale des finalistes, on désire consti- une fois par semaine. Pour offrir un produit plus frais
tuer un échantillon de 30 membres en respectant aux clients et diminuer la quantité d’œufs à entreposer,
la répartition des membres selon le sexe : 50 % on décide d’augmenter la fréquence de livraison aux
d’étudiantes et 50 % d’étudiants. Pour ce faire, deux jours. Les statistiques de ventes de la dernière an-
on sélectionne 15 étudiantes et 15 étudiants au née indiquent que l’épicerie a vendu en moyenne 300
hasard parmi es finalistes. douzaines d’œufs aux deux jours avec un écart type de
g) Dans le cadre de la recherche décrite à la ques- 25 douzaines. On a aussi observé que la distribution
tion 2.f ), on sélectionne 15 étudiantes et 15 étu- des ventes suivait un modèle normal.
diants au hasard dans la liste des finalistes ins- a) Si l’on décide de commander 325 douzaines
crits à l’université de Kalemie. d’œufs aux deux jours, quels sont les risques
3. Parmi les échantillons décrits à la question précédente, que cette quantité ne soit pas suffisante pour ré-
lesquels sont aléatoires ? pondre à la demande ?
4. On pige sans remise un échantillon de 3 personnes b) Si l’on veut réduire les risques d’être en rupture
dans une population de 5 hommes et 4 femmes. de stock à 5 %, combien de douzaines d’œufs
a) Combien d’échantillons possibles y a-t-il ? doit-on commander au fournisseur ?
b) Quelle est la probabilité que l’échantillon soit 11. Dans une ville, 52 % de la population est de sexe fé-
composé de 3 hommes ? minin. On prélève un échantillon de 1000 personnes
c) Quelle est la probabilité que l’échantillon soit dans cette population.
composé de 2 hommes et 1 femme ? a) Quelles sont les chances que le pourcentage de
5. Zoé a été gouverneur élu par 60 % des députés de la femmes dans l’échantillon se situe à au plus 2 %
province du Tanganyika. Supposons que l’assemblée du pourcentage de femmes dans la population ?
b) Pour 95 % des échantillons possibles, l’écart a) Quelle est la valeur préalable de l’écart type de
entre le pourcentage de l’échantillon et celui de la population ?
la population est inférieur à une certaine valeur. b) Au seuil de confiance de 95 %, quelle doit être
Laquelle ? la taille de l’échantillon pour obtenir une marge
12. Lors d’une interview télévisée, le gouverneur de la d’erreur de 3 ?
province du Tanganyika, Zoé Kabila, déclare que la po- c) Au seuil de confiance de 95 %, quelle doit être
pulation de Kalemie soutient son plan d’urbanisation. la taille de l’échantillon pour obtenir une marge
Un étudiant se propose de vérifier ces déclarations par d’erreur de 2 ?
un sondage. Quelle devrait être la taille de l’échan- 19. En 2019, le montant mensuel de la prime des assis-
tillon pour estimer le pourcentage de la population qui tants de l’université était compris entre 45 000 et 60
soutient ce plan avec une marge d’erreur inférieure à 000 francs congolais. Supposez que l’on souhaite ob-
2 %, au niveau de confiance de 95 % ? tenir l’estimation par intervalle de confiance à 95 %
13. Afin d’inciter ses abonnés à économiser l’eau potable, du montant de la prime. Quelle est la valeur préalable
la REGIDESO songe à instaurer une tarification de de l’écart type de la population ? Quelle devrait être
l’eau en fonction du volume consommé par abonné. la taille de l’échantillon si l’on souhaite obtenir une
Pour savoir si ce projet recevra un bon accueil dans la marge d’erreur de :
population, elle commande un sondage visant à esti- a) 500 francs congolais ?
mer le pourcentage des abonnés qui appuieraient un b) 200 francs congolais ?
tel projet. a) Quelle taille devrait avoir l’échantillon si c) 100 francs congolais ?
l’on veut que la marge d’erreur de l’estimation n’ex- d) Recommanderiez-vous d’essayer d’obtenir une
cède pas 3 %, avec un niveau de confiance de 95 % ? marge d’erreur de 100 francs congolais ? Expli-
b) Quelle taille devrait avoir l’échantillon si, a priori, quer.
on estime à environ 20 % le pourcentage d’abonnés 20. Dans une enquête, la valeur préalable de la proportion
favorables au projet ? de la population p est égale à 0,35. De quelle taille
14. Calculer la taille minimale de l’échantillon à prélever l’échantillon doit-il être pour obtenir un intervalle de
pour estimer le poids moyen des sacs de sucre rem- confiance à 95
plis par une machine, avec une marge d’erreur d’au 21. Au seuil de confiance de 95 %, de quelle taille l’échan-
plus 0,03 kg, en utilisant un intervalle de confiance tillon doit-il être pour obtenir une estimation de la
au niveau de 99 %. On considère que la distribution proportion de la population avec une marge d’erreur
du poids des sacs obéit à une loi normale dont l’écart de 0,03 ? Supposez qu’aucune donnée passée n’est
type est de 0,1 kg. disponible pour fournir une valeur préalable de p de
15. Calculer la taille minimale de l’échantillon à préle- la population.
ver pour estimer à 500 CDF près la consommation 22. La Trust Merchant Bank s’intéresse à la proportion des
journalière des ménages d’un quartier, avec un niveau détenteurs d’une carte de crédit qui ont un solde débi-
de confiance de 95 %, si l’on estime l’écart type des teur (négatif) à la fin du mois. Supposez que la marge
revenus à 3 500 CDF. d’erreur souhaitée soit de 0,03, au seuil de confiance
16. Un intervalle de confiance à 95 % pour la moyenne de 98 %.
d’une population va de 152 à 160. Si σ = 15, quelle a) De quelle taille l’échantillon devrait-il être si on
est la taille de l’échantillon utilisé dans cette étude ? anticipe qu’environ 70 % des détenteurs d’une
17. Quelle doit être la taille de l’échantillon pour obtenir carte de crédit ont un solde débiteur à la fin du
un intervalle de confiance à 95 % avec une marge d’er- mois ?
reur de 10 ? Supposez que l’écart type de la population b) De quelle taille l’échantillon devrait-il être si on
est égal à 40. ne peut spécifier aucune valeur préalable pour la
18. L’étendue d’un ensemble de données est estimée à 36. proportion de la population ?
2.1 Introduction
Une des principales utilisations de la méthode de l’échantillonnage aléatoire simple consiste à faire de l’estimation. On
appelle théorie de l’estimation, l’ensemble des méthodes utilisées pour évaluer un paramètre d’une population à l’aide
d’une statistique calculée dans un échantillon extrait de cette population.
Par exemple, si on veut estimer le revenu moyen µ des professeurs des universités congolaises sans avoir à faire un
recensement qui s’avérerait sans doute pénible, long et coûteux, la méthode consiste à sélectionner un échantillon de taille
n, à calculer le revenu moyen x dans cet échantillon et à utiliser cette statistique x pour remplacer µ. Bien sûr, on s’attend à
ce que x soit une valeur assez proche de µ. Pour s’en assurer, il faut étudier la distribution d’échantillonnage de la variable
aléatoire X.
D’autres possibilités sont offertes pour faire une telle estimation : ainsi, on pourrait utiliser la médiane de l’échantillon
pour estimer le revenu des médecins congolais. Il faudrait donc déterminer quelle estimation s’avère la meilleure.
Posons le problème d’une manière plus générale en considérant un paramètre inconnu θ dans une population quelconque,
le symbole θ peut donc représenter µ, σ , σ 2 , π ou tout autre paramètre. Pour estimer la valeur de θ , on prélève dans la
population un échantillon de taille n.
Toute statistique calculée (valeur numérique) dans l’échantillon et pouvant être utilisée pour approximer θ s’appelle
« estimé de θ ». Par exemple, x = 1,7 est un estimé de µ, p̂ = 1/10 est un estimé de π. La variable aléatoire Θ dont les
réalisations sont des différents estimés retrouvés dans les différentes échantillons s’appelle un estimateur de θ et se note
par θ̂ (lire « thêta chapeau »). Par exemple, X est un estimateur de µ et P̂ est un estimateur de π.
E(Θ) = θ ,
c’est-à-dire si la moyenne de toutes les estimations possibles est égale à la valeur réelle du paramètre inconnu.
La quantité Θ − θ est appelée biais d’un estimateur, et un estimateur est non biaisé si le biais est nul.
La variable aléatoire X est un estimateur sans biais de µ, car
E(X) = µ.
Il faut calculer E(S̃2 ). Pour cela, nous allons l’exprimer à l’aide des v.a. centrées :
1 n 2 1 n 2
S̃2 = ∑ Xi − X = ∑ (Xi − µ) − X − µ
n i=1 n i=1
1 n 1 n 2
= ∑ (Xi − µ)2 − 2 X − µ ∑ (Xi − µ) + X − µ
n i=1 n i=1
1 n 2 2
= ∑ (Xi − µ)2 − 2 X − µ + X − µ
n i=1
1 n 2
= ∑ (Xi − µ)2 − X − µ .
n i=1
D’où : !
1 n 2 1 n
2
E(S̃ ) = E ∑ (Xi − µ)2 − X − µ = ∑ V (Xi ) −V (X)
n i=1 n i=1
1 σ2 n−1 2
= nσ 2 − = σ .
n n n
Le biais de la variance est corrigé en divisant non pas par n, mais par n − 1. C’est pourquoi on introduit la variance
empirique modifiée (ou corrigée) S2 qui est un estimateur non biaisé de la variance de la population σ 2 :
1 n 2
S2 = ∑ Xi − X . (2.3)
n − 1 i=1
Dorénavant, on étudiera S2 plutôt que S̃2 à laquelle on pourra éventuellement se référer en conservant le terme de
variance empirique.
σ2
Ainsi, X est un estimateur convergent de µ car on constate que si n → +∞, alors V (X) = → 0. De même P̂ est un
n
π(π−1)
estimateur convergent de π car V (P̂) = n et V (P̂) → 0 lorsque n → +∞.
En règle générale, pour estimer un paramètre θ de la population à partir d’une statistique θ̂ de l’échantillon, on construit
l’intervalle de confiance sous la forme :
θ = θ̂ ± zσθ̂ (2.4)
avec z = F −1 (α/2).
Remarque. Si σ est inconnu, on peut fournir sa valeur approximative par l’écart type corrigé s de l’échantillon
lorsque la taille de l’échantillon est de grande taille (n ⩾ 30) :
v !
u n
u 1 2
s=t ∑ (xi − x)
n − 1 i=1
(2.7)
E = zσx (2.8)
Dans le cas d’un échantillon de petite taille (n < 30) tiré d’une population normale où l’écart type σ de la population
est inconnu, la valeur (x − µx̄ )/σx ne suit pas une loi normale centrée réduite, mais une loi de Student. On désigne la
variable d’une loi de Student par la lettre T et ses valeurs par t. Il existe plusieurs distributions de Student ; c’est la taille de
l’échantillon qui indique laquelle choisir. Il est à souligner que, plus la taille de l’échantillon augmente, plus la distribution
de Student s’approche de la loi normale N(0; 1).
Pour trouver une valeur tα dans la table de Student, il faut connaître :
– l’aire α sous la courbe pour T > tα : P(T > tα ) = α ;
– le nombre de degrés de liberté que l’on détermine ainsi : dl = n − 1.
Ainsi, sous ces conditions, la valeur (x − µx̄ )/σx suit une loi de Student et la marge d’erreur de l’estimation de la
moyenne µ se calcule ainsi :
x̄ − µx̄
E = tα/2 σx̄ où t = suit une loi de Student avec n − 1 degrés de liberté ;
σx̄
s
σx̄ ≃ √ car σ est inconnu. (Si N < 20n, on multiplie par le facteur de correction.)
n
Dans le cas d’un petit échantillon (n < 30) tirée d’une population qui n’a pas une distribution normale, on détermine la
valeur de z à partir de l’inégalité de Bienaymé-Chebychev comme il est montré à la section 2.4.3 page 25.
Exemple 2.1. La durée de fonctionnement des montres SEIKO obéit à une loi normale d’écart-type 0,75 an. On prélève
avec remise un échantillon de 36 montres et on trouve une durée de fonctionnement moyenne de 4,5 ans. Construire un
intervalle de confiance de 95% pour estimer la durée de fonctionnement moyenne des montres SEIKO.
Solution
σ est connu et X ⇝ N(µ, σ ). σ = 0,75, n = 36, x̄ = 4,5, 1 − α = 0,95 ⇒ zα/2 = 1,96.
On a :
σ 0,75
σx̄ = √ = √ = 0,125.
n 36
La marge d’erreur donne : E = zσx̄ = 1,96 × 0,125 = 0,245.
D’où µ = 4,5 ± 0,245 c’est-à-dire µ ∈ [4,255; 4,745] au seuil de 5%.
Exemple 2.2. On a tiré un échantillon exhaustif de 10 000 ménages dans une région comportant au total environ
700 000 ménages. Sur cet échantillon, on a observé pour un mois déterminé, une consommation moyenne par ménage de
950$, avec un écart-type égal à 700$. Calculer l’intervalle de confiance se rapportant à l’estimation de la consommation
moyenne des ménages dans la région au niveau de confiance de 95
Solution
n = 10 000, N = 700 000, µx̄ = 950 et s = 700 1 − α = 0,95 ⇒ zα/2 = 1,96.
Comme N ⩾ 20n, le facteur de correction n’est pas nécessaire :
s 700
σx̄ = √ = √ = 7.
n 10 000
La marge d’erreur vaut : E = z × σx̄ = 1,96 × 7 = 13,72.
D’où µ = 950 ± 13,72, c’est-à-dire 936,28 ⩽ µ ⩽ 963,72 au seuil de confiance de 95%.
Exemple 2.3. On désire estimer le revenu annuel des huissiers de la ville de Kalemie. Selon les statistiques les plus
récentes, la ville compte 160 huissiers. On a prélevé un échantillon de 10 huissiers et on trouve dans cet échantillon un
revenu annuel moyen de 42 000 CDF avec un écart-type de 400 CDF. Construire un intervalle de confiance au niveau de
confiance de 90 % pour estimer le revenu annuel moyen des huissiers de la ville de Kalemie.
Solution
N = 160, n = 10, µx̄ = 42 000, s = 400 et 1 − α = 0,90 ⇒ α/2 = 0,05.
Comme n < 30, on utilise la loi de Student à k = n − 1 = 9 degrés de liberté : t(0,05;9) = 1,833.
Aussi, comme N < 20n, le facteur de correction est nécessaire :
r r
s N −n 400 160 − 10
σx̄ = √ =√ = 122,859.
n N −1 10 160 − 1
La marge d’erreur est égale à : E = tσx̄ = 225,2.
D’où il y a 90% de chance que le salaire moyen des huissiers de la ville de Kalemie soit dans l’intervalle µ =
42 000 ± 225,2.
Lorsqu’on a fait recours à l’inégalité de Bienaymé-Chebychev pour construire un intervalle de confiance d’une moyenne
ou d’une proportion (ou d’un pourcentage), la procédure à suivre est la suivante :
– Poser que 1 − 1/k2 égal au seuil de confiance désiré et tirer la valeur de k. On obtient :
r
1 1
1 − 2 = (1 − α) ⇔ k = . (2.13)
k α
– Calculer l’écart type σx̄ de la distribution d’échantillonnage des moyennes (cela a été montré à la section 2.4.1,
page 23) ou l’écart type σ p̂ de la distribution d’échantillonnage des pourcentages (voir section 2.4.2 page 24) :
σ
σx̄ = √ (si σ est connu) (2.14)
n
s
σx̄ = √ (si σ est inconnu) (2.15)
n
r
p̂q̂
σ p̂ = (avec q = 100% − p). (2.16)
n
– Calculer la marge d’erreur :
E = kσθ̂ (2.17)
– Construire l’intervalle de confiance comme suit :
Exemple 2.5. Le salaire mensuel de 10 employés de l’EPST est de 180 000 CDF avec un écart type de 14 000 CDF.
Construire l’intervalle de confiance à 95 % pour estimer le salaire mensuel moyen des employés de l’EPST.
Solution
Nous avons : n = 10, x = 180 000, s = 14 000.
À partir de l’inégalité de Bienaymé-Chebychev, nous avons :
1
1− = 0,95 ⇒ k = 4,47.
k2
En outre :
s
σx̄ = √ = 4 427,1887.
n
et
E = kσx̄ ≃ 19 790.
D’où nous sommes certains que la moyenne µ appartient dans l’intervalle 180 000 ± 19 790 au seuil de confiance de
95%.
2.5 Exercices
1. Des données, distribuées en forme de cloche, ont une vérifier si le diamètre des câbles de la production est
moyenne de 30 et un écart type de 5. Utiliser la règle bien conforme aux normes : une distribution normale
empirique pour déterminer le pourcentage d’observa- avec un diamètre moyen de 0,90 cm et un écart type
tions comprises entre : de 0,06 cm. Pour ce faire, on prélève un échantillon de
a) 20 et 40. 36 câbles dans la production. Le diamètre moyen des
b) 15 et 45. 36 câbles est de 0,88 cm, avec un écart type corrigé
c) 25 et 35. de 0,075 cm.
2. Une entreprise fabrique des câbles d’acier. On désire a) Donner les valeurs de µ, σ , x̄, s, µx̄ et σx̄ .
b) En négligeant les valeurs ayant moins de 0,3 % lité que la proportion d’échantillon soit au moins égale
de chances d’être obtenues, déterminer les va- à 150/400=0,375 ?
leurs entre lesquelles le diamètre des câbles de 6. La moyenne d’un échantillon aléatoire simple de 40
la production peut se situer. éléments est égale à 25. L’écart type de la population
c) Déterminer les valeurs entre lesquelles le dia- est σ = 5.
mètre moyen d’un échantillon de 36 câbles de- a) Quelle est l’erreur type de la moyenne, σx̄ ?
vrait se situer. Est-ce que la moyenne échantillon- b) Pour un seuil de confiance de 95 %, quelle est la
nale obtenue se situe entre ces deux valeurs ? marge d’erreur ?
3. Supposons que le revenu mensuel moyen des 7. La moyenne d’un échantillon aléatoire simple de 50
3 000 fonctionnaires du territoire de Kalemie soit observations issues d’une population ayant un écart
de 200 000 CDF, avec un écart-type de 20 000 CDF. type σ = 6, est égale à 32.
On prélève un échantillon aléatoire de 100 fonction- – Construire un intervalle de confiance à 90 % pour
naires. la moyenne de la population.
a) Calculer la marge d’erreur au seuil de confiance – Construire un intervalle de confiance à 95 % pour
de 95 %. la moyenne de la population.
b) Indiquer la plus grande moyenne échantillonnale – Construire un intervalle de confiance à 99 % pour
possible, en négligeant les valeurs ayant moins la moyenne de la population.
de 0,3 % de chances d’être obtenues. 8. La moyenne d’un échantillon aléatoire simple de 60
c) Construire un intervalle de confiance au niveau observations est égale à 80. L’écart type de la popula-
de confiance de 90 % permettant d’estimer le tion est σ = 15.
montant mensuel moyen du revenu pour l’en- a) Construire l’intervalle de confiance à 95 % pour
semble des fonctionnaires du territoire de Kale- la moyenne de la population.
mie. Interpréter le résultat. b) Supposez que la même moyenne d’échantillon
d) Quelles sont les chances qu’il y ait un écart d’au ait été obtenue avec un échantillon de 120 obser-
plus 2 000 CDF entre le revenu moyen de cet vations. Construire un intervalle de confiance à
échantillon de 100 fonctionnaires et celui des 95 % pour la moyenne de la population.
fonctionnaires de la population ? c) Quel est l’impact de la taille de l’échantillon sur
e) Quelles sont les chances que le salaire moyen se l’estimation par intervalle de la moyenne de la
situe entre 180 000 CDF et 210 000 CDF ? population ?
f ) Compléter l’énoncé. Il y a 95 % de chances que 9. Un intervalle de confiance à 95 % pour la moyenne
l’écart entre le revenu moyen des 100 fonction- d’une population va de 152 à 160. Si σ = 15, quelle
naires de l’échantillon et le revenu moyen µ des est la taille de l’échantillon utilisé dans cette étude ?
fonctionnaires du territoire de Kalemie soit d’au 10. Quelle doit être la taille de l’échantillon pour obtenir
plus . . . . . . CDF. un intervalle de confiance à 95 % avec une marge d’er-
4. Les 4 536 étudiants de l’université de Kalemie (UNI- reur de 10 ? Supposez que l’écart type de la population
KAL) se répartissent ainsi : 3 280 du sexe masculin est égal à 40.
et 1 256 du sexe féminin. On projette d’effectuer un 11. Un échantillon aléatoire simple de 400 individus four-
sondage auprès des étudiants, au niveau de confiance nit 100 réponses oui à une question indicatrice (on
de 95 %. répond par oui ou non).
a) Le tableau suivant indique, pour différentes a) Quelle est l’estimation ponctuelle de la propor-
tailles d’échantillon, l’écart maximal que le tion de la population qui a répondu oui ?
hasard peut produire entre le pourcentage de b) Quelle est votre estimation de l’erreur type de la
femmes dans l’échantillon et le pourcentage à proportion ?
l’université. Compléter le tableau. c) Construire l’intervalle de confiance à 95 % pour
n σx̄ Erreur la proportion de la population.
100 12. Un échantillon aléatoire simple de 800 observations
150 génère une proportion d’échantillon p = 0,70.
200 a) Construire un intervalle de confiance à 90 %
500 pour la proportion de la population.
600 b) Construire un intervalle de confiance à 95 %
pour la proportion de la population.
b) Quel est l’effet de l’augmentation de la taille de 13. On prélève un échantillon aléatoire de 625 électeurs
l’échantillon sur la marge d’erreur ? afin de déterminer le pourcentage d’électeurs favo-
5. Une société d’études de marché effectue des sondages rables à un projet de loi. Sur les 625 personnes inter-
par téléphone, avec historiquement un taux de ré- rogées, 350 se déclarent en faveur du projet de loi.
ponse de 40 %. Quelle est la probabilité que dans a) Estimer le pourcentage véritable des électeurs
un nouvel échantillon de 400 numéros de téléphone, favorables au projet de loi à l’aide d’un intervalle
au moins 150 individus coopèrent et répondent aux de confiance au niveau de confiance de 95 %.
questions ? En d’autres termes, quelle est la probabi-
b) Pour un même niveau de confiance, quelle taille Q4. De quelle façon réglez-vous souvent vos achats
d’échantillon faudrait-il prendre pour réduire la dans un supermarché ?
marge d’erreur du sondage à 2 % ? Comme le
sondage effectué auprès de 625 personnes donne Mode de paiement Nombre de répondants
un pourcentage échantillonnal de 56 %, utiliser
Comptant 90
cette valeur pour déterminer la nouvelle taille
Carte de crédit 150
d’échantillon.
Carte de débit 60
14. Supposons un étudiant ayant effectué, dans la ville de
Total 300
Kalemie, un sondage auprès d’un échantillon aléatoire
de 300 individus. Voici la distribution des réponses à
quatre des questions posées. a) Donner une estimation ponctuelle du pourcen-
Q1. Quel est votre sexe ? tage des individus du sexe féminin dans la ville
de Kalemie. Quelle est la marge d’erreur de cette
Sexe Nombre de répondants estimation, au niveau de confiance de 95 % ?
Féminin 170 b) En utilisant un niveau de confiance de 95 %, es-
Masculin 130 timer entre quelles valeurs se situe la moyenne
Total 300 d’âge de la population de cette ville.
Q2. Quel âge avez-vous ? c) Estimer par intervalle de confiance, au niveau
de confiance de 95 %, le montant moyen du re-
Âge Nombre de répondants
venu de la population de la ville de Kalemie et
Moins de 35 ans 45
interpréter cet intervalle.
[35 ans ; 50 ans[ 130
d) Compléter l’énoncé. Il y a 95 % de chances que
[50 ans ; 65 ans[ 70
le pourcentage des habitants de cette ville qui
65 ans et plus 55
utilisent la carte de débit se situe entre . . . . . . %
Total 300
et . . . . . . %.
Q3. Quel est le montant de votre revenu mensuel ? e) Écrire un court texte de style journalistique ré-
Montant (en $) Nombre de répondants sumant les résultats du sondage : utilisation de
Moins de 25 95 l’estimation ponctuelle pour présenter les résul-
[25 ; 50[ 83 tats, suivie de la méthodologie du sondage. La
[50 ; 75[ 68 méthodologie doit contenir la taille de l’échan-
[75 ; 100[ 30 tillon, la marge d’erreur de l’estimation et le
100 et plus 24 niveau de confiance. (Dans ce cas-ci, indiquer la
Total 300 marge d’erreur de chaque variable estimée.)
Pour certaines applications, l’utilisation pure et simple d’un sondage à un seul degré avec probabilité égale décrit dans
les chapitres précédents serait coûteuse et peu efficace. La mise en œuvre de la méthode des sondages aléatoires comporte
l’emploi d’un certain nombre de procédés dont les uns concernent l’organisation du tirage de l’échantillon (simplification
du tirage, diminution du coût de collecte de l’information, etc.) et les autres, l’amélioration de l’efficacité de la méthode.
Avantages et inconvénients L’avantage de l’échantillonnage aléatoire simple est qu’elle assure le caractère représentatif
de l’échantillon en utilisant une technique de sélection d’une grande simplicité. L’inconvénient de cette méthode réside
dans le fait qu’elle nécessite une liste complète des unités statistiques de la population.
3.2.2.2 Propriétés
Un échantillon prélevé par tirage systématique est un échantillon aléatoire. Il correspond toutefois au tirage d’une
grappe unique constituée par tous les individus dont les numéros appartiennent à une même progression arithmétique. La
précision des résultats sera donc de celle qui aurait été obtenue par sa méthode élémentaire.
Soit une population composée de N individus U, repérés par leur numéro s (s = 1, 2, . . . ,N) dans laquelle on prélève,
par sondage systématique avec un taux de sondage t = 1/k avec N = nk, n étant l’effectif de l’échantillon.
Considérons une variable X. les valeurs xs prises par celle-ci pour chacun des individus de la population peuvent être
disposées dans un tableau à k lignes et n colonnes (Tableau 3.1).
1 2 3 ··· n Moyenne
1 X1 X1+k X1+2k ··· X1+(n−1)k X1
2 X2 X2+k X2+2k ··· X2+(n−1)k X2
.. .. .. .. .. .. ..
. . . . . . .
i Xi Xi+k Xi+2k ··· Xi+(n−1)k Xi
.. .. .. .. .. .. ..
. . . . . . .
k Xk X2k X3k ··· Xnk Xk
La méthode des tirages systématique consiste à choisir au hasard un nombre entre 1 et k, i par exemple, et retenir dans
l’échantillon les individus de rang i, i + k, i + 2k, etc. Ce procédé revient donc à tirer au hasard une ligne dans le tableau 3.1.
Il est trivial de vérifier qu’on obtient bien un échantillon où chaque unité a la probabilité d’inclusion égale à n/N.
Puisque le tirage systématique revient à choisir une ligne au hasard avec probabilité égale 1/k, la moyenne arithmétique
X est une variable aléatoire qui comprend les valeurs X 1 , X 2 , X 3 , . . ., X k . Il est possible de calculer l’espérance mathématique
de la moyenne et de la fréquence observée sur l’échantillon.
Par définition de l’espérance mathématique :
k
1 1 k
E(X) = ∑ X i = ∑ X i .
i=1 k k i=1
La moyenne d’un échantillon systématique est un estimateur sans biais de la moyenne de la population.
Ce résultat peut être étendu à l’estimation de la fréquence d’un caractère dans la population, en considérant les Xi j
comme des variables de Bernoulli prenant la valeur 1 lorsque l’individu considère présente ce caractère et 0 lorsqu’il ne
présente pas.
Pour la ligne i :
n
1
fi = ∑ Xi j (moyenne des Xi j dans l’échantillon)
n j=1
et
k
1
E( fi ) = ∑ fi = p
n j=1
avec p représentant la proportion des individus ayant le caractère dans l’ensemble de la population.
La fréquence d’un caractère dans un échantillon systématique est donc un estimateur sans biais de la proportion
d’individus présentant ce caractère dans la population.
S’agissant de la variance, nous avons, par définition :
1 k
V (X) = ∑ (X i − X)2
k i=1
On retiendra, en outre, que la précision d’un sondage systématique sera généralement plus grande que celle d’un
sondage ordinaire de même taille. Plus exactement :
– Si l’ordre des unités dans le fichier servant de base de sondage peut être considéré comme aléatoire, les deux types
de sondage seront équivalents.
– Si les individus occupant des rangs voisins dans le fichier ont des éléments de ressemblance, la précision obtenue par
un sondage systématique sera meilleure. Or il en est souvent ainsi en pratique.
Supposons un exemple : pour des raisons de rapidité et de coût, le recensement de la population est d’abord dépouillé
sur un échantillon au 1/20. Cet échantillon est prélevé par tirage systématique parmi les feuilles de logement du
recensement. Ce fichier étant classé par avenues, quartiers, communes et provinces ; ce mode de tirage assure une
répartition géographique très satisfaisante de l’échantillon pour de nombreux caractères socioéconomiques (catégorie
socioprofessionnelle, activité économique, etc.) qui sont en relation étroite avec le lieu de domicile, on obtient ainsi
un gain de précision très important par rapport à ce qu’aurait donné un sondage élémentaire.
– Par contre, si une périodicité quelconque avait présidé au rangement des unités dans le fichier, la méthode pourrait
conduire à de graves erreurs d’estimation surtout si la période est un sous-multiple de la raison de la progression
arithmétique du tirage. Le cas est heureusement peu fréquent.
N = m·h
n = m·h
1 2 3 ··· h Moyenne
1 X11 X12 X13 ··· X1h X1
2 X21 X22 X23 ··· X2h X2
.. .. .. .. .. .. ..
. . . . . . .
i Xi1 Xi2 Xi3 ··· Xih Xi
.. .. .. .. .. .. ..
. . . . . . .
M XM1 XM2 XM3 ··· XMh XM
Considérons une variable X. les valeurs prises par celle-ci pour chacun des individus de la population peuvent être
disposées dans un tableau à M lignes et h colonnes analogue à celui utilisé pour l’analyse du sondage systématique.
Chaque ligne du tableau représente une grappe. Le sondage par grappes consiste à tirer au hasard, généralement sans
remise, un échantillon de m lignes parmi les M. On notera la parenté sur le plan formel, du sondage par grappes avec le
sondage systématique où l’on ne tire qu’une seule ligne. On a :
– La moyenne des X pour la ligne i :
1 h
X i = ∑ Xi j
n j=1
– La moyenne générale de la population :
1 m 1 m
X= ∑ Xi j = ∑ X i
mh i=1 m i=1
Puisque le sondage par grappes revient à tirer au hasard, m lignes parmi M, X est une variable aléatoire qui peut prendre
les valeurs X 1 , X 2 , . . ., X M . Il est donc possible de calculer ses caractéristiques et de montrer, en vertu de ce que nous avons
déjà vu dans les paragraphes précédents, que la moyenne arithmétique X i est un estimateur non biaisé de la moyenne x
pour la population.
Avantages et désavantages L’échantillonnage stratifié assure une bonne représentation des différentes strates de la
population dans l’échantillon. Il permet aussi d’obtenir des estimations pour chaque strate. Toutefois, pour appliquer cette
méthode, il faut avoir accès à la liste des unités de la population pour déterminer la répartition des strates.