Vous êtes sur la page 1sur 104

REPUBLIQUE DU MALI

Un Peuple – Un But – Une Foi


-=-=-=-=-=-=-=-
MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE
SCIENTIFIQUE
-=-=-=-=-=-=-=-
Institut Supérieur de Formation et de Recherche Appliquée (ISFRA)

SEMINAIRES DOCTORAUX 2016-2017

SUPPORT DE COURS

LA PRATIQUE DES ENQUÊTES PAR SONDAGES :


ECHANTILLONNAGE, COLLECTE, TRAITEMENT ET
ANALYSES
------------------------

Juin 2017
OBJECTIF DU COURS

Etudier les méthodes et pratiques d’enquêtes. Montrer comment planifier, concevoir et


réaliser des enquêtes. L’accent sera mis sur les enquêtes échantillon et donc la définition de la
population cible, des bases de sondage et des techniques de tirage de l’échantillon. Des cas
pratiques de collecte de données avec l’utilisation d’ordinateurs ou de tablettes seront abordés.

Initier les étudiants à la Statistique descriptive. Les notions de variables, de séries statistiques,
de paramètres d’étendue et de dispersion doivent être maitrisées. Amener les étudiants à
appréhender les situations dans lesquelles il faut, par exemple, préférer la Médiane à la
Moyenne ou vice versa ; la Variance à l’Ecart type ou vice versa.

Les techniques de représentations (tableaux et graphiques) et outils de traitement de données


statistiques seront largement abordés. Se familiariser avec un des principaux logiciels
utilisables, SPSS.

i
SOMMAIRE

OBJECTIF DU COURS..................................................................................................................
SOMMAIRE....................................................................................................................................
LISTE DES ILLUSTRATIONS....................................................................................................
Liste des tableaux...................................................................................................................iv
Liste des figures.....................................................................................................................iv
INTRODUCTION...........................................................................................................................
1. Définition........................................................................................................................1
2. Domaines d’application..................................................................................................1
3. Les concepts de base.......................................................................................................2
4. La démarche statistique...................................................................................................4
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE...........................................................
I. DISTRIBUTIONS STATISTIQUES A UN CARACTERE.................................................
1.1. Tableaux statistiques...................................................................................................6
1.2. Représentation graphique............................................................................................8
1.3. Le résumé statistique.................................................................................................13
II. SERIE STATISTIQUE DOUBLE, TABLEAUX ET GRAPHIQUES.........................
1.4. Présentation générale des tableaux statistiques à double entrée...............................23
1.5. Distribution marginale..............................................................................................26
1.6. Distribution conditionnelle.......................................................................................27
1.7. Représentation graphique..........................................................................................29
DEUXIEME PARTIE : ECHANTILLONNAGE, COLLECTE ET TRAITEMENT DES
DONNEES......................................................................................................................................
CHAP. I. LES ETAGES DU PROCESSUS D’UNE ENQUÊTE PAR SONDAGE................
1.8. I.1.Les principales directions de recherche de l’information....................................31
1.9. I.2. Schéma général du processus d’une enquête par sondage.................................32
CHAP II. VOCABULAIRE ET CONCEPTS DE BASE EN THEORIE DES
SONDAGES...................................................................................................................................
1.10. II.1.. Les principales questions qui guident le choix et l’élaboration d’un plan de
sondage.................................................................................................................................36
1.11. II.2. Notions de sondages et d’échantillon et quelques exemples.............................38
1.12. II.3. Les Notions relatives à la description de l’univers d’étude..............................40
1.13. II.4. Les Notions relatives aux informations recherchées et à la précision des calculs
42
1.14. II.5. Les Notions relatives aux calculs des précisions, pour les sondages aléatoires45
1.15. II.6 L’évaluation de la qualité d’un sondage............................................................48
1.16. Conclusion partielle..................................................................................................50
CHAP. III LES TECHNIQUES DE SONDAGES EMPIRIQUES...........................................
1.17. Notes de mise en garde.............................................................................................51
1.18. III.1 L’échantillon par quota.....................................................................................51
1.19. III.2 Echantillon de volontaires ou la méthode du volontariat..................................54
1.20. III.3 Méthode des itinéraires « random route ».........................................................55
1.21. III.4 Technique de « boule de neige ».......................................................................56
1.22. III.5 La méthode des « unités types ».......................................................................57
1.23. Conclusion partielle et introduction aux sondages aléatoires...................................58
CHAPITRE IV : LE SONDAGE ALEATOIRE SIMPLE : SAS.............................................
1.24. IV. Principe et mise en œuvre...................................................................................59
1.25. IV.2 Paramètres, estimateurs et précision.................................................................60
1.26. IV.3 Détermination de la taille de l’échantillon........................................................61

ii
1.27. IV.3 Avantages et inconvénients du sas :.................................................................62
1.28. IV.4 Exercices d’applications...................................................................................63
1.29. IV.5 Procédure et application Excel et SPSS pour le tirage d’un échantillon
probabiliste dans un SAS......................................................................................................65
CHAPITRE V : LE SONDAGE STRATIFIE............................................................................
1.30. V.1 Principe justification et mise en œuvre..............................................................68
1.31. V.2 Estimateurs et précisions....................................................................................69
1.32. V-3 Détermination de la taille de l’échantillon.........................................................70
1.33. V-4 Avantages et inconvénients du sondage stratifie :.............................................71
1.34. V-5 Exercice théorique d’application.......................................................................71
CHAPITRE VI : LE SONDAGE A PLUSIEURS DEGRES....................................................
1.35. VI.1 Principe justification et mise en œuvre.............................................................73
1.36. VI.2 Estimateurs.......................................................................................................76
1.37. VI.3 Détermination de la taille de l’échantillon en cas de pré stratification.............77
1.38. VI.4 Avantages et inconvénients du sondage a deux degrés....................................78
1.39. VI.5 L'échantillonnage en grappes............................................................................78
1.40. VI.6 Le plan complexe classique utilisé dans les grandes enquêtes : Le sondage
stratifiés à deux degrés..........................................................................................................78
1.41. VI.7 Algorithme de tirage systématique à probabilités inégales proportionnelles aux
tailles, à partir des totaux cumulés........................................................................................79
1.42. Conclusion sur les sondages aléatoires.....................................................................80
CHAPITRE VII. ORGANISATION DE LA COLLECTE DES DONNEES SUR
TERRAIN.......................................................................................................................................
1.43. VII.1. La planification des activités..........................................................................81
1.44. VII.2 La préparation des principaux instruments de collecte : le questionnaire et
masque de saisie....................................................................................................................82
1.45. VII.3 Information des autorités, sensibilisation et documents d’introduction..........82
1.46. VII.4 Recrutement et formation des agents enquêteurs et organisation des équipes82
1.47. VII.5 Le suivi des opérations de terrain....................................................................83
CHAPITRE VIII. ETAPES ET CONSIGNES POUR TRAITEMENT ET ANALYSE
DES DONNEES D’ENQUETES..................................................................................................
1.48. Etape 1 : Prendre connaissances de toutes les informations qui se rapportent à
l’étude 86
1.49. Etape 2 : Prendre contact avec la base et sélectionner les données utiles.................86
1.50. Etape 3 : Apurement et validation des données........................................................87
1.51. Etape 4 : Effectuer les traitements des données........................................................91
1.52. Etape 5 : Révision le plan d’analyse.........................................................................92
1.53. Etape 6 : Exécuter le plan d’analyse.........................................................................92
BIBLIOGRAPHIE........................................................................................................................
ANNEXE : ETUDE DE CAS........................................................................................................

iii
LISTE DES ILLUSTRATIONS

Liste des tableaux


Tableau 1 : Formules classiques d’indicateurs plus généralement recherchés.......................
Tableau 2 : exemple de plan de travail dans une enquête par quota........................................
Tableau 3 : Exemple de structure de la population suivant les variables auxiliaires.............
Tableau 4 : données pour exercice sur sondages stratifiés........................................................
Tableau 5 : Allocations, de l’exercice sur sondages stratifiés....................................................
Tableau 6 : Allocations, de l’exercice sur sondages stratifiés....................................................
Tableau 7 : démarche de calcul des poids de sondages et redressement d’échantillon..........
Tableau 8 : Démarche de calcul des poids dans un tirage stratifié à deux degrés..................
Tableau 9 : Sélection de ZD à probabilités inégales par tirage systématiques à partir des
totaux cumulés...............................................................................................................................
Tableau 10 : Récapitulatif des techniques de tirages.................................................................
Tableau 11 : Exemple de calendrier de travail par activité.......................................................
Tableau 12 : Illustration des incohérences et invraisemblances : Effectifs par classe selon
l’âge.................................................................................................................................................
Modèle Tableau 13 : Descriptions des dépenses de consommation par province et par
région..............................................................................................................................................
Modèle Tableau 14 : Descriptions et tests de comparaison des coefficients budgétaires
(écarts types entre parenthèses) par niveau d’instruction et par sexe du chef de ménage
.........................................................................................................................................................
Tableau 15*. Statistiques descriptives des variables quantitatives par milieu … données
échantillon et données population (*Moyenne (écart-type) [Min ; Max])................................

Liste des figures


Fig.1 : Schéma général du processus d’une enquête par sondage............................................
Fig 2 : Illustration du biais...........................................................................................................
Fig. 3 Illustration d’un tirage aléatoire simple d’un échantillon de cinq unités parmi 20
dans Excel.......................................................................................................................................
Fig. 4 : Démarche pour sélection aléatoire d’un échantillon par un tirage aléatoire
simple..............................................................................................................................................
Fig. 5 Illustration d’un tirage systématique d’un échantillon de six unités parmi 20 dans
Excel................................................................................................................................................
Fig 6 : Sélection des enfants de 6 à 12 ans de la base MICS CI 2006, fichier des membres
du ménage « hl » (démarche : données/sélection observation/selon une condition logique)
.........................................................................................................................................................
Fig. 7 : Imputation d’une valeur manquante par la valeur d’un individu ayant les
valeurs proches..............................................................................................................................
Fig. 8 : Elaboration de filtre pour mettre en exergue des incohérences...................................
Fig. 9 . Cas ambigu d’erreurs de cohérence entre données sur l’éducation.............................
Fig. 10 : incohérence entre fréquentation et nombre d’heures de travaux ménagers
extrême...........................................................................................................................................
Fig. 11 : Boite à moustaches permettant d’identifier les valeurs aberrantes en fonction
du statut scolaire de l’enfant........................................................................................................

iv
INTRODUCTION

1. Définition
Le terme "statistique" est tiré d’un mot grec qui signifie "constater". La statistique est la
science ayant pour objet le groupement méthodique des faits sociaux qui se prêtent à une
évaluation numérique, comme les impôts, la production industrielle et agricole, la population,
la religion, etc. On fait aussi dériver le mot du latin "status" qui veut dire "état", et à l’origine
on appelait statisticien celui qui s’occupait des affaires d’Etat.
Théoriquement, la statistique peut donc être définie comme étant une science, une méthode ou
une technique qui part d’un ensemble d’informations sur un phénomène donné pour aboutir à
une représentation simplifiée et compréhensible par tous.
De manière plus pratique, on parle de statistique lorsque le phénomène que l’on étudie peut
être mesuré ou chiffré. C’est justement cet aspect qui fait la force de la statistique car comme
le dit Lord Kelvin repris par Torrens-Ibern (1956), « Lorsque vous pouvez mesurer ce dont
vous parlez et l’exprimer au moyen de chiffres, vous en savez quelque chose, mais lorsque
vous ne pouvez pas le mesurer ni l’exprimer par des chiffres, votre connaissance en est faible
et peu satisfaisante».
Nous pouvons distinguer la statistique descriptive et exploratoire et la statistique inférentielle
ou probabiliste. La statistique descriptive est l’ensemble des méthodes et techniques qui
permettent de décrire de façon synthétique et parlante des données observées pour mieux les
analyser. La statistique inférentielle, quant à elle, essaie de préciser la distribution d’une
variable dans la population connaissant ses valeurs prises sur un échantillon.
La Statistique se distingue des statistiques qui désignent des données statistiques. Nous
pouvons par exemple étudier l’évolution des statistiques du Commerce Extérieur du Mali.
2. Domaines d’application
La statistique est un outil indispensable pouvant s’appliquer à une multitude de domaines,
notamment :
 La démographie : les données collectées permettent l’étude des natalités, des mortalités,
de la scolarisation, des migrations, etc.
 Les assurances : les statistiques sur la mortalité permettent par exemple d’établir des
tables de mortalité indispensables à la détermination des primes d’assurance-vie. Elles
permettent aussi de prévoir le nombre d’accidents dans une région pendant une période
donnée.
 La modélisation statistique (ou économique) : permet de représenter une réalité par des
relations pour, par exemple, prévoir la variable future ou quantifier l’effet d’un choc sur
une variable donnée.
 Les Etudes de marché : la création et la mise sur le marché d’un nouveau produit
nécessitent l’utilisation de techniques de sondage consistant à interroger un échantillon de
la population sur la correspondance entre les caractéristiques du produit et les goûts des
consommateurs.

1
 Les Finances
 Le Transport, la communication, etc.
3. Les concepts de base
Dans cette section, nous définissons un ensemble de concepts indispensables à la bonne
compréhension de la Statistique et nous précisons le sens statistique des notions de modalité,
de caractère, d’unité statistique.
Unité statistique et population
Les ensembles étudiés par la statistique portent le nom général d’univers statistique ou de
population. Si nous considérons le recensement général de la population et de l’habitat de
2009 au Mali (RGPH 2009), l’univers statistique est l’ensemble des personnes vivant sur le
territoire malien en 2009 ; pour l’Enquête Entreprise, l’univers est l’ensemble des entreprises
du Mali. De façon générale, la population représente l’ensemble concerné par une étude
statistique ; c’est aussi le champ de l’étude.
Leurs éléments sont appelés unités statistiques ou individus. Dans le RGPH 2009, les
individus sont les ménages et dans l’Enquête Entreprise les entreprises.
Tout sous-ensemble de la population sur lequel sont effectivement réalisées les observations
est appelé échantillon. L’opération consistant à observer ou mesurer l’ensemble des individus
d’un échantillon est appelée enquête. On parle de recensement lorsque la population tout
entière est étudiée ou questionnée ; c’est une enquête exhaustive.
Caractères et modalités
Le caractère représente ce à quoi l’on s’intéresse dans une étude statistique ; c’est le thème
commun à tous les individus. Chaque individu de la population est décrit du point de vue d’un
ou de plusieurs caractères. En prenant en compte l’ensemble des étudiants de la classe, nous
pouvons étudier le sexe, l’âge, la région ou le pays d’origine, etc.
Les caractères étudiés peuvent être constitués de plusieurs modalités qui représentent les
diverses situations dans lesquelles un individu peut se trouver à l’égard du caractère étudié.
Chaque individu doit présenter une seule modalité du caractère considéré. Les modalités d’un
même caractère sont incompatibles, c’est-à-dire chaque individu de la population ne présente
qu’une seule modalité et exhaustives (toutes les modalités possibles sont représentées). Dans
l’étude du caractère sexe, les modalités sont masculin et féminin.
Mathématiquement, le caractère est une application définie sur la population statistique. Le
caractère est quantitatif lorsqu’il est à valeurs réelles (ou une partie des réels ou un ensemble
de parties des réels) et qualitatif sinon.
Les caractères quantitatifs sont composés de caractères quantitatifs discrets et continus.
 Les caractères qualitatifs
Les modalités ne sont pas mesurables. Nous pouvons citer comme caractère qualitatif la
nationalité, le sexe, la profession, la catégorie socio-professionnelle, etc. dans le RGPH 2009.
Pour le traitement informatique des données recueillies, on affecte généralement des codes
(préétablis) aux différentes modalités des caractères qualitatifs.
2
 Les caractères quantitatifs
Les différentes modalités sont mesurables ou repérables, c’est-à-dire à chacune des modalités
correspond un nombre (non un code). Un caractère quantitatif est aussi appelé variable
statistique. Les modalités sont les différentes valeurs prises par la variable. Une étude sur les
étudiants d’une classe fait apparaître des caractères quantitatifs tels que la taille, le poids,
l’âge, le nombre d’enfants de chaque étudiant, etc. Les caractères quantitatifs sont constitués
de caractères quantitatifs discrets et continus.
Les valeurs possibles d’une variable discrète sont des nombres isolés. Nous pouvons citer
comme variables discrètes le nombre d’enfants de chaque étudiant, l’âge en années révolues,
la taille en centimètres pour l’étude des étudiants d’une classe.
Les valeurs possibles prises par une variable continue sont apriori en nombre infini et
quelconques dans un intervalle de valeurs. Nous pouvons citer l’âge exact d’un étudiant, la
taille définie dans une population humaine.
La distinction entre variable continue et variable discrète est évidente en théorie, mais pose
des problèmes en pratique du fait de la précision des instruments de mesure et aussi pour des
raisons de commodité. Ainsi, bien que la taille soit continue, on mesure des tailles en nombres
isolés : 178 cm, 189 cm, etc. On définit généralement les variables continues en classes ou
tranches de valeurs possibles (pouvant avoir une amplitude constante ou variable) constituant
les modalités de la variable.
Le schéma ci-dessous donne de manière résumée les différents types de variables ainsi que
des exemples.

Variable

Quantitative Qualitative

Continue Nominale Ordinale


Discrète

Couleur Taille
Nombre Précipitations Type de vestimentaire
d’enfant  Surface culture Préférence
Nombre de Age Profession plus ou moins
pièces d’une Taille Sexe grande.
habitation. Poids Département

T
Poids

3
Effectif et Fréquence :
 L’effectif total est le nombre d’individus appartenant à la population étudiée.
L’effectif total sera noté N.
Exemple :
Considérons un groupe comprenant trente étudiants et observons l’âge des étudiants dans
cette population. L’effectif total de la population statistique étudiée est trente (N = 30).

 L’effectif d’une modalité xi d’un caractère x est le nombre d’individus présentant


cette modalité. L’effectif correspondant à la ième modalité du caractère x est noté ni.
 La fréquence d’une modalité est la proportion d’individus de la population totale qui
présentent cette modalité : elle est obtenue en divisant l’effectif de cette modalité du
caractère par l’effectif total et notée fi, soit : fi = ni/N.
4. La démarche statistique
Le travail du statisticien peut être résumé en cinq différentes étapes :
 La conception définit la population statistique, les unités statistiques, les caractères à
étudier, le questionnaire et la nomenclature retenue ;
 La collecte des données : exécution de l’enquête, chiffrement et saisie ;
 L’apurement : vérification, contrôle, redressement, traitement des points particuliers
(outliers ou données abérantes, points extrêmes, etc.) ;
 L’analyse des données : qui passe par la représentation sous forme graphique des
tableaux statistiques et éventuellement la modélisation qui recherche des relations
mathématiques entre les caractères.
 Les recommandations
Cas pratique : « Revenu et productions mensuelles des pêcheurs»
Pour cette étude, la démarche statistique à suivre pourrait être la suivante :
 Conception /Idée générale
 Définir la population : Ensemble des pêcheurs (il faudra définir les types de pêches à
considérer « traditionnel ou moderne », la localisation qui permet de savoir où est-ce
qu’on peut trouver les pêcheurs, et toute autre information permettant de circonscrire
l’étude).
 Définir la couverture : sur toute la population de pêcheurs ou sur un échantillon de la
population.
Puis il faudra identifier l’information à recueillir
 Définir des sections selon le thème :
- Information générale ;
- Activité : Intrants, activités connexes, temps, etc.

4
- Source de revenu : Nombre de poissons pêché par jour, consommation journalière du
pêcheur, nombre/quantité de poissons destiné pour la vente, prix d’un poisson ou d’un
kg de poissons, revenu journalier du pêcheur, nombre de jours de pêche dans la
semaine. Ces informations permettent de ressortir le revenu mensuel du pêcheur.
Il faut par la suite passer à la rédaction du Questionnaire : elle consiste à :
- tester le questionnaire ;
- recruter l’Agent du terrain et le former (recrutement + formation des enquêteurs) ;
- faire une enquête pilote pour à la fois certains de nos enquêteurs qui doivent être
déployés sur le terrain.
Il faut ensuite définir la stratégie de collecte : Cette stratégie de collecte dépend de ce que
vous enquêtez. Il faut pouvoir adapter ta stratégie selon le cas (activités illicites par exemple :
on n’enquêtera pas de la même manière sur l’activité de consommation de drogue que sur la
consommation de mangue).
 Phase de collecte : On envoie les agents sur le terrain, les superviseurs sont là pour les
suivre afin d’assurer la qualité de l’opération. Les superviseurs doivent être très motivés,
avoir une bonne mobilité et être des personnes de confiance.
 Centralisation et saisie : A la phase de centralisation et de saisie, surtout au niveau de la
saisie, il faut créer une application de saisie à l’aide des Logiciels appropriés à cet effet
(Cspro par exemple). Il existe de nos jours, un appareil de collecte des données appelé
PDA qui permet de numériser l’information durant la collecte. Il permet de faire
automatiquement la saisie des réponses aux questionnaires.
Il faudra par la suite passer à la correction des erreurs de saisie, des erreurs de collecte
et des incohérences dans les réponses.
 Compilation des Résultats
 % de pêcheurs par région, type de pêche, sexe, situation matrimoniale ;
 Revenu moyen ;
 Production mensuelle moyenne ;
 Par : région, type de pêche, région et type de pêche, type d’activité.
 Analyse et Interprétation ;
Conclusion /Prise de décisions : il s’agira de proposer des stratégies permettant d’améliorer
le revenu des pêcheurs ou d’améliorer les conditions d’exercice de l’activité ; tout ceci en
fonction des résultats compilés.

5
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE

I. DISTRIBUTIONS STATISTIQUES A UN CARACTERE

Ce premier chapitre présente les différents tableaux et graphiques utilisés pour résumer
l’information statistique collectée. Il va s’élargir à la définition des caractéristiques de
tendance centrale, de dispersion ainsi qu’à celles de position et de concentration.
I.1. Tableaux statistiques

Nous considérons dans toute la suite une population statistique  comportant n individus
désignés par 1, 2,..., n. n représente la taille de la population. Soit X un caractère
statistique à k modalités présentées par la population et notées X1, X2, ..., Xk. Nous noterons
X(i) le caractère observé sur l’individu i. La collecte de l’information relative au caractère
X auprès de la population  consiste à observer, pour chaque individu i, la modalité Xj qu’il
{ X ( ωi ) :i=1, 2 ,. . ., n }
présente ou vérifie. L’ensemble constitue la série statistique brute.
L’information collectée se présente symboliquement sous la forme suivante :
Tableau 1 : Forme générale de l’information recueillie

i X(i) i=1, 2, ..., n

Le traitement informatique de ces informations consiste à dénombrer, pour chacune des


modalités, le nombre d’individus présentant cette modalité. Nous parvenons alors au tableau
dit statistique de forme générale :
Tableau 2 : Forme générale d’un tableau statistique

Modalité Effectif
X1 n1
X2 n2
... ...
Xk nk
Total N
Source : données fictives, nos calculs
Les nj appelés effectifs ou fréquences absolues représentent le nombre d’individus statistiques
présentant (ou respectant) la modalité Xj.
Un tableau statistique doit présenter un certain nombre de renseignements parmi lesquels :
1. Le titre qui indique l’objet du tableau ;
2. L’unité utilisée ;

3. Les titres de lignes et de colonnes et qui en précisent le contenu et qui doivent être précis
et concis ;

4. Les notes (de tableau) qui éclairent le lecteur et qui expliquent mieux certains contenus du
tableau.

5. La source est généralement indiquée au bas du tableau et permet de vérifier la fiabilité des
données.

6
 Fréquence relative
f j =n j /n
La fréquence relative de la modalité Xj représente la proportion des individus
∑ f j =1
j=1,...,k
vérifiant la modalité Xj du caractère X. Les fréquences relatives vérifient la relation
I.1.1. Caractère qualitatif

Lorsque le caractère est qualitatif, le tableau statistique se présente sous la forme générale ci-
dessus. Considérons le caractère sexe étudié sur une population d’élèves d’une classe de taille
n. le tableau statistique se présente sous la forme suivante :
Tableau 3 : Répartition des élèves d’une classe suivant le SEXE
Sexe Effectif
Masculin n1
Féminin n-n1
Source :
Nous pouvons citer comme autre exemple la catégorie socio-professionnelle.
I.1.2. Caractère quantitatif

Nous présentons deux exemples ; l’un traitant de variable discrète et l’autre de variable
continue.
I.1.2.1. Variable discrète

Etudions le nombre de stylos à bille dont dispose chaque étudiant d’une classe considérée.
C’est une variable discrète. Le tableau statistique correspondant aux données recueillies est le
suivant :
Tableau 4 : Répartition des étudiants d’une classe suivant le NOMBRE DE STYLOS A BILLE
dont ils disposent
Modalité Effectif
1 2
3 2
4 1
Total 5

I.1.2.2. Variable continue

Les modalités du caractère sont des classes de valeurs possibles définies par les extrémités des
classes. Deux présentations sont généralement possibles.
Considérons la variable « Age des habitants d’un village ». Nous avons les deux présentations
suivantes :
Tableau 5 : Répartition des habitants d’un village suivant l’AGE
Modalité (ans) Effectif Modalité Effectif
<10 20 10 20
10-14 15 15 15
15-29 10 30 10
30-49 7 50 7
50-64 4 4
65
>=65 1 1

7
De façon générale, le tableau statistique se présente symboliquement :

X j−1 −X j nj j=1, 2,..., nk.

Nous définissons :
 le centre de la classe j noté Cj :

1
C j= ( X +X )
2 j j−1  ;
 La distance entre centres :

1
2( j
d j= X −X j−1 )
 ;
 l’amplitude de classe :

a j =X j− X j−1 .
I.2. Représentation graphique
Bien que les tableaux statistiques présentent toute l’information collectée, il est souvent utile
de présenter les résultats sous forme graphique pour en réaliser une synthèse visuelle. Nous
présentons les représentations graphiques usuelles suivant la nature du caractère.
I.2.1. Caractère qualitatif

Deux types de graphiques sont généralement utilisés : les secteurs angulaires et les tuyaux
d’orgue. Pour ces représentations graphiques, les effectifs sont proportionnels aux aires.
I.2.1.1. Les secteurs angulaires
Chaque secteur correspond à une modalité, l’angle au centre (en degré) étant égal au produit
de la fréquence relative fj par 360 :
nj
θ j=360 . f j =360 .
n .

j

Pour le tableau ci-dessous par exemple on peut construire le diagramme circulaire et obtiendra

Etat matrimonial Effectif (nj)


Marié 3
Célibataire 3
Veuf 2
Divorcé 2
Total 10

8
Répartition d'une population selon l'état matrimonial.

Divorcé; Effectif (nj); 2;


20% Marié; Effectif (nj); 3;
30%

Veuf; Effectif (nj); 2;


20%

Célibataire; Effectif (nj); 3;


30%

I.2.1.2. Tuyaux d’orgue


Chaque tuyau d’orgue a une base constante et une hauteur proportionnelle à la fréquence fj ou
à l’effectif nj.
Pour la population de l’exemple précédent, on peut construire le diagramme en tuyaux
d’orgue et obtenir le diagramme ci-dessous :

Répartition d'une population selon l'état matrimonial

Effectif (nj)

I.2.2. Caractère quantitatif

Pour une variable quantitative, on rencontre essentiellement deux sortes de représentations


graphiques, qui sont en fait complémentaires : le diagramme différentiel (diagramme en
bâtons, histogramme, etc.) et le diagramme intégral (courbe cumulative).

9
I.2.2.1. Variable discrète
a. Diagramme en bâtons

C’est la représentation graphique des fréquences relatives d’une variable discrète.


Exemple : les notes de Maths des étudiants d’une classe
Graphique 1 : Répartition des étudiants suivant la note de Maths

Effectif

11 12 13 14 16 Notes
15

Remarque : En joignant les extrémités des bâtons, on obtient le polygone des fréquences qui
donne une idée de la fonction de densité de la variable.
b. Secteurs circulaires (voir2.2.1.1)
c. Courbe cumulative

On appelle fonction cumulative F(x) au point x la proportion des individus de la population


dont le caractère est inférieur à x. on l’appelle aussi courbe des fréquences cumulées. Cette
fonction est constante dans l’intervalle séparant deux valeurs possibles consécutives. Nous
avons :
i
Fi (x )=∑ f j ∀ x ∈] X i , X i+1 ], avec F ( x )=0 pour x< min( X i ) et F( x )=1 pour x> max( X i )
j=1
La forme générale du graphique est la suivante :
Graphique 2 : Courbe cumulative d’une variable discrète

F
1

0
x
Xj Xj+1

10
Exemple :
Tableau 6 : le nombre de chambres disponibles par ménage
Nombre de chambres
Effectif
par ménage
1 15
2 10
3 25
4 40
5 20

Remarque :
Les Anglo-saxons définissent la fonction cumulative au point x comme étant la proportion de
la population dont le caractère est inférieur ou égal à x.
I.2.2.2. Variable continue

Le diagramme différentiel utilisé est l’histogramme et le diagramme intégral la courbe


cumulative.
a. Histogramme

C’est la représentation graphique des fréquences relatives simples d’une variable continue. Le
diagramme en bâtons ne peut pas s’appliquer ici dans la mesure où il y a une infinité de
valeurs intermédiaires.
A chaque classe de variable, on fait correspondre la surface d’un rectangle ayant pour base
l’amplitude de la classe. La hauteur est proportionnelle à la fréquence ou à l’effectif de la
classe. Deux cas différents peuvent se présenter.
Premier cas : Les classes ont la même amplitude.
La construction du graphique est aisée.
Exemple :

Tableau 7 : Distribution des travailleurs d’une école suivant l’âge.

Classes Effectif
20-30 15
30-40 25
40-50 15
50-60 5

Second cas : les classes ont des amplitudes variables.


Les effectifs (ou les fréquences relatives) ne sont plus directement comparables. On calcule
les fréquences relatives moyennes par unité d’amplitude.
Soit u l’unité d’amplitude (généralement u=min {aj : j=1, 2, ..., k}). Pour toute classe j, la
fréquence moyenne par unité d’amplitude à représenter est :

11
f j|u =f j / ( au )=f . au
j
j
j .
La représentation graphique générale est donnée par :

Graphique 3 : Histogramme d’une variable continue

Effectif

Classe
Xj- Xj s
Exemple : Utiliser le tableau 5.
1

Remarque : ici, on obtient le polygone des fréquences en joignant les milieux du sommet de
chaque rectangle.

b. Courbe cumulative ou courbe de fréquence cumulée

La courbe cumulative d’une variable continue varie continûment de façon monotone


croissante, sauf cas extrême. On ne connaît que les images des extrémités des classes. La
valeur de la fonction cumulative au point x représente l’aire de la portion située sous
l’histogramme à gauche de la valeur x.
Graphique 3 : Courbe cumulative d’une variable continue

Fréquence cumulée
1

0 x
Xj-1 Xj
Exemple : Utiliser le tableau 5
On peut aussi utiliser, pour une variable continue, le polygone de fréquence cumulée qui est
obtenu en joignant les centres des classes.

12
Les parties suivantes présentent des caractéristiques statistiques qui permettent de résumer
l’information collectée. Ces caractéristiques se calculent évidemment sur des caractères
quantitatifs. Leurs valeurs sont approximatives dans le cas de variables continues dans la
mesure où les centres de classes sont considérés pour leur détermination au lieu des vraies
valeurs inconnues.
I.3. Le résumé statistique
Pour trouver les éléments qui particularisent une série statistique quantitative, il faut chercher
à la ‘’résumer’’. Et comme tout résumé, cette phase doit conserver le fondamental de la série
tout en étant concise. Un résumé parfait doit respecter un ensemble de conditions connues
sous l’appellation de condition de Yule :
Il doit :
 Etre défini de façon objective (indépendamment de l’observateur) ;
 Etre dépendant de toutes les observations ;
 Avoir une signification concrète pour être compris par un non spécialiste ;
 Etre simple à calculer ;
 Etre peu sensible aux fluctuations d’échantillonnage ;
 Se prêter aisément aux opérateurs mathématiques classiques.
Les indicateurs que nous présentons ci-après seront évalués au regard de ces conditions.
I.3.1. Caractéristiques de tendance centrale

Elles sont aussi appelées caractéristiques de position ou de localisation et servent à synthétiser


au moyen d’un petit nombre de valeurs numériques la série étudiée. Elles fournissent un ordre
de grandeur de la série étudiée, c’est-à-dire d’en situer le centre, le milieu.
I.3.1.1. La médiane (Me)

La médiane d’une distribution statistique est la valeur du caractère qui partage la série des
individus en deux ensembles d’effectifs égaux. En d’autres termes, la médiane est la valeur
dont l’ordonnée sur la courbe cumulative est égale à cinquante pour cent (50 %).
Remarque : la médiane vérifie les propriétés 1, 3, 4, 6 de Yule mais ne satisfait pas 5 et ne
dépend des observations que par l’ordre.
a. Variable discrète

La médiane est facilement déterminée lorsque le nombre d’observations est impair (n=2p+1).
La médiane est la valeur du (p+1)ème individu.
Exemple : Considérons les notes en Français d’élèves d’une classe : 4, 5, 6, 7, 8, 9, 10. La
médiane est 7.
Lorsque le nombre d’observations est paire, on définit un intervalle médian [Xp,Xp+1] de façon
à avoir le même nombre d’individus de part et d’autre de l’intervalle. On peut aussi définir un
centre médian.
Exemple : Considérons les notes en maths d’élèves d’une classe : 3, 4, 5, 6, 7, 8, 9, 10.
L’intervalle médian est [6, 7] ou le centre médian est Me = 6.5.
La courbe cumulative est généralement utilisée pour une meilleure détermination de la
médiane.

13
Graphique 4 : Détermination de la médiane d’une variable discrète

1/2

0 x
Me

La droite horizontale d’ordonnée ½ peut correspondre à un palier représentant un intervalle


médian.
b. Variable continue

La détermination de la médiane dans ce cas ne pose aucun problème et repose essentiellement


sur l’hypothèse que les individus sont uniformément répartis dans chaque classe. La médiane
(Me) est la valeur x de la variable solution de l’équation F(x)=1/2. Cette solution est unique et
appartient à une classe appelée classe médiane (ou intervalle médian) :
x=Me∈ [ X j−1 , X j ] avec f ( X j−1 )<50 % et f ( X j )>50 %
.
La médiane est ensuite calculée par interpolation linéaire suivant la formule :
Me−X j−1 1/2−F ( X j−1 ) 1/2−F ( X j−1 )
= ⇔ Me=X j−1 +a j
X j− X j−1 F( X j )−F ( X j−1 ) fj .

fj : fréquence relative de la classe médiane. aj : amplitude de la classe médiane.

Exemple : Tableau 8 : Chiffres d’affaires des entreprises d’une ville

Chiffre d’affaires Effectif


100-200 15
200-350 35
350-600 10
600-1000 20
Total 80
La médiane est entre 200 et 350 et se calcule par la formule d’interpolation :
Me−200 40−15
= ⇔ Me=307 .14
150 35
Ainsi, la moitié des entreprises enquêtées ont un chiffre d’affaires inférieur à 307.14.
La médiane est calculée à partir de la courbe cumulative. On trace la droite horizontale
d’ordonnée ½ et on projette le point d’intersection avec la courbe sur l’axe des abscisses ; on
détermine ainsi l’intervalle médian servant au calcul de la médiane par interpolation.

14
I.3.1.2. Le mode (Mo)

Le mode Mo d’une distribution statistique représente la valeur de la variable pour laquelle la


fréquence relative est la plus élevée ; c’est la valeur qu’on rencontre le plus souvent dans la
série.
Lorsque la variable est discrète, le mode est défini avec précision. Quand deux valeurs
consécutives ont la fréquence la plus élevée, on parle d’intervalle modal. La distribution est
dite bi-modale lorsque la série présente deux modes non consécutifs.
Dans le cas d’une variable continue, la classe modale est définie comme celle ayant la plus
grande fréquence par unité d’amplitude. On peut aussi représenter le mode par le centre de la
classe modale.
I.3.1.3. Les moyennes

Plusieurs moyennes sont utilisées en statistique.


a. Moyenne arithmétique
La moyenne arithmétique d’une variable statistique est le rapport de la somme des valeurs
prises par la variable au nombre d’observations.
n
1
X = ∑ X (ωi )
n i=1 .
En prenant en compte le fait que plusieurs individus peuvent présenter une même modalité, on
peut définir la moyenne arithmétique comme la somme des modalités d’une variable
statistique pondérée par les fréquences relatives simples (part des individus de la population
présentant une modalité donnée).
k k
1
X= ∑ n X =∑ f X
n j=1 j j j =1 j j

Exemple : utiliser le tableau 6 pour calculer le nombre moyen de chambres disponibles par
ménage.
Cas d’une variable continue

Très souvent et quand il s’agit d’une variable quantitative, les valeurs prises par chaque
individu ne sont pas connues car les données ont été préalablement regroupées en classes.
L’application de la formule générale est donc impossible.
En supposant les individus uniformément répartis dans une classe, on convient de prendre
comme valeurs des individus d’une classe le centre de classe. La formule générale devient
alors :
k k
1
X = ∑ n j C j =∑ f j C j
n j =1 j=1 .
Le changement d’origine peut aussi s’appliquer à une variable continue lorsque ses valeurs
sont grandes.

15
I.3.1.4. Moyenne harmonique

On appelle moyenne harmonique la quantité H vérifiant :

(∑ )
k k
1 nj fj
1/ H= =∑
n j=1 X j j=1 X j
.
Cette formule est utilisée pour calculer les moyennes de pourcentages ou de proportions ; par
exemple le nombre moyen de médecin pour 10000 habitants ou le nombre moyen
d’enseignants pour 1500 élèves.
I.3.1.5. Moyenne géométrique

La moyenne géométrique est la quantité :


k k
G= √
n n n n
X 1 1 X 22 .. . X k k = ∏ Xj
j=1
n /n
j
=∏ X j j
j=1
f

.
Cette moyenne est utilisée pour calculer des taux de croissance moyens par exemple.
I.3.1.6. Moyenne quadratique

Elle est donnée par la formule :

√ √
k k
1
Q= ∑ n j X 2j = ∑ f j X 2j
n j=1 j=1

Cas d’un mélange de populations


Supposons que la population est formée de m sous-populations (ces sous-populations forment
Xl
une partition de la population). Soit Pl la sous-population l, nl l’effectif et la moyenne de
la variable X dans la sous-population Pl. Les différentes moyennes de la population totale P
sont données par :
m m
1
X= ∑ n X =∑ p X
n l=1 l l l=1 l l

(∑ )
k k
1 nj fj
1/ H= =∑
n j=1 X j j=1 X j
.

√ √∑
k k
1
Q= ∑ n X 2=
n j=1 j j
f j X 2j
j=1
k k


G= X 1 1 X 22 .. . X k k =∏ X j j =∏ X j j
n n n n

j=1
n /n

j=1
f

La moyenne arithmétique d’un mélange de populations est égale à la moyenne des moyennes
arithmétiques, observées dans chacune des sous-populations, pondérées par la proportion des
individus.

16
Propriétés
Propriété 1

aX +b=a X+b
Etant donnés deux réels a et b, .
Lorsque les valeurs prises par la variable discrète X sont très élevées, les calculs sont
X '=X− X 0
onéreux ; on effectue alors un changement d’origine en posant . La nouvelle
origine ne doit pas être une valeur extrême de la variable X.
Propriété 2

H <G<X <Q
Les différentes moyennes vérifient les inégalités : .
Propriété 3 : Relation entre Mode, Mediane et moyennes.
On montre que la médiane est presque toujours comprise entre le Mode et la Moyenne et plus
proche de la moyenne.
 Si la distribution est symétrique, les trois caractéristiques sont confondues.
 Si le mode est inférieur à la moyenne, la distribution est étalée vers la droite
 Si le mode lui est supérieur alors la distribution est plutôt étalée vers la gauche.
Remarque : Dans la littérature, on distingue :
 Les moyennes de grandeurs,
 Les moyennes de position et,
 La moyenne de fréquence.
La dernière désigne le mode, la deuxième désigne la médiane, les deciles et de façon générale
les quantiles d’ordre α. Les premières sont classées en deux groupes les moyennes simples ou
élémentaires (que nous avons présenté) et les moyennes élaborées.
I.3.2. Caractéristique de dispersion

Elles servent à préciser la variabilité de la série, c’est-à-dire mesurer l’éloignement des


observations entre elles ou par rapport à leur tendance centrale. Etant donné une
caractéristique de tendance centrale C et une valeur possible de Xi, les quantités xi –C et |xi –
C| sont respectivement la différence à la tendance centrale et l’écart à la tendance centrale (ou
encore écart absolu à la tendance centrale).

I.3.2.1. L’étendue ou range


L’étendue représente la différence entre la plus grande et la plus petite valeur observée.
W=max { X j : j=1, 2 , .. . , k }−min { X j : j=1 ,2 , .. . , k }
.
Elle ne donne pas de précision sur la répartition des individus de la population, mais indique
le domaine de variations de la variable statistique.

17
I.3.2.2. L’écart médian ou écart probable
C’est la médiane des écarts à la médiane.

I.3.2.3. L’écart absolu moyen par rapport à la médiane


L’écart absolu moyen par rapport à la médiane est la moyenne arithmétique des écarts absolus
à la médiane.
k
1
Em= ∑ n j|X j −Me|
n j=1 .
Cet indicateur est d’autant plus réduit que les individus sont regroupés autour de la médiane,
autrement dit moins dispersés autour de la médiane.

I.3.2.4. L’écart absolu moyen par rapport à la moyenne


On définit de même, L’écart absolu moyen par rapport à la moyenne comme la moyenne
arithmétique des écarts absolus à la moyenne.
k
1
Em= ∑ n j|X j − X̄|
n j=1 .
Cet indicateur est d’autant plus réduit que les individus sont regroupés autour de la moyenne,
autrement dit moins dispersés autour de la moyenne.

I.3.2.5. L’écart type


La variance représente la moyenne arithmétique des carrés à la moyenne.
k
1
Var ( X )= ∑ n j ( X j −X )2
n j=1 .
k
1
Var ( X )= ∑ n j X 2j + X 2
n j=1 .
L’écart type est la racine carrée de la variance.


k
1
σ X =√ Var ( X )= ∑ n j X 2j + X 2
n j=1 .
Il représente la distance moyenne des observations à leur moyenne. La série est d’autant plus
dispersée que l’écart-type est élevé. Cependant il n’existe pas d’ordre de grandeur de cette
caractéristique.
Propriété 4
2
Soit a et b deux réels. Alors Var ( aX +b ) =a Var ( X ) .

Propriété 5 : Mélange de populations

18
Nous reprenons les notations de la propriété 2. Appelons nlj le nombre d’individus de la sous-
population Pl vérifiant la modalité Xj et nl. Le nombre d’individus de la sous-population Pl.
Désignons par fj la fréquence de l’observation Xj dans la population totale.
m
nlj nl.
f lj = et pl = ; on a : f j =∑ pl f jl
Posons n n l=1 .
Appelons l l’écart-type de la variable X dans la sous-population Pl.
La variance totale de la variable X dans la population totale est donnée par
l’expression :

m m
σ =∑
2
pl σ 2l + ∑ pl ( X l −X )2
l=1 . l =1
La première quantité dans la variance totale mesure la dispersion au sein des sous-populations
(variance intra population) et la seconde mesure la dispersion entre les sous-populations
(variance inter population).

I.3.2.6. Coefficient de variation


La moyenne et l’écart type s’expriment dans la même unité que la variable X. le coefficient de
variation qui est un nombre sans dimension permet de comparer des distributions statistiques
qui ne s’expriment pas nécessairement dans la même unité. Il est égal au rapport de l’écart
type à la moyenne de la variable X. Etant données plusieurs distributions, la plus dispersée est
celle qui a le coefficient de variation le plus élevé :
σX
CV ( X )=
X .

I.3.2.7. Autres caractéristiques de dispersion


La médiane et la moyenne sont généralisées par les notions de quantiles et de moments.
 Les quantiles
Ce sont des caractéristiques de position. Le quantile d’ordre  est la racine de l’équation
0≤1/α≤1
F(x)= 1/ ( ) – ou encore X=F-1(1/)– et indique qu’une proportion 
d’individus de population ont leurs valeurs du caractère inférieures à X.
La médiane représente le quantile d’ordre 2. On distingue aussi les quartiles q1, q2 et q3
(quantiles d’ordre 4), les déciles d1, d2,..., d9 (quantiles d’ordre 10), les centiles c1, c2,..., c99
(quantiles d’ordre 100), etc. En considérant les quartiles, nous pouvons noter que 25% des
individus ont leurs valeurs du caractère X inférieures à q1.
On peut cependant utiliser les quantiles pour définir des caractéristiques de dispersion. En fait,
les quantiles définis, les intervalles inter-quantiles représentent des caractéristiques de
dispersion. En considérant les quartiles, l’intervalle inter-quartile [q1,q3] contient 50% des
individus. On compare la longueur de cet intervalle à la moitié de l’étendue. Si cette longueur
est plus petite que la moitié de l’étendue, on dit que la dispersion est faible et forte dans le cas
contraire.
 L’intervalle interquantiles

19
On définit les intervalles interquantiles par la différence entre le deuxième et l’avant-dernier
quantile. Par exemple, l’intervalle interquartile est définit par Q3 – Q1 et l’intervalle
interdeciles par : D9 – D1. il regroupe respectivement 50 et 90 % des observations et
permettent d’éliminer les valeurs extrêmes.
 L’intervalle interquantiles relatifs
On obtient les intervalles interquantiles relatifs en rapport les precedentes au quantile centrale
afin d’obtenir un indicateur sans mesure. Par exemple, l’intervalle interquartile relatif est
definit par (Q3 – Q1)/Q2 et l’intervalle interdeciles relatif par : (D9 – D1)/ D5. Ils donnent
une idée de l’assymetrie de la distribution.
Propriété 6 : les moments
On appelle moment d’ordre r la quantité mr suivante :
k
1
mr = ∑ n j X r
n j=1 j
,
et moment centré d’ordre r la quantité r définie par :
k
1
μr = ∑
n j=1
n j ( X j −X )r
.
On a :
m0=1 0=1
m1= X 1=0
2
m2= Var( X )+ X 2=Var(X)
I.3.3. Caractéristiques de forme

Il s’agit de définir des indicateurs statistiques permettant de caractériser la forme d’une


distribution, autrement dit la série considérée est-elle aplatie, symétrique ?

I.3.3.1. Coefficient d’asymétrie ou Skewness


Il indique le degré de symétrie d’une distribution unimodale par rapport à son mode. Plusieurs
coefficients ont été proposés dans la littérature, mais le plus utilisé est le coefficient 1 de
Fisher défini à partir du moment centré d’ordre 3 d’une série :
μ3
γ 1=
σ3 .

 La distribution est symétrique lorsque 1=0 ;


 La distribution est oblique vers la gauche lorsque 1>0 ;
 La distribution est oblique vers la droite lorsque 1<0.
Q1 −Q3 −2 M e
d=
Remarque : On utilise aussi le terme, 2Me pour mesurer l’assymetrie. On
montre que, dans le cas d’une distribution unimodale, les deux indicateurs ont le même signe.

20
En outre, on utilise le premier et le second coefficient de Pearson pour mesurer le dégré
d’oblicité d’une courbe de fréquence. Ils caractérisent la dissymetrie. Ils s’obtiennent par :
moyenne−mod e
ν=
Le premier coefficient de Pearson : écart−type
3( moyenne−mode )
ν=
Le second coefficient de Pearson : écart−type

I.3.3.2. Coefficient d’aplatissement ou Kurtosis


Le coefficient le plus utilisé est le coefficient 2 de Fisher défini par :
μ4
γ 2= −3
σ4
.
L’aplatissement d’une distribution est comparé à celui de la distribution normale de moyenne

( ( ))
2
1 1 x−m
f ( x )= exp −
m et d’écart-type  de fonction de densité σ √2 π 2 σ .
 Si2 =0 alors l’aplatissement est proche de celui de la loi normale : la courbe est
mésokurtique ;
 Si2>0 alors la distribution est moins aplatie que la distribution normale de même
moyenne et de même variance : la courbe est leptokurtique ;
 Si2<0 alors la distribution est plus aplatie que la distribution normale de même moyenne
et de même variance : la courbe est platykurtique.
I.3.4. Caractéristiques de concentration

La notion de concentration a été introduite par Gini et a porté sur les salaires et les revenus.
Cette caractéristique s’applique aux variables continues à valeurs positives.

I.3.4.1. Courbe de concentration


La mesure de la concentration exige la connaissance des effectifs des classes et de la somme
des valeurs prises par le caractère dans chaque classe. La détermination de la courbe de
concentration est fondée sur le tableau suivant :

Tableau 9 : Calcul permettant de déterminer la courbe de Lorentz

21
Classe Centre de Fréquence Fréquence Masse de Masse relative Masse relative
classe relative cumulée (F) caractère cumulée (q)
[X1-X2[ c1 f1 f1 n1c1 m1=n1c1/M* m1
[X2-X3[ c2 f1 f1+ f2 n2c2 m2=n2c2/M m1+m2
... ... ... ... ... ... ...
[Xj-Xj+1[ cj fj f1+ f2+...+ fj njcj mj=njcj/M m1+m2+...+ mj
... ... ... ... ... ... ...
[Xk-Xk+1[ ck fk 1 nkck mk=nkck/M 1
M=∑ n j C j
* j .
La courbe de Lorentz est la représentation graphique de la masse relative cumulée par rapport
à la fréquence cumulée. La distribution est d’autant plus égalitaire que la courbe de Lorentz
est proche de la première bissectrice. Le graphique ci-après présente la courbe de Lorentz
dans un cadre général.

22
Exemple : Utiliser le tableau 8 pour tracer la courbe de concentration

Graphique 5 :Courbe de Lorentz

Masse relative

cumulée (qj)

Fréquence

1 cumulée (Fj)

I.3.4.2. Coefficient de concentration de Gini


C’est un indice G qui est égal au double de la surface (i) entre la courbe de concentration et la
première bissectrice :
k+1
G=2 i=1− ∑ ( F j −F j−1 )( q j +q j−1 )
j=1 .
La distribution est d’autant plus égalitaire que l’indice de Gini est petit.
Exemple : Utiliser le tableau 8 pour tracer la courbe de concentration et calculer l’indice de
Gini.

I.3.4.3. La médiale (Ml)


C’est la valeur du caractère qui partage la masse globale du caractère en deux
parties égales. Par exemple, la médiale d’une distribution de salaires est le salaire x tel que
tous les travailleurs qui ont un salaire inférieur à x gagnent globalement autant que ceux
ayant un salaire supérieur à x. Elle vérifie l’équation q(x)=1/2.
Son calcul est basé sur l’hypothèse de répartition uniforme des individus dans
M l ∈ [ X j−1 , X j ]
chaque classe et se fait par interpolation linéaire. Supposons que . On a
alors :
M l −X j−1 1/ 2−q ( X j−1 ) 1/2−q ( X j−1 )
= ⇔ M l= X j−1 +a j
X j −X j −1 q ( X j ) −q ( X j−1 ) m( X j)
.

Exemple : Calculer la médiale à partir du tableau 8

23
II. SERIE STATISTIQUE DOUBLE, TABLEAUX ET GRAPHIQUES

L’un des chantiers de l’analyste des données est la recherche d’éventuelles relations entre caractères
soit dans la perspective de la confirmation ou de l’infirmation d’une théorie, de préjugés ; soit pour
établir une relation, entre variables économiques, qui n’était à priori pas évidente ou pressentie.
Par exemple, les données de l’enquête niveau de vie (ENV) permettent-elles de dire que les
autochtones sont plus, ou moins, pauvres que les allogènes ? Les habitants de Ségou sont-ils plus, ou
moins, pauvres que ceux des autres villes (Mopti, Tombouctou, Gao, …).
En outre, existe-t-il une relation entre le lieu d’habitation et la séroprévalence ?
Ainsi, l’un des objectifs de cette section est de fournir aux Statisticiens, les rudiments de l’analyse de
telles relations et de leur permettre, quand des telles relations existent, de les quantifier.
I.4. Présentation générale des tableaux statistiques à double entrée
Le travail du statisticien est de synthétiser l’information contenue dans un ensemble. A ce niveau, les
tableaux et graphiques sont d’un apport inestimable. Ils sont dans beaucoup de cas plus expressifs que
les chiffres présentés çà et là. Toutefois, pour leur permettre de véhiculer l’information, il convient de
les choisir à propos. Quel tableau faut-il présenter pour rendre pertinente l’information avancée  ? C’est
à cette question que nous nous proposons de répondre dans cette section.
Notations
Soit une population P d’individus en nombre n présentant deux caractères X et Y ayant respectivement
k et l modalités.
On note nij le nombre d’individus de P qui vérifient à la fois les modalités Xi de X et Yj de Y.
nij
f ij =
n
On définit  : Fréquence totale ou conjointe du couple (Xi ,Yj) qui est la
proportion d’individus vérifiant à la fois les modalités Xi de X et Yj de Y.
Les modalités de X (resp. de Y) étant incompatibles (un individu ne peut en aucun cas avoir deux
modalités de la même variable) et exhaustives (chaque individu peut être classé dans la partition
formée par une modalité de la variable), la somme des effectifs n ij est egale à l’effectif de la population
n. Ainsi, on a :

k l k l
∑ ∑ n ij=n ∑ ∑ f ij=1
i=1 j=1 i=1 j=1

Les modalités des deux caractères définissent donc une partition de la population mère en k*l
sous-population Pij d’effectif nij. Chaque modalité des caractères en présence prise séparément
définit une sous population dont les effectifs s’obtiennent par sommation des effectifs relatifs
aux modalités de l’autre caractère.

Ainsi, dans une sommation, on notera par un point l’indice sur lequel porte la sommation.
Et donc, on a :

24
l l k k

∑ n ij=n i. ∑ f ij=f i. ∑ n i.=n ∑ f i.=1


j=1 j=1 i=1 i=1

k k l l

∑ n ij=n . j ∑ f ij=f . j ∑ n. j=n ∑ f . j =1


i=1 i=1 j=1 j=1

L’information collectée peut se présenter selon trois types de tableaux :


- La distribution globale ;
- Les distributions marginales ;
- Les distributions conditionnelles.

Tableau de distribution conjointe


L’information collectée se présente sous la forme d’un tableau croisé appelé tableau
de contingence ou encore tableau à double entrée. C’est donc un tableau à k lignes et l
colonnes qui se présente comme suit :
Tableau de contingence
Y
Y1 Y2 … Yj … Yl
X
X1 n11 n1j. n1l n1.
X2 . n2.

Xi ni1 ----- ------- nij ----- nil ni.

Xk nk1 nkj nkl nk.


n.1 n.2 n.j n.l n

Remarque : Un tableau de contingence peut représenter les effectifs conjoints ou les


fréquences conjointes. Dans ce deuxième cas, nous avons un tableau de la forme :
Tableau de contingence
Y
Y1 Y2 … Yj … Yl
X
X1 f11 f1j. f1l f1.
X2 . f2.

Xi fi1 ----- ------- fij ----- fil fi.

Xk fk1 fkj fkl fk.


f.1 f.2 f.j f.l 1
Exemple :
L’étude du sexe et de la Catégorie Socio-professionnelle (CSP) des individus d’une population a
fourni le tableau ci-après :
Tableau : Répartition de la population selon le sexe et le CSP
CSP
Cadre Maîtrise Ouvriers Total
Sexe
Masculin 20 25 35 80
Féminin 5 20 15 40
Total 25 45 50 120
Source :

25
Tableau : Répartition de la population selon le Sexe et le CSP
CSP Cadre (en Maîtrise (en Ouvriers (en
Total (en %)
Sexe %) %) %)
Masculin (en %) 16,67 20,83 29,17 66,67
Féminin (en %) 4,17 16,67 12,50 33,33
Total (en %) 20,83 37,50 41,67 100,00
Source :
Soit la distribution des logements selon le statut d’occupation et le nombre de pièces.
Tableau : Répartition des logements selon le statut d’occupation et le nombre de pièces
Nombre de pièces
1 2 3 4 5 Total
Statut d’occupation
Propriétaires 37 107 163 146 149 602
Locataires 109 192 167 86 47 601
Autres 65 50 57 43 27 242
Total 211 349 387 275 223 1445
Source :
Tableau : Répartition des logements selon le statut d’occupation et le nombre de pièces
Nombre de pièces
Total (en
1 2 3 4 5
%)
Statut d’occupation
Propriétaires (en %) 2,56 7,40 11,28 10,10 10,31 41,66
Locataires (en %) 7,54 13,29 11,56 5,95 3,25 41,59
Autres (en %) 4,50 3,46 3,94 2,98 1,87 16,75
Total (en %) 14,60 24,15 26,78 19,03 15,43 100,00
Source :
Remarque :
Le tableau de contingence s’impose dans le cas de la présentation de deux caractères
qualitatifs ou de deux caractères quantitatifs discrets ou encore dans le cas d’un caractère
qualitatif et d’une variable quantitative. Dans le cas où l’un au moins des caractères est une
variable quantitative continue, on procède à un regroupement en classe de la ou des variables
en questions et l’on présente le tableau de contingence avec les classes ainsi obtenues.
Exemple :
Tableau : Répartition selon l’âge et la situation matrimoniale

Etat Matrimonial
Célibataire Marié Veuf Divorcé Total
Age
[0, 20[ 50 10 1 1 62
[20, 40[ 45 15 5 10 75
[40, 60[ 30 10 10 0 50
[60, 80[ 5 15 30 5 55
[80, 100[ 1 10 40 1 52
Total 131 60 86 17 294
Source :

Tableau : Répartition selon l’âge et la situation matrimoniale

26
Etat Matrimonial Célibataire
Marié (en %) Veuf (en %) Divorcé (en %) Total (en %)
Age (en %)
[0, 20[ 17,01 3,40 0,34 0,34 21,09
[20, 40[ 15,31 5,10 1,70 3,40 25,51
[40, 60[ 10,20 3,40 3,40 0,00 17,01
[60, 80[ 1,70 5,10 10,20 1,70 18,71
[80, 100[ 0,34 3,40 13,61 0,34 17,69
Total 44,56 20,41 29,25 5,78 100,00
Source :
I.5. Distribution marginale
Il existe deux types de distributions marginales :
- La distribution marginale ligne,
- La distribution marginale colonne
Le premier désigne les totaux par ligne, et donc, les totaux des modalités du caractère X.
Tandis que le second désigne les totaux par colonne et donc les totaux des modalités du
caractère Y.
On parlera de fréquences marginales ou d’effectifs marginaux selon qu’il s’agit des totaux des
fréquences ou des effectifs.
Ces différentes distributions marginales peuvent-être présentées par les tableaux ci-après :
X Effectifs Fréquences
X1 n1. f1
X2 n2. f2
… … … Distribution
Xj ni. fi marginale de X
… … …
Xl nk. fk
  n 1

n. i.
f . i.=
n
: fréquence marginale ligne.

Y Effectifs Fréquences
Y1 n.1 f.1
Y2 n.1 f.2
… … … Distribution
Yj n.j f.j marginale de Y
… … …
Yl n.k f.k
n 1

n. . j
f . . j=
n : fréquence marginale colonne
Ainsi, l’effectif marginal ni. (resp. la fréquence marginale fi.) désigne le nombre (resp. la proportion)
d’individus de la population qui vérifient la modalité Xi de X (indépendamment de Y).

L’effectif marginal n.j (resp. la fréquence marginale f.j) désigne le nombre (resp. la proportion)
d’individus de la population qui vérifient la modalité Yj de Y (indépendamment de X).

27
Exemple :
Si nous reprenons l’exemple précédent, nous avons :

Tableau : Répartition de la population selon le sexe


Sexe Effectifs Fréquences (en %)
Masculin 80 66,67
Féminin 40 33,33
Total 120 100,00
Source :
Tableau : Répartition de la population selon le CSP
CSP Effectifs Fréquences (en %)
Cadre 25 20,83
Maîtrise 45 37,50
Ouvriers 50 41,67
Total 120 100,00
Source :
I.6. Distribution conditionnelle

Les ni. (resp. n.j) individus présentant la modalité Xi de X (resp. la modalité Yjde Y)
définissent une sous-population de la population suivant les modalités de X (resp. Y).
On appelle distribution conditionnelle selon le caractère Y par rapport à X i la
distribution des individus vérifiant tous la modalité X i du caractère X selon le caractère Y.
Elle est caractérisée par les effectifs nij (j = 1, 2, …, l) et les fréquences conditionnelles de la
nij
f i/ j= =f ij
n. j
modalité Yj suivant Xi :
C’est une distribution à un caractère. Il existe k distributions conditionnelles de Y sachant X (k
étant le nombre de modalités de X).

De même, Il existe l distributions conditionnelles selon le caractère Y (l étant le nombre de


modalités de Y).

Ces distributions sont consignées dans les tableaux ci-dessous.


Distribution conditionnelle Y sachant X = Xi

X Effectifs Fréquences
Y1 ni1 fi1
Y2 ni2 fi2

Yj nij fii

Yl nil fik
ni. 1

nij
f j/i= =f ij
ni.
Fréquence conditionnelle de Y = Yj sachant X = Xi.
Distribution conditionnelle de X sachant Y = Yj

28
X Effectifs Fréquences
X1 N1j fj1
X2 N2j fj2
…    
Xj nij fji
…    
Xk nkj fjk
  n.j 1
nij
f i/ j= =f j
n. j i
 : fréquence conditionnelle de X = Xi sachant Y = Yj.
Exemple :
Si nous reprenons l’exemple précédent, on a :
Tableau : Répartition des cadres
selon le sexe
Fréquence
Effectifs
(en %)
Masculi
20
n 80,00
Féminin 5 20,00
Total 25 100,00
Source :
Tableau : Répartition des agents de
maîtrise selon le sexe
Total (en
Effectifs
%)
Masculi
25
n 55,56
Féminin 20 44,44
Total 45 100,00
Source :
Tableau : Répartition des ouvriers
selon le sexe
Effectif Fréquences
s (en %)
Masculi
35
n 70,00
Féminin 15 30,00
Total 50 100,00
Source :

29
Remarque :
nij nij ni . nij nij n . j
= ∗ ⇒ i = ∗ j
n ni . n f ij =f i.∗f j n n. j n f ij =f . j∗f i
on a et
La distribution marginale selon le caractère X (resp. Y) peut être considérée comme le mélange des
distributions conditionnelles de X si Yj (resp. Y sachant Xi)
I.7. Représentation graphique.
Les représentations et l’étude conjointe de deux caractères peuvent-être abordées en fonction de la nature des
variables en jeu. On distingue globalement trois (3) cas :
- Cas de deux caractères qualitatifs,
- Cas d’un caractère qualitatif et d’une variable quantitative,
- Cas de deux variables quantitatives.
Toutefois, il faut remarquer que les deux derniers cas peuvent quelques fois se ramener au premier. C’est
pour cela que l’accent sera mis sur le premier.

Cas de deux (2) caractères qualitatifs


Soit le tableau de contingence :
Y
Y1 Y2 … Yj … Yl
X
X1 f11 fj1 fl1
X2 .

Xi ------ ----- ------- fji ----- -------

Xk f1k fjk flk

Les données d’une série statistique double peuvent être représentées par un diagramme en bande. A cet effet,
on peut représenter les effectifs ou les fréquences.

Il s’agit, en fait, de représenter l’effectif n ij par un rectangle dont la base est proportionnelle à n .j et
la hauteur proportionnelle à la fréquence conditionnelle fji. L’aire du rectangle est alors
proportionnelle à nij :
Fréquence
cumulée
f11 fl/2 fl/i fl/k
.

fj/1 fj/2 fi/j fj/k

f1/1 fl/i fl/i fl/i


X1 X2 … Xi Xk
Remarques :
1. Les graphiques systématisés par certains logiciels sont réalisés différemment. Par exemple,
Microsoft Excel propose des graphiques où les bandes ont des hauteurs proportionnelles à
l’effectif marginal n.jet le partage à l’intérieur de chaque bande se faire proportionnel aux f ij.
Ce sont ces graphiques que nous présentons.
2. Lorsque l’un des caractères qualitatifs ne présente que 2 modalités, on peut utiliser une
représentation par secteurs : les angles au centre sont proportionnels aux fréquences
conditionnelles fij et les rayons proportionnels à la racine carrée des effectifs marginaux n.j.

30
Exemple :

Reprenons l’exemple précédent, on peut produire les représentations graphiques suivantes :


Distribution globale (nij)
Graphique : Répartition de la population selon le sexe et le CSP

45.00%
40.00%
35.00%
30.00% Féminin
25.00%
Masculin
20.00%
15.00%
10.00%
5.00%
0.00%
Cadre Maîtrise Ouvriers

Source  :

31
DEUXIEME PARTIE : ECHANTILLONNAGE, COLLECTE ET TRAITEMENT DES
DONNEES

L’objectif de cette partie est de développer les habiletés nécessaires pour la conduite du processus
d’une enquête. Après la présentation du schéma général d’une étude (Chapitre I) et des notions
générales utilisées en théorie des sondages (Chapitre II), nous parcourrons les méthodes
empiriques (Chapitre III). Puis, nous décrirons successivement les différentes méthodes aléatoires
classiques : le Sondage aléatoire Simple (SAS) (Chapitre IV), le Sondage Stratifié (Chapitre V) le
Sondage à 2 ou plusieurs degrés et quelques exemples de grandes enquêtes courantes (Chapitre
VI). Avec ces chapitres qui exposent sur les techniques d’échantillonnage, nous abordons le mode
opératoire et l’organisation d’une enquête (Chapitre VII). La démarche d’exploitation (traitements
et analyses) des données d’enquêtes constituera le dernier chapitre (Chapitre VIII).

CHAP. I. LES ETAGES DU PROCESSUS D’UNE ENQUÊTE PAR SONDAGE

Ce chapitre présente en premier les trois grandes directions de recherche de l’information, et justifie
le besoin de recourir aux enquêtes par sondage. Par la suite, les différentes étapes du processus
général d’une étude par sondage sont présentées, afin de situer la place et l’importance de chacune
des parties de ce module dans le schéma général du processus.
I.8. I.1.Les principales directions de recherche de l’information
La société actuelle est de plus en plus demandeuse de grandes masses d’informations pour décrire,
expliquer, prévoir, planifier, ou encore développer des stratégies idoines de marché, de lutte contre
des fléaux (pauvreté, épidémies, inflation, conjoncture), formuler une réponse adéquate à des
besoins (éducatifs ou sanitaires), etc. En bref, il faut de l’information pour prendre la bonne
décision. Mais la décision se prend sur la base d’une information qui est synthétisée, c'est-à-dire un
indicateur construit à partir de données. La bonne procédure de collecte de données nécessaires et le
choix judicieux de l’indicateur et de la méthode de synthèse sont donc des garanties scientifiques
pour conduire à la bonne décision. Mais alors, comment et où obtenir les données nécessaires à la
construction des indicateurs d’aide à la décision ?
Les procédures de collecte de données peuvent être regroupées en trois directions principales :
Direction 1. La Recherche documentaire (dont fait partie la collecte de données
administratives) : Elle consiste en la collecte pour analyse des fichiers administratifs ou des
archives. Le recours à cette méthode sera d’autant plus conseillé que l’archivage dans les
administrations est efficace. L’analyse documentaire peut être (est) utilisée pour :
 L’étude de la natalité, de la fécondité et de la mortalité, à partir des registres d’état civil ;
 Les études épidémiologiques ou sur diverses questions de santé, à partir des registres du
système de santé ;
 Les analyses sur le système éducatif ;
 La constitution de banques de données financières (BDF) sur les entreprises ;
 Etc.
Direction 2. Le Recensement : C’est une enquête exhaustive auprès de l’ensemble des
individus faisant partie du champ d’étude. Le RGPH (Recensement Général de la Population
et de l’Habitat) en est le plus connu mais pas le seul. On peut tout aussi bien faire un
recensement d’un type de producteurs agricoles (de coton par exemple) ou d’une catégorie
sociale (chauffeurs de taxis, opérateurs économiques, patrimoine de l’Etat, etc.). Bien que ce
type d’opération permette d’avoir l’information complète, il présente les défauts d’être très
coûteux en temps, en ressources matérielles, financières et humaines. Ces différents défauts
32
constituent des contraintes qui limitent l’utilisation des recensements et conduisent à
recourir aux enquêtes par sondage.
Direction 3. Le Sondage : Comme signalé plus haut, pour des raisons de rapidité et
d’économie et/ou des contraintes de ressources (financières, matérielles, humaines, et
autres), on est souvent amené à observer seulement une partie de la population d’étude,
désignée par échantillon. On peut encore recourir à ce procédé pour des études répétitives
(enquêtes de conjoncture, évolution des prix), ou encore pour des contrôles dans le
processus de fabrication. Dans les premiers cas, la répétition des enquêtes permet de suivre
l’évolution d’indicateurs, et le sondage suffit largement, d’autant plus qu’on est tenue par
des contraintes diverses. Dans le second cas, le contrôle dans le processus de fabrication
peut parfois conduire à la destruction du produit. Il ne serait pas sage d’utiliser ainsi un
recensement. Par exemple, observer la qualité de l’eau ensachée par une structure artisanale
par le service d’hygiène pourrait nécessiter des prélèvements dans plusieurs sachets
sélectionnés. On est donc amené à détruire les sachets échantillonnés. Le recensement dans
ce contexte conduirait à détruire toute la production sur une certaine période ! Ainsi, le
sondage est parfois la seule alternative.
Le grand public a tendance à restreindre les « sondages » aux seuls sondages d’opinions. Cette
compréhension est restrictive. L’utilisation des sondages peut se justifier dans un nombre très vaste
de domaines de la vie. De manière générale, on peut considérer que ceux qui en expriment
couramment le besoin sont : les Gouvernements, les Entreprises et opérateurs économiques, les
Institutions sociales, les chercheurs, et les ONG.

I.9. I.2. Schéma général du processus d’une enquête par sondage


Le schéma suivant décrit les principales étapes ou rubriques du processus d’une étude pas sondage.

Fig.1 : Schéma général du processus d’une enquête par sondage

33
Définitions des objectifs et contraitesAnalyses préparatoires Chronogramme/Sensibilisation
Etude : Revue de la littérature et recherche documentaire Budgétisation et recherche des financements

Plan d'analyse : (i) Base de sondage, Conception


Outils de collecte : (i) Questionnaires/manels
(ii) Plan d'achantillonnage (ii) Masques de saisies

Recrutement du personnel de l'enquêteCollecte des données Collecte des données


Formation du personnel et enquête pilote Contrôle des données sur le terrain et supervision

Dépouillement et numérisation
CODIFICATION SAISIE

Traitement et validation des données


CONTRÔLES & APUREMENT/VALIDATION
(RE)CALCULS DES PONDERATIONS & REDRESSEMENTS
TRAITEMENTS

Analyse et rédaction du rapport d'étude


Exécution du plan d'analyse : Statistiques diverses,
Actualisation du plan d'analyse
modélisations, rédaction du rapport

Ateliers, séminaires, prospectus, CD-Rom, PUBLICATIONS


Site Internet, EVALUATIONS
Evaluation, préparation des prochaines échéances
etc

I.2.1 La définition des objectifs et contraintes


Ici on précise ce que l’on veut, on identifie les variables d’intérêt et les paramètres, on circonscrit le
champ de l’enquête, la population, on identifie les unités d’observations (ou individus) et l’unité
d’échantillonnage, on définit la précision voulue, et on recherche l’existence d’information
auxiliaire, à partir de données secondaires, de sources administratives. Ces sources permettront
aussi, si possible, de constituer les bases de sondage. Il est nécessaire l’élaborer une première
version du calendrier de déroulement de l’étude ou chronogramme à ce niveau.

I.2.2 La conception et rédaction du questionnaire


Il s’agit de faire d’abord une première rédaction en utilisant, si possible, les résultats d’études
exploratoires ou qualitatives préalables. Puis, de faire un pré-test du questionnaire, sur un
échantillon réduit (enquête pilote) afin de relever ses insuffisances avant la rédaction du
questionnaire final. Cette phase doit bien évaluer les difficultés à répondre à certaines questions, le
pré-codage, le temps d’admission, etc. en plus du questionnaire, il peut être utile de rédiger un
manuel pour les agents de collecte (guide du questionnaire).

34
I.2.3 L’élaboration du plan de sondage
Cette étape regroupe la constitution de la base de sondage et l’échantillonnage. La base de sondage
doit être la mieux adaptée à la situation. Il peut être nécessaire de recourir à plusieurs sources
administratives pour constituer une base de sondage fiable, exhaustive et actualisée. Pour certaines
études, on procède préalablement à un dénombrement de certaines unités sélectionnées
préalablement (au premier degré).
L’élaboration du plan d’échantillonnage passe par le choix du type de sondage à réaliser, compte
tenu des différentes contraintes, ainsi que par les différents calculs des poids de sondage, et des
précisions des estimateurs. A cet effet, on détermine aussi la taille de l’échantillon nécessaire,
compte tenu du budget disponible, de la précision souhaitée et d’autres contraintes.
Cette étape constitue le premier élément de ce module, et est abordée aux chapitres deux à six. Dans
le cas d’un sondage empirique, il n’y a pas de constitution de base de sondage.

I.2.4 Collecte des données


C’est la phase de terrain. Il faut choisir le mode de collecte des données (interview directe, enquête
par téléphone, poste ou Internet, autre), former les enquêteurs, organiser la sensibilisation dans le
champ d’étude, faire les différents travaux de cartographie, organiser le déploiement des équipes
pour la collecte sur le terrain, prévoir les modes de contrôles, supervision et récupération des
données collectées pour centralisation et saisie.

I.2.5 Codification et saisie des données


Lors de la codification, on prêtera une attention particulière aux questions ouvertes. La saisie
nécessitera éventuellement l’élaboration d’un masque de saisie. Après quoi, on obtiendra un fichier
brut qui sera soumis à des contrôles et apurements.
Cette étape constitue le second élément de ce module, et est abordée au chapitre sept.

I.2.6 Contrôles et apurements


Cette étape consiste à la recherche et la correction des principaux problèmes qui nuisent à la qualité
et la cohérence des données. Ces principaux problèmes sont (i) les non réponses, (ii) les valeurs
quantitatives aberrantes (c'est-à-dire qui ne respectent pas l’allure générale des données,
principalement les valeurs extrêmes), (iii) les informations incohérentes et invraisemblables. Après
ces corrections, on obtient un fichier de données apuré, prêt pour différentes estimations. Il peut être
avantageux de procéder à certains contrôles au fur et à mesure que les saisies se déroulent. On peut
ainsi donner un feed-back aux opérateurs de saisies et réduire les erreurs.

I.2.7 Estimations et redressements


A cette étape, à la suite des apurements, on calcule à nouveau les coefficients d’extrapolation, si les
données sont issues d’un échantillon aléatoire. Ces coefficients sont les poids de sondage qui
permettent de produire les estimations par le principe de l’inférence et fournir des indicateurs sur la
population entière. Après enquête et apurement, il arrive que le nombre d’observations (d’unités)
retenues dans la base finale pour les analyses soit différent de la taille d’échantillon prévue pour
certaines groupes (SE, régions, strates, etc.). On dit alors qu’il y a une déviation de l’échantillon par
rapport au plan de sondage initial. Les deux valeurs qui présentent des écarts par rapport à ce qui
était prévu sont en général les tailles des unités primaires obtenues après dénombrement et les
nombres d’unités effectivement enquêtées dans les groupes. Les poids desdits groupes doivent alors
35
être ajustés. Les déviations d’échantillon proviennent principalement des non réponses (enquêtés
n’ayant pas répondus, observations supprimées de la base du fait du grand nombre de questions
essentielles non répondues, etc.) ainsi que des zones où l’enquête n’a pu se dérouler. Alors que les
écarts sur les tailles des unités primaires s’expliquent par la vétusté de la base de sondage du
premier degré, dans le cadre d’un sondage à deux degrés.
Après ces redressements, les premiers résultats ou estimations de l’étude sont en général produits,
avant des traitements plus minutieux pour des résultats complets. Pour un échantillon non aléatoire,
il n’y a pas de redressement d’échantillon à faire, car il n’y a pas de poids de sondage.
Notons enfin qu’il est nécessaire de laisser les poids dans la base avec la plus grande précision
possible (nombre de chiffres après la virgule).

I.2.8 Traitements et Analyse des données


Il s’agit d’analyses plus approfondies que les calculs des estimateurs et de leurs précisons :
Statistiques descriptives classiques, tests d’hypothèses, analyses factorielles et économétriques, …
Dans les traitements statistiques et analyses, il faut toujours tenir compte de la manière dont les
données ont été collectées, notamment du plan de sondage.
Les étapes six, sept et huit constituent le troisième élément de ce module, et sont abordées au
chapitre huit.

I.2.9 Publication et évaluation


La publication doit tenir compte du caractère confidentiel des informations recueillies.

36
CHAP II. VOCABULAIRE ET CONCEPTS DE BASE EN THEORIE DES SONDAGES

Ce chapitre présente en introduction les principales questions qui permettent de définir un plan de
sondage et faire les choix des paramètres. Ces questions constituent aussi les grandes lignes qui
permettent de définir un plan de sondage. Par la suite, le vocabulaire relatif à la population et les
principaux concepts relatifs au sondage sont abordés. Ces concepts se rapportent principalement
aux variables d’intérêts et auxiliaires, aux estimateurs et aux erreurs.

I.10. II.1.. Les principales questions qui guident le choix et l’élaboration d’un
plan de sondage
Plusieurs concepts sont utilisés dans cette section, bien qu’ils ne soient présentés que dans les
sections suivantes. Une telle démarche a pour but d’éveiller déjà l’intérêt du lecteur, et de lui
permettre par la suite de mieux situer l’importance, le rôle et la place de chaque notion abordée dans
la construction du plan de sondage.

II.1.1Les questions principales et secondaires à répondre dans la constitution d’un


plan de sondage
Un plan de sondage définit la démarche pour constituer l’échantillon d’enquête. Les enquêtes par
sondage appellent une question principale :
Est-ce que les informations recueillies sur la sous population par le sondage traduisent
bien les caractéristiques de la population mère comme on les aurait obtenues par un
recensement  ?
Cette question introduit la notion de représentativité. La constitution d’un échantillon représentatif
prend en compte plusieurs paramètres qui constituent les réponses aux dix questions secondaires
suivantes :
1. Population d’étude : Qui est concerné par l’objet de l’étude ? Où se trouve-t-il,
quelles sont les différentes contraintes pour l’atteindre et obtenir les informations
recherchées, quelles règles (démarches ou protocoles) observer pour l’atteindre et
recueillir l’information désirée ?
2. L’Unité d’échantillonnage et les autres unités : quel est l’élément composite de
ma population (unité d’analyse ou/et de référence ? Y a-t-il d’autres unités par
lesquels passer pour le sélectionner (unité d’échantillonnage : par exemple, on
sélectionnera les ménages pour parler aux individus) ? Y a-t-il aussi une unité
intermédiaire par laquelle obtenir l’information (unité déclarante : la mère ou
gardienne qui fournit les informations sur la vaccination de l’enfant) ? etc. ;
3. La Base de sondage : Peut-on constituer une liste des unités d’échantillonnage ou
base de sondage ? Si oui quelles sont les sources d’informations disponibles ? Les
protocoles pour obtenir ?
4. Les Informations auxiliaires : Quelles sont les autres informations disponibles sur
la population et en rapport avec le thème étudié qui peuvent orienter dans la
constitution et le contrôle de l’échantillon afin d’avoir un échantillon représentatif ?
5. Le Plan de sondage : Quelle est la procédure de sélection la plus adaptée ? Cette
question renvoie par exemples :
 La stratification : la nécessité de constituer des sous échantillons par groupes
spécifiques ou Subdivision administrative importante (région, cercle) ;
37
 Contrôle : la nécessité de respecter des quotas (par poids des régions par
exemple) dans la répartition de l’échantillon total entre des sous-groupes ;
 Equiprobabilité ou probabilité inégales : Les chances relatives à accorder
aux différentes unités (probabilités d’inclusion : par exemple, on pourrait
vouloir accorder une plus grande probabilité de sélection à une SE plus
grande, ou une entreprise plus importante en termes de Chiffres d’affaires
(CA)) ;
 Etc.
6. Les Estimateurs : Une fois l’échantillon constitué et les données collectées :
comment synthétiser les données pour construire l’indicateur qui donne l’information
recherchée ? Quelles indicateurs et formules traduisent mieux les informations
recherchées ?
7. La Taille de l’échantillon : Combien d’individus faut-il sonder pour avoir des
résultats satisfaisant au niveau de la population mère (en général en termes de
précision, mais aussi sous la contrainte budgétaire) ?
8. Les Coefficients d’extrapolation (et poids de sondages) : Les résultats obtenus sur
l’échantillon peuvent-ils être généralisés à l’ensemble de la population mère ? Si oui,
quels coefficients ou poids attribuer à la réponse de chaque individu de
l’échantillon ?
9. La Précision du sondage : Jusqu’à quel point peut-on faire confiance aux résultats
obtenus sur l’échantillon ?
10. Les Erreurs : Quelles sont les facteurs (dans la procédure, dans les comportements
des répondants, dans la sensibilité des questions, dans la technicité des agents
enquêteurs, etc.) qui influencent cette précision ou la qualité des données, en dehors
de la procédure d’agrégation ?
Ce plan de description permet de voir des questions techniques les plus déterminantes du choix du
type de sondage à mettre en place.

II.1.2 Les questions techniques et les types de plan de sondage classiques


Les réponses aux dix questions secondaires ont donné lieu à la conception de plusieurs techniques
de sondage. D’un point de vue purement technique, le choix de la technique dépendra des
contraintes suivantes :
 L’existence d’une base de sondage ;
 La précision acceptable des estimateurs ;
 La connaissance d’informations auxiliaires (variables auxiliaires) sur la population ;
 La facilité des opérations sur le terrain ;
 Le niveau de désagrégation voulu des estimateurs ;
Les méthodes classiques de sondages forment deux grands groupes :
 Méthode aléatoire ou probabiliste classiques
o Le sondage aléatoire simple (SAS) ;
o Le sondage stratifié ;
o Les sondages à probabilités inégales ;
o Le sondage à plusieurs degrés ;
o Le sondage par grappes.

38
 Méthodes empiriques ou « à choix raisonné »
o La méthode des unités types ;
o La méthode des quotas ;
o La méthode des itinéraires ;
o La méthode du volontariat ;
o La méthode boule de neige.
La différence fondamentale entre ces deux grands groupes réside dans l’usage de la théorie des
probabilités dans le premier groupe, contrairement au second. Dans la pratique des grandes
enquêtes, les méthodes classiques sont combinées pour obtenir le plan adéquat. On parle alors de
plans « complexes ». Parcourir ces méthodes est le but de ce cours.

I.11. II.2. Notions de sondages et d’échantillon et quelques exemples


Cette section introduit le vocabulaire de base en sondage.
II.2.1 Définition d’une enquête par sondage et d’un échantillon :
Un sondage est une opération de collecte de données (ou enquête) statistiques au cours de
laquelle, seule une partie de la population, constituée par une démarche scientifique, est
enquêtée, et non pas la totalité de la population mère.
Les enquêtes par sondage sont des opérations de collecte des données permettant d’obtenir des
réponses sur des phénomènes spécifiques de quelques unités représentatives sélectionnées de
manière scientifique dans une population. Les données pour la population sont obtenues en étendant
les données de l’échantillon et en extrapolant la taille de l’échantillon à la taille de la population.
En d’autres termes, dans un sondage, on choisit volontairement de ne collecter des données que sur
une partie de la population pour effectuer l’analyse voulue. Il s’agit donc d’une étude « d’un tout (la
population mère) à partir d’une partie (l’échantillon) ».
La partie de la population retenue pour la collecte des données s’appelle l’échantillon. Un
échantillon est constitué d’un nombre restreint d'unités que l'on sélectionne dans une population, et
sur lequel on réalise l’enquête.
Lorsque toute la population est enquêtée, on dit qu’on effectue un recensement.
Une question fondamentale se pose alors : comment la personne qui n’a pas été enquêtés peut-elle
être prise en compte dans les résultats ? C’est à ce niveau que se trouve l’art de la technique de
sondage. Cet art consiste à construire l’échantillon de façon à obtenir une information qui soit
autant que possible conforme à celle qu’aurait donné une enquête de toute la population. Autant que
possible, l’échantillon doit être une représentation en miniature de la population.
L’échantillon sera dit représentatif s’il permet de calculer (on dit d’estimer) les paramètres (c'est-à-
dire les informations (indicateurs) recherchées sur la population) avec une précision acceptable,
compte tenu des objectifs et contraintes de l’enquête. Autrement, un échantillonnage est dit
représentatif lorsqu’il reproduit les caractéristiques d'une population de manière à ce que les
conclusions obtenues soient généralisables à la population entière. Le problème est que pour obtenir
une telle garantie, il faut utiliser une procédure aléatoire de sélection de l’échantillon.
Il y a ici une confusion à élucider. Le grand public a tendance à sous-entendre par sondage, le
sondage d’opinion. Bien que les sondages d’opinions constituent des catégories des plus
fréquemment utilisées, il existe de nombreux autres exemples.

39
Une autre mauvaise interprétation des types d’enquête faite est celle qui consiste à limiter le
recensement à celui de la population et de l’habitat (RGPH). Un recensement est simplement une
enquête exhaustive. On peut recenser le matériel informatique d’un ministère, le parc automobile de
l’Etat, etc.
L’utilisation d’un sondage peut se justifier tout simplement par l’impossibilité de faire un
recensement. De façon générale, le sondage présente les avantages principaux suivants, par rapport
au recensement :
- La réduction des coûts;
- Les enquêteurs, moins nombreux, subissent une formation de meilleure qualité
- Le contrôle des opérations et la surveillance du personnel est plus facile ;
- La rapidité de la collecte et le traitement des données : les résultats d'une enquête par sondage sont
disponibles plus rapidement que ceux d'un recensement car les tâches à effectuer sont moins
volumineuses.

Le sondage présente toutefois quelques inconvénients par rapport au recensement :


- L'erreur d'échantillonnage s'ajoute à l'erreur d'observation, et,
- Les résultats sont parfois difficiles à extrapoler à l'ensemble de la population

II.2.2 Quelques exemples de sondages


Les sondages sont utilisés dans tous les domaines de la vie et intéresse tous les acteurs de la vie
sociale. Voici quelques exemples de sondages, avec quelques observations.
 La recherche de gisements, la recherche minière donnent lieu à des sondages (de zones) ;
 La détermination des productions agricoles ;
 La vérification d’une comptabilité d’entreprise (audit) très importante ;
 Les contrôles fiscaux ;
 La mesure des indices de prix (à la consommation, …) ;
 Le contrôle de la couverture d'un recensement général de la population ;
 La mesure du taux de pauvreté ;
 La mesure du chômage ;
 Le contrôle de qualité dans des chaînes de production ;
 Les sondages électoraux et d’opinions ;
 Les enquêtes de satisfaction ;
 Les enquêtes d’estimation des indicateurs de santé (MICS, EDS) ou d’éducation ;
 Etc.
Les enquêtes statistiques peuvent être classées dans les catégories suivantes :
 Les enquêtes agricoles, pour obtenir des données sur les cultures, l’élevage, les prix, etc.
 Les enquêtes auprès des entreprises ayant comme objectif principal d’obtenir des
informations détaillées sur la production, les consommations intermédiaires, les
investissements, la main-d’œuvre, etc.
 Les enquêtes auprès des ménages représentent une source importante de données
socioéconomiques car elles donnent des indications importantes sur les revenus et les
dépenses des ménages et l’utilisation de la main-d’œuvre. Dans les pays en développement,
elles sont devenues un moyen prépondérant de collecte des données : elles viennent
compléter voire remplacer d’autres programmes de collecte des données et systèmes d’état
civil.
 Les enquêtes mixtes auprès des ménages et des entreprises: les unités d’échantillonnage
sont des ménages auxquels on demande si l’un de leurs membres possède et exploite une
40
entreprise non constituée en société, de manière à couvrir les petites entreprises qui ne sont
pas incluses dans les enquêtes auprès des entreprises basées sur des listes, ce qui facilite la
mesure de l’économie non observée.
 Les enquêtes sur les prix: utilisées pour obtenir des données sur les prix; elles peuvent
impliquer la collecte de données auprès des entreprises ou des ménages, ou l’observation
directe des prix sur le marché.
 Les enquêtes indirectes sur les entreprises: consistent à demander aux entreprises gérant
des marchés urbains des données sur les détenteurs de leurs étals. Ce genre d’enquête ne
fournit que des données limitées sur les unités d’observation et souvent uniquement sous
forme agrégée.
 Les enquêtes diverses qui peuvent porter sur des unités plus spécifiques comme des
catégories de personnes (atteints d’une pathologie particulière par exemple).

I.12. II.3. Les Notions relatives à la description de l’univers d’étude


II-3-1. La population ou l’univers
La population est constituée de l’ensemble des unités d’étude, ou des unités auxquelles les résultats
de l'enquête s'appliqueront. La taille de la population est N, finie (mais parfois inconnue !). On note
souvent la population par U = {1, ..., k, ..., N}, où chaque individu est identifié par un numéro « k ».
Cette définition paraît simple. Mais dans la pratique, bien identifier la population d’étude
demandera parfois de formuler des hypothèses ou/et de considérer des conventions. Donnons
quelques exemples :
Exemple 1.1.1.i : Etude portant sur les conditions de vie des ménages : La population ici est
évidente : l’ensemble des ménages sur le territoire de la zone concernée.
Exemple 1.1.1.ii : Etude sur la consommation de la cigarette : Qui est consommateur ? Celui qui a
une fois goûté à la cigarette il y a 5 mois, 3 semaines est-il de la population  ? S’il est vrai que les
lois et convention interdisent la vente de cigarette aux personnes de moins de 18 ans, doit-on
considérer un fumeur de moins de 18 ans dans notre population ?
Exemple 1.1.1.iii : Etude des éleveurs de poules : Le citoyen ayant un coquelet dans sa cours à
Bamako fait-il partie de la population ?
Exemple 1.1.1.iv : Etude des conditions de travail des personnes en activité : Le jeune qui un jour
par semaine trouve un travail occasionnel (décharge de camions, travaux champêtres, etc.) fait-il
partie de la population ? Il y a ici des conventions internationales à prendre en compte pour
identifier le chômeur et la personne en âge de travailler.

II.3.2 Les types d’unités


Dans une enquête, il faut bien identifier les différents types d’unités :
i) L’unité d’échantillonnage : Elle est constituée de chaque élément qui peut être sélectionné pour
constituer l’échantillon. Cette unité renvoie donc au niveau auquel se fait l'échantillonnage : un
ménage, un appartement, un numéro de téléphone, une école, un îlot, une ZD, etc.
ii) L’unité d'analyse : Il s’agit ici de l’unité sur laquelle porte l'analyse : Dans une enquête sur le
niveau de vie, on sélectionne des ménages mais l’analyse porte aussi sur des individus. Ici, autant
l’individu que e ménage est une unité.

41
iii) L’unité déclarante : Elle est relative à l'informateur. C’est l’unité déclarante qui fournit les
informations lors de l’enquête. Par exemple une mère interrogée sur ses enfants en bas âge dans une
enquête DHS ou MICS.
iv) L’unité de référence : C’est une unité pour laquelle on collecte des informations. Par exemple,
les enfants pour lesquels la mère a donné des informations.
Exemple 1) Dans une étude sur «la violence en milieu secondaire à Bamako, on réalise un sondage
dans un échantillon d’établissements. Au niveau primaire1, un établissement est une unité
d’échantillonnage. Un élève, un membre du personnel enseignant, administratif, de sécurité, de
gardiennage, de santé, de restauration, d’entretien et d’hygiène peut être considéré à la fois comme
une unité déclarante. Idéalement, les élèves constitueront les unités de référence et d’analyse.
Exemple 2) Dans une étude sur le niveau de vie des populations, l’unité d’échantillonnage
généralement choisie est le ménage. Cependant, la population est constituée d’individus. Les
ménages et les individus sont des unités d’analyse. Mais le ménage ne peut être une unité
déclarante ! Pour une information capitale sur le ménage, l’unité déclarante est soit le chef de
ménage, soit une personne majeure suffisamment proche du chef de ménage pouvant fournir les
informations requises, comme le conjoint.
II.3.3 La base d’échantillonnage ou base de sondage
La base de sondage est constituée par la liste des unités d'échantillonnage, c'est-à-dire la liste des
unités à partir de laquelle se fera la sélection de l’échantillon d’enquête. Une base de sondage doit
avoir les caractéristiques suivantes :
(i) être sans doublon : une unité ne doit pas y être représentée plus d’une fois ;
(ii) être sans omission (ou exhaustive) : chaque unité de la population doit être représentée
dans la base
(iii) être à jour : S’il y a des unités qui pour des raisons quelconques ne font plus partie de la
population (ménage déplacé pour une base ménage, entreprise en faillite ou fusionnée
avec une autre pour une base d’entreprises, espace de culture maraichère devenu terrain
de pâturage, etc.).
La base de sondage doit constituer une liste aussi parfaite que possible de la population. Chaque
membre de la population doit y être représenté de manière unique. Par exemple, lors d’une enquête
emploi, bien qu’on s’intéresse aux individus, on constitue (dans la pratique) une base de sondage à
partir de la liste des ménages. Par conséquent, il est nécessaire d’établir des règles d’arbitrage pour
le cas des personnes mobiles entre plusieurs ménages (comme un homme ayant plusieurs épouses
dans des habitations non contiguës).
Exemple 1 : La base de recensement : Lorsque la base de recensement de la population est récente,
elle constitue une base de sondage idéale pour des études portant sur les populations humaines.
Exemple 2 En particulier, chaque pays dispose d’un découpage aréolaire de son territoire en
fonction de la démographie, à des fins statistiques. Chaque portion qui est une surface avec des
limites particulières porte le nom de zone de dénombrement (ZD) (ou DR pour District de
recensement, ou encore SE pour section d’énumération). Par convention, chaque SE peut contenir
au plus un millier d’individus, correspondant de façon variable à 200 à 250 ménages. Cette liste
constitue une base de sondage importante (et assez stable) pour une première sélection des aires
d’études dans les enquêtes nationales de grande envergure.
De façon générale, une base de sondage peut être constituée par les différentes sources suivantes
(liste non exhaustive) :

1
Ce terme sera définit dans le chapitre portant sur les sondages à plusieurs degrés.
42
 Des documents administratifs existants (enregistrements dans un hôpital, fiches des classes,
données d’enregistrement à l’état civil, etc.) ;
 Des registres d’inscription des personnes physiques et/ou morales auprès de l’Etat pour
diverses raisons (impôts, foncier, ouverture d’entreprises, etc.)
 Des fiches des clients d’une société ou des fichiers de scolarité d’une école ;
 De la liste venant d’une enquête précédente, en particulier un recensement ;
 D’une liste dressée à l’occasion de l’enquête. A ce sujet, lors de l’organisation de certaines
enquêtes, et en l’absence de base de sondage exhaustive, on est parfois amené à effectuer au
préalable un dénombrement des unités de la population. Cette opération offre de précieux
renseignements préliminaires sur la population, dont une base de sondage fiable (ainsi que
des informations qui permettent souvent d’identifier des catégories recherchées).
Exemple 3 : Si je prends les diplômés de licence, maîtrise et doctorat des cinq dernières années dans
une université, certaines personnes peuvent apparaître deux ou même trois fois dans la liste, i.e. en
tant que diplômés de 1er, 2ème et 3ème cycle; elles auront donc plus d'une chance d'être choisies; je
devrais donc épurer la liste de toutes les doubles ou les triples entrées afin d’avoir une base de
sondage.
Exemple 4 : Une compagnie de téléphone voulant faire une enquête auprès de ses clients peut
utiliser la base de tous les numéros actifs, même si elle n’a pas le nom de la personne utilisatrice. Il
s’agit ici plutôt d’une liste conceptuelle. Le fait qu’une personne puisse disposer de plusieurs
numéros de la même compagnie engendre en fait un doublon. La liste des numéros constituera donc
une base approximative, mais précieuse.
Il est important de noter que la constitution d’une base de sondage est dans bien des cas limitée par
les contraintes de protection et de confidentialité des données sur les unités. Par exemple, un
chercheur indépendant désirant effectuer une étude sur les dépenses d’une compagnie de téléphonie
aurait du mal à obtenir la base de sondage. De même, il serait quasiment impossible de constituer
une base de sondage des personnes infectées au VIH, auprès d’une structure quelconque.

I.13. II.4. Les Notions relatives aux informations recherchées et à la précision


des calculs
II.4.1 Variables d’étude (dite encore variables d’intérêt)
Le sondage ne s’intéresse pas aux individus en eux même, ni même aux valeurs individuelles de
chaque individu, mais à des caractéristiques d’ensemble qui sont des fonctions des valeurs
individuelles. Ces caractéristiques générales sont des indicateurs. Par exemple, dans la mesure du
taux de pauvreté, l’enquête ne s’intéresse pas spécifiquement aux individus enquêtés, ni même à
leurs revenus (ou la somme de leurs dépenses). A la fin, c’est la proportion des valeurs qui seront
en dessous d’un seuil (la ligne ou seuil de pauvreté) qui sera l’information (indicateur) recherchée.
Les variables qui serviront à construire les indicateurs qui représentent les informations recherchées
sont appelées variables d’intérêt ou variables d’étude. Ce sont celles dont les valeurs
individuelles sont agrégées pour calculer l’indicateur. Une variable d’étude ou d’intérêt est donc
une variable qui nous renseigne sur l’information cherchée, en rapport avec le thème d’étude. Dans
l’exemple sur le taux de pauvreté, « le revenu » (ou la dépense totale de consommation) est la
variable d’intérêt. La variable d’étude peut être qualitative ou quantitative.

43
II.4.2 Estimateur ou formule de calcul de l’indicateur recherchée à partir de la
variable d’étude
Dans la majorité des cas, la formule utilisée pour calculer l’indicateur correspond à une expression
simple. Pour illustrer par quelques formules, considérons une variable que nous notons Y. on va
supposer que Y représente le revenu d’un individu.
La série des revenus de tous les individus de la population serait alors Y1, ..., Yk, ..., YN. (Lettres
majuscules ; N individus). Pour avoir le revenu moyen d’un individu de la population, il suffit de
faire la somme de tous les revenus et diviser par le nombre total d’individus (Y1 + Yk+ ... + YN.)/N.
Seulement, pour avoir les revenus de tous, il faut faire un recensement. Si on fait plutôt un sondage,
on aura des valeurs de revenus de « n » (minuscule) individus, avec n plus petit que N. Les valeurs
des revenus des ménages enquêtés (notées avec des lettres minuscules) sont : y 1, ..., yk, ..., yn. Dans
les cas où les ménages ont été retenus avec une procédure qui n’accorde pas plus de chances de
sélection à certains plus qu’à d’autres, le revenu moyen sera calculé dans l’échantillon et sera
considéré comme une approximation du revenu moyen de la population : (y1 + yk+ ... + yn.)/n. on
dira qu’on a estimé pour signifier qu’il s’agit d’une approximation à partir d’un échantillon. Dans le
langage technique, on parle d’inférence. Si l’échantillon a été sélectionné par une procédure
aléatoire, on peut en plus calculer un intervalle (appelé intervalle de confiance) dans lequel il y a
une assurance quantifiée de trouver la vraie valeur de la moyenne de la population. Dans cet
exemple, la formule utilisée est celle de la moyenne. On dira alors que nous sommes dans le cas de
l’estimation de la moyenne.
S’il s’agissait de calculer le taux de pauvreté, on serait ramené à un calcul de proportion. En effet, il
suffira de noter Yk (et aussi yi) prenant uniquement deux valeurs : Yk est égale à « 1 » lorsque le
revenu de l’individu est inférieur au seuil de pauvreté, et égale à « 0 » sinon. Idem pour les valeurs
dans l’échantillon. On voit aisément que le nombre de valeurs égales à « 1 » donne le nombre de
pauvres, qu’on soit dans l’échantillon ou dans la population. En divisant ce nombre par le total (soit
de la population, soit de l’échantillon) on a le taux de pauvreté, qui est juste la proportion de ceux
qui ont la valeur égale à « 1 », donc qui sont pauvres.
Le tableau suivant donne les formules classiques de calcul des indicateurs qui se rencontrent dans la
plupart des enquêtes.
Tableau 1 : Formules classiques d’indicateurs plus généralement recherchés
Type de variable Indicateurs Sur la population Dans l’échantillon
N n
1 1
Une moyenne, Y= ∑Yi y= ∑ y i
N i=1 n i=1
N n
Variable Un total (ou une somme) : T =∑ Y i t=∑ y i
quantitative i=1 = NY i=1 =n y
N n
1 N −1 1
Une variance (ou un écart
type).
σ ²= ∑
N i=1
( Y i −Y )2 S² s ²= ∑ ( y − y )2
n−1 i=1 i
= N
Une proportion (qui peut se
PD=ND/N pD=nD/n
ramener à une moyenne)
Variable N n
qualitative
Un total : T =∑ Y i (Y variable
t=∑ y i
i=1
indicatrice)
= ND i=1
N
1
S ²= ∑
N−1 i=1
( Y i −Y )2
Où est la variance modifiée ou encore dispersion ; (σ²≈S² lorsque N est
grand) et s² la dispersion empirique.

44
Dans certains cas, la formule de calcul de l’indicateur peut être plus complexe. Par exemple dans le
cas des indices de prix, ou du calcul des rendements. Dans ce dernier cas, on a en général le rapport
de deux moyennes, ou une moyenne harmonique. Notons que l’indicateur est appelé dans la théorie
« le paramètre ».
Remarque :
i) Dans le cadre d’un tirage probabiliste ou aléatoire, on fait la considération suivante : La
valeur obtenue au tirage « i », yi, est en fait une réalisation aléatoire d’une variable
aléatoire que l’on note encore yi et à valeurs dans : {Y1, ..., Yk, ..., YN}. Les tirages étant
indépendants, les valeurs y1, ..., yk, ..., yn. ne sont rien d’autres que des réalisations
aléatoires de variables aléatoires i.i.d.
ii) Le technicien qui élabore le plan de sondage doit bien identifier et définir les variables
d’intérêts, ainsi que les expressions des estimateurs (les formules pour calculer les
indicateurs). Car ces éléments permettent non seulement de calculer les tailles
d’échantillon en rapport avec la précision, mais aussi de mieux identifier les variables
auxiliaires, qui peuvent servir à construire un échantillon représentatif.

II.4.3 Variables auxiliaires


Il est important de comprendre que, pour obtenir une bonne approximation ou estimation, il faut que
l’échantillon soit représentatif, on pourrait dire, une population en miniature. Cela implique que, si
dans la population, il y a peu de riches, peu de pauvres, et beaucoup plus de gens de revenus
moyens, il faudrait construire l’échantillon de manière à retrouver autant que possible cette
structure. Le principe qui consiste à former un échantillon représentatif est l’une des principales
garanties pour estimer la bonne valeur du paramètre ou de l’indicateur.
Dans la pratique, lorsque c’est possible, on identifie des variables dont la distribution ou la
répartition est liée (ou corrélée, c'est-à-dire dépend) à celle de la (des) variable(s) d’intérêt. On les
appelle des variables auxiliaires. L’échantillon est alors construit dans le respect de la structure de
ces variables auxiliaires. On dit alors qu’on contrôle l’échantillon par les variables auxiliaires.
Une variable auxiliaire, choisie pour contrôler l’échantillon, doit nécessairement être corrélée au
thème d’étude c'est-à-dire aux variables d’intérêt. Sinon, elle peut produire l’effet inverse à celui
recherché, et conduire à un échantillon non ou peu représentatif.
Exemple 1 : Supposons qu’on veuille conduire une enquête d’estimation de la production des
entreprises industrielles. La production d’une entreprise dépend de sa taille (en termes de chiffres
d’affaires, nombre d’employés). Il existe une nomenclature des entreprises en très petite, petite,
moyenne, grande et très grande entreprise. Plus l’échantillon sera constitué en respectant la
répartition de ces catégories dans l’ensemble des entreprises du pays, plus on a l’assurance d’avoir
des bons estimateurs. La catégorie de l’entreprise (ou taille) est alors une variable auxiliaire ici.
Exemple 2 : Sondage électoral : Dans certains pays africains, les opinions politiques sont très
souvent liées aux appartenances ethniques. Un échantillon représentatif dans ce contexte devra donc
tenir compte de la répartition ethnique liée aux grands groupes politiques.
La recherche d’information auxiliaire n’est pas toujours aisée. Il n’est pas indispensable d’utiliser
des variables auxiliaires pour contrôler l’échantillon, par exemple, lorsque l’on estime que la
population est homogène du point de vue de la variable d’étude.

45
I.14. II.5. Les Notions relatives aux calculs des précisions, pour les sondages
aléatoires
Cette section aborde des notions qui ne sont pas valables pour les sondages empiriques. Le besoin
de calculer les précisions conduit à opter toujours pour un sondage aléatoire, plutôt qu’un sondage
empirique, chaque fois que ce sera possible.
L’utilisation des techniques probabilistes permet l’usage des méthodes d'estimation et de méthodes
d'inférence et d'analyse statistique qui toutes sont basées sur la théorie des probabilités. Elle permet
en outre de connaître et donc de contrôler les biais. Cette section contient aussi quelques notions
dont la compréhension demande un certain bagage mathématique.
II.5.1 Probabilité d’inclusion :
Dans le cadre d’un sondage aléatoire, chaque individu a une probabilité non nulle d’être tirée, et
donc d’appartenir à l’échantillon. Cette probabilité ne doit pas dépendre des circonstances. Sinon,
cela introduirait des biais.
On note Πk, la probabilité d’inclusion d’un individu k dans l’échantillon : Πk = Prob(« k appartient
à l’échantillon »). Lorsque tous les individus ont la même probabilité d’être tiré, le tirage est dit
équiprobable.
Dans la pratique des sondages, la somme de toutes les probabilités d’inclusion est égale à la taille de
l’échantillon : ΣΠk=n.
II.5.2 Poids de sondage
C’est l’inverse de la probabilité d’inclusion : dk =1/ Πk. De façon concrète, le poids de sondage
d’une unité dans l’échantillon est le nombre d’unités de la population qu’elle « représente ». On
l’appelle encore coefficient d’extrapolation.
Exemple : En cas de tirage équiprobable, on a donc pour tout individu,
La probabilité d’inclusion Πk = n/N. Le poids de sondage dk = N/n.
Cela signifie que chaque unité qui figure dans l’échantillon représente N/n de la population. Cela
signifie que dans le table des données, lorsqu’on paramètrera le logiciel pour qu’il prenne en
compte les poids de sondage, chaque données sera multipliée par ce coefficient. Dans tous les
résultats (tableaux, graphiques, tests, etc.).
Exemple : Enquête sur la vaccination : On suppose que l’effectif de la population des enfants de 0 à
59 mois est de 1000 (=N), et qu’on constitue un échantillon équiprobable de 50 (=n) enfants, le
poids d’un enfant est 1000/50 = 20. Si après enquête, parmi les 50 enfants de l’échantillon, on en
trouve 17 qui ne sont pas vaccinés, en tenant compte du poids de sondage, on pourra extrapoler à la
population et dire que parmi les 1000 enfants, il y en a 340 = 17x20 qui ne sont pas vaccinés.
II.5.3 Définition d’un estimateur
Un estimateur est une variable aléatoire dont la formule nous donne, une valeur approchée de
l’indicateur recherchée sur toute la population, à partir des données obtenues sur un échantillon.
Soit T l’estimateur d’un paramètre θ sur une population. T est donc une variable aléatoire sur
l’ensemble des échantillons possibles S de taille fixe n de la population. Si la taille de la population
N est finie, alors le nombre d’échantillons est le nombre de combinaisons de n éléments qu’on peut
former avec une population de taille N.
D’un point de vue fondamental, dans la pratique, on considère que l’aléa se situe exclusivement au
niveau du tirage des individus de l’échantillon. La distribution des probabilités est dont associée au
tirage des individus.

46
Par exemple, l’estimateur de la moyenne est par l’Espérance mathématique de T est donc et on a
E[T(Y)] = Σ Πi*yi. Où Πi est la probabilité d’inclusion de « i ».
Si jamais on faisait varier l’échantillon, on n’obtiendrait pas toujours la même valeur. La moyenne
(E(T)) et la variance V(T) des différentes valeurs obtenues sur les différents échantillons pour T
sont des indicateurs très importants dans l’évaluation de l’estimateur et du sondage.
II.5.4 Le Biais
“Sans biais” signifie que le résultat est bon en moyenne (si jamais on calculait la
moyenne sur tous les échantillons possibles, ce qui est absolument impossible) mais pas
que la valeur obtenue à partir d’un échantillon est exactement celle de la population.
Lorsque cette moyenne est égale à la valeur exacte que l’on veut mesurer, on dit que l’estimateur est
sans biais. Ainsi, Un estimateur X de θ est dit sans biais si en faisant la moyenne des résultats
fournis par cet estimateur sur les différents échantillons, on tombe sur la valeur recherchée du
paramètre : on note : E(T) = θ.
Dans le cas contraire, l’estimateur est dit biaisé, et le biais est défini par B = E(T)-θ.
Considérons le schéma suivant : le point central représente la vraie valeur du paramètre, ici la
moyenne, et les « x » sont les valeurs des individus de l’échantillon. Dans les cas 1 et 3, on voit que
la moyenne va tomber sur la moyenne (le point).
Fig 2 : Illustration du biais

Il est important de rappeler que (i) on ne connaît pas la vraie valeur du paramètre θ que l’on veut
mesurer. En plus, (ii) on ne dispose que d’un seul échantillon, et non de l’ensemble des
échantillons. Bien qu’on ne connaisse pas la vraie valeur, la statistique mathématique nous permet
de construire des estimateurs sans biais. On est alors certain qu’en moyenne, on ne se trompe pas.
Toutefois, un estimateur sans biais n’est pas toujours préférable à un estimateur biaisé. La moyenne
en effet ne suffit pas pour évaluer la qualité d’un estimateur. Il faudrait encore que l’estimateur
choisi soit le plus précis possible. On préfèrera un estimateur biaisé à un estimateur sans biais, si le
premier est plus précis. Intéressons nous donc à la précision.

II.5.5 La précision d’un estimateur et d’un sondage


Par conséquent, plutôt que de donner
La précision d’un estimateur est donnée par sa variance Var(T) ou par l’écart type de l’estimateur
σ(T) sur l’ensemble des échantillons possibles. Comme déjà signalé, on ne peut connaître
exactement la vraie valeur de θ. Mais, la distribution théorique p permet d’encadrer la valeur du
paramètre.
On construit alors un intervalle appelé intervalle de confiance, qui dépend de la précision, dans
lequel on est certain de retrouver le paramètre recherché, θ, avec une certaine précision que l’on
prend généralement de 95%. La valeur 5% représente alors l’erreur possible, appelée seuil de risque
α que l’on se donne.

47
La précision du sondage (à ne pas confondre avec celle de l’estimateur) est l’erreur type ET=2
√ Var(T )
Plus la variance de l’estimateur est petite, plus l’intervalle est petit et donc la précision grande.

II.5.6 La notion d’intervalle de confiance


Plutôt que d’estimer ponctuellement la vraie valeur inconnue du paramètre θ, on recherche un
intervalle où l’on a de bonnes chances de trouver cette vraie valeur.
On appelle intervalle de confiance de niveau de confiance 1-α du paramètre θ, tout intervalle IC tel
que la probabilité que le paramètre soit dans l’intervalle est égale à 1-α pour αє[0,1] fixé.
Les bornes de l’intervalle de confiance IC dépendent de l’échantillon, et de la précision souhaitée,
elles sont donc aléatoires. Le rayon de l’intervalle de confiance est la précision du sondage.
Remarque : Si 1-α augmente, ou si n augmente, l’amplitude de l’intervalle de confiance diminue
(donc la précision augmente).
La précision d’un estimateur est une autre mesure de l’erreur commise, en plus du biais. Ils sont des
mesures de la qualité du sondage.

II.5.7 Application, cas particulier de l’estimateur de la moyenne


Considérons un type de sondage aléatoire simple avec remise (cf. chapitre 3). On y verra que
Y
l’estimateur de la moyenne dans la population mère, à partir de l’échantillon, est la moyenne
y= ∑ yi
y Y
i=1 ,...,n
empirique de l’échantillon : . Est un estimateur sans biais de .
Comme signalé, le problème est qu’on ne dispose que d’un seul échantillon. Et donc on n’a pas la
possibilité de calculer la moyenne et la variance. Toutefois, par la statistique mathématique,
(d’après le théorème central limite), on sait que, lorsque n est grand (n>50, Ardilly ; n>30 pour
y−θ
σ /√n
certains auteurs) Z= 2
est distribué approximativement suivant la loi normale N(0, 1) (Il
σ
s’agit de la convergence en loi). Lorsque la variance est inconnue, on l’estime à partir de la
n
1
s ²= ∑ ( y − y )2
n−1 i=1 i
dispersion modifiée dans l’échantillon.
Pour un niveau de confiance particulier, on détermine le fractile de la loi « k », et on a la probabilité
y−θ
σ /√n
p(-k ≤ ≤ k) = 1-α. On en déduit un encadrement de l’information (indicateur) θ recherchée
y−k∗σ / √ n y+k∗σ / √n
par l’intervalle de confiance [  ; ] avec une précision de 1-α.
Il s’agit d’un intervalle dans lequel, on est certain de retrouver la valeur exacte du paramètre étudié
dans la population, avec la précision choisie qui est une probabilité. Généralement 1-α = 95%. Pour

2
Remarquer qu’il s’agit ici de la variance de la variable d’intérêt, Y : √ Var(Y )=σ
48
la loi Normale, k = 1,96. On prend généralement k = 2. La formule de l’intervalle de confiance
y−2∗σ /√ n y+2∗σ / √ n
suivante est donc utilisée : [  ; ].
On montre qu’une proportion se ramène à une moyenne en considérant une variable indicatrice. Un
total est aussi proportionnel à la moyenne. Par ailleurs, dans les techniques de sondages classiques,
le tirage des unités finales se fait par un SAS. De sorte que l’estimateur final s’écrit comme
combinaison linéaire des estimateurs de type SAS. Le théorème central limite s’applique encore à la
combinaison linéaire. Finalement, pour toute technique classique, l’intervalle de confiance est de la
¿ ¿ ¿
θ−2 √ Var ;θ +2 √Var ] θ
forme [ , où est l’estimateur du paramètre par l’échantillon.
Cet intervalle correspond à une précision de 95% (soit un seuil de risque de 5%, et terme « 2 » est
2 √ Var
l’arrondi de 1,96. La valeur ET = est l’erreur type d’échantillonnage. Elle est d’autant petite
que « n », le nombre d’enquêtés, est élevé.

I.15. II.6 L’évaluation de la qualité d’un sondage


La qualité d’une enquête est évaluée sur le plan statistique, ou sur un plan plus général. Cette
section doit permettre de comprendre les erreurs qui pourraient nuire à la qualité des données, et
décrédibiliser l’étude.
II.6.1 Critères statistiques d’évaluation de la qualité d’un sondage
Sur le plan statistique, on a la qualité du plan de sondage et la qualité des données.
 La qualité du plan de sondage renvoie à la qualité de la base de sondage (qui doit être
exhaustive et sans doublon), la pertinence de la technique de sondage utilisée, qui doit être à
même de constituer un échantillon représentatif, c'est-à-dire qui est une image réduite mais
fidèle de l’ensemble, du moins en ce qui concerne les caractéristiques étudiées sur la
population.
 Quant à la qualité des données, elle est mesurée par la précision des estimateurs et le biais.
L’objectif général est de minimiser l’erreur quadratique moyen : EQM =V(X) + B². Etant
entendu qu’on souhaite avoir des estimateurs de variance ou de coefficient de variation
minimal(e). le biais par contre provient de plusieurs sources d’erreurs possibles :
II.6.2 Les sources d’erreurs de données
a) l’erreur d’échantillonnage : Il résulte du plan de sondage, c'est-à-dire de la façon de
sélectionner les unités de l’échantillon. En effet, les résultats numériques du sondage
dépendent des individus tirés. On a donc un biais qui relève de l’échantillon. On mesure
l’erreur d’échantillonnage par la précision (variance, biais, erreur quadratique moyenne.
…). Elle est nulle pour un recensement. Ces erreurs peuvent provenir des imperfections
de la base de sondage (doubles comptes, vieillissement de l’information auxiliaire). Il est
donc crucial de choisir aussi le plan de sondage le plus adapté. Exemple : Si dans une
enquête sur le temps de loisir, on laisse la liberté à l’enquêteur d’interroger les personnes
disponibles, on risque de surestimer le temps réel de loisir, car la technique de sélection
de l’échantillon favorise l’enquête de personnes ayant plus de temps libres, donc
disponibles pour l’enquête.
b) l’erreur de couverture : Elle provient de la non prise en compte d’une catégorie ou
d’une caractéristique de la population dans l’échantillon, ce qui introduit de fait un biais.
Si la base de sondage (par exemple) est non exhaustive non actualisée. Cela peut
49
entraîner une perte de précision. Cette perte sera d’autant plus petite que le
comportement des unités absentes est proche de celui des unités enquêtées ;
c) l’erreur de mesure ou d’observation : Ce type d’erreur provient de l’inexactitude des
informations collectées (par exemple les réponses des enquêtés). La valeur enregistrée
peut parfois être très différente de la vraie valeur. Particulièrement pour des questions
sensibles. Des erreurs systématiques peuvent être introduites par la mauvaise
compréhension de l’enquêté, les états d’âmes de l’enquêté (méfiance, timidité, volonté
de se mettre en valeur, …) l’influence de l’enquêteur (dont les suggestions), et les
conditions générales de l’enquête (questionnaire long, instant d’enquête, …), pendant le
remplissage du questionnaire ou la saisie des données.
On pourrait aussi ranger dans cette catégorie des réponses incohérentes. Compte tenu de
la difficulté à mesurer ce type d’erreurs, la conception de l’enquête, et particulièrement
la formation des enquêteurs doit chercher à les minimiser.
d) L’erreur de non-réponse. Elles concernent les absences totales ou partielles
d’informations pour certaines unités d’observation.
On parle de non réponse totale lorsque l’enquêté n’a donné aucune réponse. Ce qui peut provenir
d’un refus catégorique de l’enquêté, de son absence durant l’enquête, de son incapacité à
communiquer pour diverses raisons, ou encore de la perte du questionnaire. Le traitement de la non
réponse totale peut donner lieu à une repondération au cours du traitement (on parle de
redressement de l’échantillon).
La non réponse partielle, par contre, correspond au cas où le questionnaire présente juste des
questions sans réponses. Cela peut provenir du refus ou l’impossibilité d’y répondre (pour diverses
raisons) de l’enquêté, ou même d’une omission de l’enquêté.
La minimisation de ce type d’erreur relève de l’organisation de l’enquête. Leur traitement peut être
laborieux après enquête et constitue une grande partie des travaux d’apurement.
De façon générale, les marges d’erreurs dépendent :
 du plan de sondage et de la taille d’échantillon
 de la variabilité du phénomène observé dans la population (dispersion)
 du degré de confiance
Mais ne dépend pratiquement pas de la taille de la population.
En définitive, l’erreur totale est la somme : de l’erreur d’échantillonnage, de l’erreur d’observation,
de l’erreur de couverture et de l’erreur de non réponse. Les différentes sources d’erreurs sont
indépendantes. En effet, il n’y aucun lien entre le fait d’avoir retenu un plan de sondage particulier,
et le fait qu’un agent enquêteur pose mal une question, ou qu’un enquêté ne puisse pas bien se
souvenir d’une réponse exacte.
II.6.3 Les critères généraux d’évaluation de la qualité d’une enquête
Sur le plan général, les critères d’évaluation de la qualité d’une enquête sont :
 La rapidité : Ce critère cherche à minimiser le temps de collecte et de traitement des
données, jusqu’à la disponibilité des résultats ;
 La cohérence : Elle concerne les informations obtenues. Cette cohérence peut être obtenue
par comparaison de ces informations avec d’autres sources. Par exemple, si en 2012 une
enquête a estimé le taux de pauvreté à 65%, et qu’en 2015, une autre étude l’estime à 35%,

50
il y aura un problème de cohérence entre les deux résultats. A défaut de justifier l’écart entre
ces deux résultats, les deux ne peuvent pas être vrais en même temps ;
 L’accessibilité : Ce critère renvoie à la diffusion, et prend en compte, tant l’accès aux
résultats, mais aussi les supports de diffusion.
 La possibilité d’interprétation : Il est important que les résultats soient interprétables par
le grand public. Ce qui impose une bonne définition des concepts, ainsi que le respect de
certaines normes et nomenclatures. Cette notion d’interprétation exige de bien prendre en
compte les concepts et conventions dans la définition des concepts. Ce problème se pose
dans les enquêtes emplois en Afrique, dans la mesure du chômage. Par exemple, une
personne qui a un diplôme, mais n’a pas de travail permanent, et tien une cabine
téléphonique est souvent perçu comme un chômeur. Mais en tenant compte de la définition
du concept de chômage, il ne fait pas partie de la catégorie des chômeurs. Par conséquent, le
public et même les autorités rejettent parfois les résultats de telles enquêtes, car les taux de
chômages estimés sont jugés trop bas pour refléter la réalité.
 La pertinence : Il faut s’assurer que les informations recherchées n’existent pas déjà, et
qu’ils permettent bien de répondre aux préoccupations du commanditaire ou des utilisateurs
potentiels. Par ailleurs les résultats seront d’autant plus pertinents qu’ils sont précis ;
 On considère aussi parfois la faisabilité de l’enquête.

I.16. Conclusion partielle


Les ressources nécessaires et les contraintes (techniques et de temps) pour effectuer un recensement
peuvent être telles que le sondage soit la seule option. La conception du plan de sondage doit alors
être conduite dans le respect des normes afin de garantir une bonne qualité du sondage. Le critère de
qualité principal d’un sondage est sa précision. Mais plusieurs autres critères de qualité existent
(voir annexe 2). Un récapitulatif des étapes d’une enquête par sondage est donné dans l’annexe 1.
L’annexe 2 décrit l’algorithme de tirage systématique et de tirage aléatoire simple.

51
CHAP. III LES TECHNIQUES DE SONDAGES EMPIRIQUES

Dans ce chapitre, chacune des principales méthodes classiques de sondage empiriques sont décrites.
Pour chacune d’elles, il s’agit d’indiquer le principe et le contexte, la démarche de mise en œuvre,
ainsi que les avantages et inconvénients.
I.17. Notes de mise en garde
Les méthodes de sondage aléatoire supposent le tirage aléatoire de l'échantillon à partir d'une base
de sondage, i.e. d'une liste exhaustive des individus composant la population étudiée. Lorsque de
telles bases sont inexistantes ou indisponibles, ou lorsqu'il est trop coûteux de réaliser un sondage
aléatoire, on a recours aux méthodes dites non aléatoires, ou encore méthodes empiriques.
Un sondage est non aléatoire lorsqu'il n'inclut pas de mécanisme de sélection aléatoire des individus
de la population. Le fait que des gens sont choisis « au hasard » dans la rue ne constitue pas un
principe de tirage aléatoire. Les méthodes empiriques se caractérisent donc par le fait qu’on ne
connaisse pas la probabilité d’inclusion des individus de la population et donc, la généralisation des
résultats obtenus à la population doit être faite avec plus de précaution, en particulier parce qu’il
n’est pas possible de calculer la précision et l’intervalle de confiance. On dit que le sondage n’est
pas précis, pas pour émettre des doutes sur les résultats, mais pour signifier qu’il n’est pas possible
de calculer l’erreur statistique (E.T.). Il existe principaux types sont :
 la méthode des quotas ;
 la méthode des unités types ;
 La méthode des itinéraires ;
 La méthode du volontariat ;
 La méthode boule de neige.
Les méthodes non aléatoires, essentiellement la méthode des quotas, sont très utilisées dans les
sondages d'opinion et les études de marché pour 2 raisons principales :
 La rareté ou non disponibilité des bases de sondages : En général, les cabinets d’études et les
opérateurs privés ne disposent généralement pas de base de sondage (ou n’y ont pas accès)
pour tirer leurs échantillons. Les grandes sources potentielles des bases de sondages sont
parfois couvertes par le secret statistique, ou sont des fichiers de travail confidentiel
d’entreprises.
 Le coût et les délais de réalisation : L’organisation d’une enquête en face-à-face, avec un
plan de sondage aléatoire coûte nettement plus cher que l’organisation d’une enquête par
quotas.
Les méthodes empiriques sont plus rapides à mettre en œuvre et moins chères que les sondages
probabilistes, mais plus subjectives dans le mode de sélection de l’échantillon. La présentation de
chaque méthode contient le principe, la démarche de mise en œuvre, un exemple ou plusieurs
exemples, et les avantages et inconvénients.

I.18. III.1 L’échantillon par quota


III.1.1 Principe
L’échantillonnage par quota consiste à construire une maquette, un modèle réduit de la population,
selon quelques critères (variables auxiliaires) dont on connaît la répartition dans la population, et
qui sont liés aux variables étudiées. La structure de la population selon ces critères doit donc être
connue. La méthode des quotas repose sur les hypothèses suivantes :
H1) Sur une population : Les différents caractères que l'on observe ne sont pas indépendants
entre eux.
52
H2) Sur un échantillon prélevé dans la population : Si la distribution statistique de certains
caractères importants est identique à celle de la population, alors, la distribution statistique
des caractères qui ne sont pas contrôlés sera également peu différente. Par conséquent,
l'échantillon est peu différent de la population.
III.1.2 Démarche et mise en œuvre
On choisit d’abord quelques caractéristiques dont on connaît la distribution dans la population
étudiée (variables auxiliaires). Par exemple des critères sociodémographiques des recensements
(âge, sexe, CSP, niveau d’étude, ethnie, …) ou de répartition spatiale (commune, …).
Puis, on distribue à chaque enquêteur un plan de travail qui lui impose le respect de certaines
proportions au sein de ses interviews.
Exemple : Un enquêteur doit réaliser 16 interviews dans une ville de la région Ouest (dans des
communes de 2000 à 20000 habitants). Le champ de l'enquête est constitué d’individus de 15 ans et
plus. Les caractéristiques du quota retenues sont le sexe, l’âge et la CSP du chef de ménage, le plan
de travail de l'enquêteur est résumé dans un tableau : L'enquêteur doit interviewer 8 hommes et 8
femmes ; 3 interviewés doivent avoir entre 15 et 24 ans, 3 entre 25 et 34 ans,
Tableau 2 : exemple de plan de travail dans une enquête par quota

Région Ouest 16 interviews à réaliser Villes de 2000 à 20 000 hts


Sexe de l’interviewé
Homme 8********
Femme 8********
Age de l’interviewé
15 à 24 ans 3***
25 à 34 ans 3***
35 à 49 ans 4****
50 à 64 ans 3***
65 ans et + 3***
CSP du chef de ménage
Agriculteur, salarié agricole 2**
Artisan, petit commerçant 2**
Ind., gros commerçant, prof. Lib., Cadre Supérieur 1*
Cade moyen, employé 2**
Ouvrier, personnel service 5*****
Inactif, retraité 4****

Ce tableau ne contient que des quotas marginaux, c'est-à-dire qui donnent la proportion de chaque
modalité de façon séparée. La tâche de l'enquêteur est assez facile pour les 1ères interviews, mais
plus difficile pour les dernières où la sélection devient plus contraignante.
La proportion de chaque catégorie dans l’échantillon est la même que celle de la population totale.
L’enquêteur est libre d’interroger qui il veut dans la commune, sous le respect des quotas qui lui ont
été fournis. Les quotas les plus utilisés en pratique sont les quotas marginaux. Mais on utilise aussi
des quotas croisés, correspondant aux croisements des critères. Les quotas permettent de déterminer
le nombre de personnes possédant chaque caractéristique de base que l'on veut dans l'échantillon et
d’arrêter de recueillir les données dès que ce nombre (le quota) est atteint.
Cette méthode peut être suggérée lorsqu’on veut constituer un petit échantillon. La fiabilité des
résultats d’une enquête par quotas peut être améliorée en choisissant l’une des options suivantes :
 Tirage (aléatoire ou non) des lieux d’enquête (communes, ZD, îlots, etc.) ;
 Contrôle des enquêteurs en accompagnement (ou écoute) ou a posteriori ;
 Indication des itinéraires aux enquêteurs.

53
L'échantillonnage par quota, encore pratiqué par certaines firmes de sondage, a été longtemps le
principal mode d'échantillonnage. Strictement parlant, il ne permet pas l'inférence statistique et il est
moins fiable en ce sens que les résultats sont plus variables d’un échantillon à l’autre (voir Vachon,
Durand et Blais, 1999). Ce type d’échantillon est pratiquement le seul utilisé par les firmes de
sondage dans plusieurs pays d’Europe, des considérations techniques, pratiques et sociologiques
ayant retardé l’utilisation d’échantillons probabilistes.

III.1.3 Avantages et inconvénients de la méthode


Avantages
 Coûts faibles
 Temps de recueil court
 Pas besoin de base de sondage
 Facile à mettre en œuvre
Inconvénients
 Imprécision des résultats (impossible de calculer la précision) ;
 Nécessité de contrôler quotidiennement le respect du plan de travail par les enquêteurs, et de
faire des redistributions constantes ;
 La grande liberté laissée aux enquêteurs qui peuvent enquêter n’importe qui, pourvu que les
quotas soient respectés.
 Non représentativité possible de l’échantillon ;

III.1.4 Remarques :
i. La sélection de l’échantillon est limitée par l'existence de statistiques disponibles au niveau de
la population :
ii. Les variables de quotas doivent être pertinentes et avoir une distribution connue au niveau de
la population (l’information doit être disponible).
iii. Les variables de quotas doivent être facilement identifiables par l'enquêteur en début
d'interview. On évite ainsi un début de questionnaire fastidieux.
iv. La méthode des quotas peut être utilisée en complément d'un sondage aléatoire.
v. Mieux vaut utiliser des variables jugées importantes comme variables de redressement, en
pensant à les inclure dans le questionnaire.
vi. Enfin, donner à l'enquêteur non pas des quotas croisés mais des quotas marginaux : avec des
enquêteurs expérimentés, cela diminue le temps de recherche des interviewés.
III.1.4 Exercice :
On veut faire une enquête socio-économique sur la population active de la ville Bamako. On choisit
un sondage par la méthode des quotas, et un échantillon de 5000 personnes également réparties dans
les six communes (numérotées de 01 à 6). Pour cela, on sélectionne 6 agents enquêteurs. Un
recensement récent a fourni les répartitions globales présentées dans le tableau suivant d’après 3
critères.
1) Déterminer les effectifs des sous populations suivants les différents critères.
2) Etablir (proposer) un plan de travail sous forme de tableau pour chaque enquêteur intégrant
l’organisation par commune.

54
Tableau 3 : Exemple de structure de la population suivant les variables auxiliaires
Sexe Age Secteur d’activité
Hommes 48% 16-24 ans 14% Secteur formel
Femmes 52% 25-44 ans 37% Cadres, patrons 16%
45-64 ans 35% Employés, ouvriers 24%
65 ans et + 14% Secteur informel
Cadres, patrons 3%
Travailleurs indépendants 36%
Employés, aides familiaux, etc. 21%
100% 100% 100%

I.19. III.2 Echantillon de volontaires ou la méthode du volontariat


III.2.1 Définition et Principe
En fait ici, c’est l’enquêté qui s’auto sélectionne, en entrant en contact avec l’enquêteur pour lui
exprimer sa disponibilité à participer à l’enquête (généralement suite à un communiqué). On
l’utilise pour des thèmes sensibles (d’un point de vue éthique ou de la loi), et on n’interroge que
ceux qui se portent volontaires.
Il y a ici un biais de sélection. Suivant le thème, ce ne sont que les personnes favorables (ou
défavorables, selon le cas, voir biais de sélection) qui se porteront volontaires. Ce qui peut conduire
soit à des surestimations, soit à des sous estimations de la réalité. Par conséquent, les résultats
doivent être interprétés avec beaucoup de précautions.
On l'utilise uniquement lorsque l'on peut prétendre que les phénomènes étudiés sont intra
individuels et universels, lorsque l'on étudie des processus pour eux-mêmes. Cette méthode est très
fréquente sur le réseau Internet.
III.2.1 Démarche de mise en œuvre
Etape 1 : Choisir les canaux de communication par lesquels il est possible d’informer les
populations ciblées de l’étude en cours, et solliciter leur participation à l’étude. Publier alors des
messages par ces canaux (affichages, Internet, médias, etc.). Afin d’inciter la participation des
populations, il faut susciter l’intérêt, par des récompenses, des avantages particuliers et même des
rémunérations.
En médecine :
i. « Dans le cadre du test de médicaments contre le paludisme, Laboratoire
conduisant une étude sur ... cherche volontaires pour participer à des études
expérimentales de tests de produits. … Prise en charges à hauteur de 10% pour
tout examen médical pendant une période de 6 mois, et …Si intéressé, appelez au
… ou envoyer mail à … @ ….com»
ii. « Centre de recherche sur le syndrome … cherche femmes pour participer... si
vous avez un ou plusieurs des symptômes suivants, prière de communiquer avec
nous.... . Offre gratuite de deux produits de … appelez au … ou envoyer mail à …
@ ….net»
iii. ONG … recrute des personnes âgés de … à … désirant abandonner la cigarette
pour étude sur le foi et … . prise en charge de désintoxication et suivi pendant
Etape 2 : On entre en contact et enquête chacune des personnes se porte volontaire.

55
III.2.3 Avantages et  Inconvénients
a) Avantages :
 Coûts faibles ;
 Pas besoin de base de sondage ;
 Facile à mettre en œuvre ;
b) Inconvénients :
 Biais de sélection du au thème : Par exemple, dans l’exemple iii, les personnes voulant
arrêter de fumer seront les plus favorables à l’étude ;
 En aucun cas, l'échantillonnage de volontaires ne peut être considéré comme représentatif
d'une population
 Temps de recueil peut être incertain ;
 Difficile d’atteindre la taille voulue.

I.20. III.3 Méthode des itinéraires « random route »


III.3.1 Principe
On impose à l'enquêteur des points, des lieux, des chemins ou des périodes (appelés tous itinéraires)
à respecter ou à suivre pour la sélection des enquêtés. On peut y adjoindre un tirage systématique
des unités (par exemple des logements) dans lesquels effectuer les interviews.
L’objectif est de reproduire un certain tirage aléatoire des enquêtés, sans donner explicitement des
noms et adresses à l'enquêteur. Ce qui permet de réduire le biais de sélection du aux choix selon les
convenances de l’enquêteur.
Cette méthode est une variante de la méthode des quotas. Les itinéraires sont choisis soit de façon
aléatoire, soit comme des « lieux ou temps types ». Les contraintes d’itinéraires sont alors élaborées
de manière à introduire à la fois la représentativité de l’échantillon et l’aléa dans la sélection. Ce qui
constitue un avantage par rapport à la méthode des quotas.
III.3.2 Mise en œuvre
i. On identifie les espaces (lieux et temps) sur lesquels se répartit la population d’étude. Par
exemple, s’il s’agit d’une enquête sur les transports en commun, il faut obligatoirement tenir
compte des périodes de la journée, des jours de la semaine et des lieux de gares routières.
ii. On sélectionne les espaces où enquêter de manière à améliorer les « chances » de toucher la
diversité de la population (On peut y adjoindre un tirage des unités (par exemple des
logements) dans lesquels effectuer les interviews)
iii. On affecte les agents enquêteurs sur les espaces choisis avec des consignes fermes (en
général un plan de travail).

III.3.3 Avantages et Inconvénients


a) Avantages :
 Permet de prendre en compte les caractéristiques géographiques de l’univers, et donc une
meilleure couverture que la méthode des quotas ;
 Certains problèmes non réponses peuvent facilement être résolus.
b) Inconvénients

56
 Coût un peu plus élevé par rapport à la méthode des quotas ;
 La grande liberté laissée aux enquêteurs qui peuvent enquêter n’importe qui, pourvu que
l’itinéraire soit respecté.
III.3.4 Exemple 
Dans le cadre d’une enquête sur les transports en commun, on peut faire un tirage de gares routières
et arrêts de bus, les répartir suivant des convenances géographiques et indiquer ces lieux et des
heures d’interview aux enquêteurs.

I.21. III.4 Technique de « boule de neige »


III.4.1 Principe
Le principe de la boule de neige est qu’elle grossie au fur et à mesure qu’il roule.
La méthode consiste à partir d’une personne identifiée que l’on enquête, et dont on se sert ensuite
comme source d'identification d'unités additionnelles. Ainsi, après avoir enquêté un individu
identifié, l’enquêté lui demande de le mettre en contact avec d’autres de ses connaissance, qui font
partie de la population d’étude. On procède ainsi jusqu’à satisfaire l’objectif de taille d’échantillon
désirée.
Cette méthode est appliquée pour constituer un échantillon basé sur des caractéristiques
particulièrement rares, ou/et dont on n’a pas d’information sur la localisation.
III.4.2 Mise en œuvre
 Identifier des personnes concernées (informateurs initiaux) ;
 Après les avoir enquêté leur demander d’autres adresses ;
 Procéder ainsi jusqu’à satisfaire l’objectif de taille d’échantillon désirée.
Il faut noter qu’il peut y avoir du volontariat dans cette méthode. Car pour des thèmes sensibles, ce
sont les informateurs initiaux devront donner leur accord. Par la suite, chaque informateur peut
avoir tendance à obtenir l’accord d’une connaissance avant de donner son contact à l’enquêteur.
Par ailleurs, pour éviter que l’enquête tourne autour d’un « même réseau » de connaissance, il est
nécessaire de bien disperser les informateurs initiaux.

III.4.3 Avantages et Inconvénients


a) Avantages :
 Coûts faibles ;
 Pas besoin de base de sondage ;
b) Inconvénients :
 Biais de sélection dû aux informateurs initiaux ;
 Difficile à mettre en œuvre ;
 En aucun cas, l'échantillon ne peut être considéré comme représentatif d'une population ;
 Temps de recueil peut être incertain ;
 Difficile d’atteindre la taille voulue ;
III.4.3 Exemples

57
De telles études peuvent être utilisées pour des enquêtes sur des homosexuels, des trafiquants
illégaux, des passeurs clandestins, des migrants rapatriés, des exilés politiques, etc.
I.22. III.5 La méthode des « unités types »
III.5.1 Principe
On l’appelle encore échantillon raisonné ou jugé. C’est la plus empirique des méthodes. Elle
consiste à choisir dans des groupes homogènes de la population un nombre très limité d’unité qui
représentent au mieux leur sous-groupe. Il s’agit donc de choisir par le jugement ou raisonnement,
une ou quelques unités dans chaque groupe. Ce sont les unités « types ou moyennes »,
Il faut au préalable que la population soit subdivisée en un certain nombre de sous-groupes assez
homogènes. On constitue l’échantillon en choisissant dans chaque sous population
Cette méthode fait implicitement l’hypothèse que si les individus d’un sous-groupe (mêmes
caractéristiques de regroupements) ont les mêmes caractéristiques que l’unité type sélectionnée, ils
auront aussi les mêmes caractéristiques que ce dernier pour les variables d’intérêts.
Dans cette technique, l'échantillonnage est effectué selon le jugement de l'enquêteur. On sélectionne
par exemple dans une liste quelconque des personnes les plus susceptibles de faire partie de l'unité
d'échantillonnage.
Pour certaines études, la sélection des unités types peut se faire au premier niveau (quartiers, îlots,
écoles, places, etc.), comme dans le cas de la méthode des itinéraires.
III.5.2 Mise en œuvre
i. Rechercher les variables auxiliaires permettant de former des groupes homogènes ;
ii. Subdiviser la population en un certain nombre de sous population assez homogènes par
croisement des variables auxiliaires ;
iii. Identifier dans chaque groupe (par jugement) une unité « type ou moyen », que l’on
considère représentative ou caractéristique de la sous population (On peut prendre aussi
deux, du moins, un nombre réduit ;
iv. Enquêter ces unités types.

III.5.2 Avantages et  Inconvénients


a) Avantages :
 Très rapide ;
 Permet de recueillir des caractéristiques objectives des grandes unités ;
 Produit parfois d’assez bons résultats.
b) Inconvénients :
 Nécessite une bonne connaissance préalable de l’univers étudié ;
 Nécessite des variables auxiliaires ;
 Le choix de l’unité type est arbitraire ;
 Les résultats ne peuvent être généralisés.

58
I.23. Conclusion partielle et introduction aux sondages aléatoires
Il existe d’autres techniques empiriques, comme l’Échantillonnage sur place (lieu d'achat ou
d'activité lorsque la population étudiée est définie par son activité). Par exemple, les enquêtes
auprès des clients d'un centre commercial, des clients de telle chaîne de restaurants...
Pour ce type d’enquête, on doit déterminer :
 les endroits où enquêter en prenant soin de ne pas sur représenter les individus qui passent
beaucoup de temps sur le lieu de l'enquête.
 les périodes d'enquête en constituant éventuellement des groupes de périodes, homogènes
par rapport à leur clientèle, et en échantillonnant dans chaque groupe.
 les pondérations a posteriori pour tenir compte de la probabilité de présence des répondants.
L'échantillonnage sur place est une des techniques utilisées dans l'échantillonnage de populations
mobiles ou rares (les acheteurs d'armoire de toilette, les lecteurs étudiants de tel quotidien distribué
en Université...). Mais on peut toujours ramener ces techniques à un modèle classique.
Nous abordons dans ce qui suit les sondages probabilistes. Ils exigent tous à des degrés et niveaux
divers, une base de sondage.
La variable d’intérêt notée Y peut être qualitative ou quantitative.
Sur la population de taille N, les valeurs de Y sont : Y1, ..., Yk, ..., YN.
Sur un échantillon de taille n, les valeurs sont : y1, ..., yk, ..., yn.
La valeur obtenue au tirage « i », yi, est en fait une réalisation aléatoire d’une variable aléatoire y et
à valeurs dans : {Y1, ..., Yk, ..., YN}. Les tirages étant indépendants, les valeurs y1, ..., yk, ..., yn ne
sont rien d’autres que des réalisations aléatoires de variables aléatoires (indépendantes,
identiquement distribuées)

59
CHAPITRE IV : LE SONDAGE ALEATOIRE SIMPLE : SAS3

Le SAS correspond au mode d’échantillonnage au hasard simple. C’est la méthode de référence, la


plus simple des méthodes de sondage aléatoire, la plus facile, et aussi la méthode de base, puisque
toutes les autres méthodes aléatoires utilisent le SAS dans leur mise en œuvre.
Dans ce chapitre, comme dans tous les autres présentant les techniques aléatoires classiques, nous
décrivons le principe et le contexte d’application, la démarche de mise en œuvre, les expressions
des estimateurs, des calculs poids, des précisions et intervalles de confiances et de la détermination
de la taille de l’échantillon et sa répartition entre groupes le cas échéant. Les exposées sont ponctués
d’exemples d’application.

I.24. IV. Principe et mise en œuvre


IV.1 Définition
Le sondage aléatoire simple (SAS) est la méthode de sondage aléatoire qui consiste à sélectionner
un échantillon, directement à l’aide d’une base de sondage, sans recourir à une information
auxiliaire, mais directement et uniquement à partir des seuls identifiants des individus de la base.
Pour cela, on tire dans la liste des unités d’une population de taille N un échantillon de taille fixe n
sans manipulation de la base ou regroupement préalable (comme le tirage des boules indiscernables
dans une urne). On a la caractéristique fondamentale que : chaque échantillon de taille n a même
probabilité d’être sélectionné. Par conséquent, chaque individu aussi a la même probabilité
d’inclusion : n/N.
Le SAS s’utilise lorsqu’il n’est pas nécessaire de contrôler l’échantillon par des variables
auxiliaires. C’est le cas en particulier lorsque la population est supposée assez homogène du point
de vue des informations recherchées. D’un autre point de vue, le SAS convient lorsque la
population n’est pas de « trop » grande taille.

IV.2 Mise en œuvre


La sélection d’un échantillon par un SAS comprend les étapes suivantes :
 Constituer la base de sondage (liste des individus de la population)
 Définir le nombre d’unités d’échantillonnage à sélectionner (taille de l’échantillon) ;
 Définir la méthode de tirage (aléatoire simple ou systématique, voir annexe 3)
 Tirer le nombre d’unités voulu.
On en distingue deux façons de sélectionner dans un SAS :
 Echantillon avec remise (peu répandu en pratique).
 Echantillon sans remise.

a. Cas d’un tirage avec remise :


Dans ce cas, chaque individu tiré est remis dans la population après observation de ses
caractéristiques. Il y a donc risque d’interroger plusieurs fois la même personne au lieu d’unités
différentes. Mais toujours, tous les individus ont la même probabilité (1/N) d’être choisis à chaque
reprise du tirage. De même, tout individu a la même probabilité de figurer dans l’échantillon.
3
Pour les méthodes de sélection, cf. chapitre 1 sur les façons de tirer un échantillon, et les annexes, pour la démarche
sur Excel.
60
b. Cas d’un tirage sans remise :
L’individu tiré n’est pas remis dans la population après observation de ses caractéristiques. Il n’y a
donc pas de risque d’interroger plusieurs fois la même personne: tous les individus ont la même
probabilité (1/N) d’être choisis au premier tirage, 1/(N-1) au second, et ainsi de suite jusqu’à 1/(N-
n+1) au dernier tirage. Lorsque N est grand (comme c’est le cas dans les études nationales, où on
enquête sur des centaines de milliers, voire des millions), ces probabilités sont peu différentes et
ainsi les deux types de tirage sont équivalents.
Pour la suite, on suppose un sondage sans remise.

I.25. IV.2 Paramètres, estimateurs et précision


IV.2.1 Estimateur de la Moyenne, variance et erreur type
La probabilité (d’inclusion) qu’un individu figure dans l’échantillon est : n/N, appelé encore taux
de sondage. Le poids ou coefficient d’extrapolation est N/n. Le sondage sans remise est donc
représentatif puisque chaque individu de la population peut figurer dans l’échantillon avec la même
probabilité connue n/N.
Si le taux de sondage f=n/N est inférieur à 0.05 (0.10 selon la précision souhaitée), l’échantillon
sans remise peut être assimilé à un échantillon avec remise.
¿

Y SAS = y =
1 n
n ∑ yi
i =1
Estimateur : Un estimateur sans biais de la moyenne est (la moyenne
arithmétique sur l’échantillon estime sans biais la moyenne dans la population totale)
2
¿
n σ
V (Y SAS )=(1− )
N n σ2
La variance de l’estimateur:  ; où est la variance de Y dans toute la
2
σ
population totale. Lorsque cette variance n’est pas connue (comme c’est souvent le cas), on
n
1
s ²= ∑
n−1 i=1
( y i − y )2
l’estime (sans biais) par la dispersion modifiée dans l’échantillon .
2
¿ ¿
n s
V (Y SAS )=(1− )
N n
La variance estimée (sans biais) de l’estimateur devient alors : .
Erreur type et erreur type relative : La précision absolue de la méthode, appelée erreur type est


¿ ¿
1,96 V (Y SAS )
ET= . Ce qui signifie que, d’après l’échantillon, l’estimation de la moyenne se fait à


¿ ¿
1,96 V (Y SAS )
plus ou moins unités.


¿ ¿
1,96 V (Y SAS ) y
La précision relative est ER = / . Cela signifie que la marge d’incertitude est de
l’ordre ER de la quantité évaluée (la valeur s’interprète en pourcentage).

√ √
¿ ¿
y−1,96 V (Y SAS ); y+1,96 V (Y SAS )]
Intervalle de confiance : [ (on prend souvent 2, au lieu de 1,96
61
Démarche pratique : Pour estimer la moyenne, on procède comme suit :
y
i) On calcule la moyenne ( ) et la dispersion modifiée (ou encore empirique, s²) des y
dans l’échantillon ;
ii) On calcule l’erreur type qui est le rayon de l’intervalle de confiance et représente la

précision du sondage : ET =
√ n s2
1,96 (1− )
N n
, pour un seuil de risque de 5%.
iii) On en déduit les bornes de l’intervalle de confiance un intervalle contenant le paramètre,
avec une probabilité de 95% (confiance).
L’intervalle de confiance à 90% s’obtient en remplaçant la valeur 1,96 par 1,65 (qui est le quantile
de la loi normale au seuil de 10%). Pour un l’intervalle de confiance à 99%, on utilisera la valeur
2,58 (coefficients déterminés par la loi de Gauss).

Remarque : Déduction du cas de l’estimation d’un total


¿

Y
n
¿
N
T =N∗ SAS =N∗ y=
n
∑ yi
i =1
On obtient l’estimateur du total à partir de la formule . Les autres
propriétés s’en déduisent aisément.

IV.2.2 Estimateur d’une proportion, variance et erreur type :


Une proportion est un cas particulier de moyenne. Pour cela, construisons la variable qui, à
l’individu i, fait correspondre la valeur Yi suivante :
Yi = si le client i a la caractéristique étudiée « D » (par exemple est un drogué).
Yi = 0 sinon.
La proportion P recherchée n’est autre que la moyenne des Y i . On peut donc mettre en œuvre les
techniques exposées précédemment. Les calculs prennent une forme particulièrement simple : Si
P=ND/N est la proportion des drogués, alors
Estimateur : p=nD/n la proportion dans l’échantillon est un estimateur sans biais de la proportion
dans la population.
2
¿ ¿
n s np (1− p) ¿ ¿
n p(1− p )
V (Y SAS )=(1− ) s ²= V ( p )=(1− )
N n n−1 N n−1
La variance estimée :  ; avec . D'où .

√ √
¿ ¿
y−1,96 V ( p ); y+1,96 V ( p )]
Intervalle de confiance : [


¿ ¿
1,96 V ( p )
La précision absolue ou erreur type est ET = . Ce qui signifie que, d’après l’échantillon,


¿ ¿
1,96 V ( p )
l’estimation de p se fait à plus ou moins points de pourcentage.

62

¿ ¿
1,96 V ( p )
La précision relative ER = /p. Cela signifie que la marge d’incertitude est de l’ordre de
ER de la quantité évaluée.

I.26. IV.3 Détermination de la taille de l’échantillon


La dernière question qu’appelle le SAS est « A partir de combien d’éléments un échantillon est-il
valable ? » Si la question est ainsi posée, il n’y a pas de réponse directe. Cela dépend de la
contrainte de budget plus ou moins forte. Il est recommandé de majorer la taille obtenue (par
une règle de trois) pour tenir compte des taux de non réponse à l’issue de l’enquête. Le taux
de non réponse est égalé à ceux observés lors d’enquêtes similaires.

IV.3.1 Détermination de la taille de l’échantillon à partir de la contrainte de coût


Soit C est le budget maximum alloué à l’enquête et c est le coût unitaire de sondage, la taille
maximale possible est : C/c. Mais, cette taille peut être insuffisante pour assurer des résultats
suffisamment fiables. La question qui se pose alors en terme de précision : « Quel budget faudrait-il
consacrer pour garantir une précision acceptable ? ».
Même dans ces termes, il n’y a pas de réponse toute faite. Il faut d’abord définir ce qu’on entend
par précision acceptable. On peut convenir d’un écartement maximum toléré de l’intervalle de
confiance, i.e. fixer une borne à la précision absolue ou bien fixer une borne à la précision relative.

IV.3.2 Détermination de la taille de l’échantillon à partir de la contrainte de précision


La difficulté tient dans le fait qu’il faut avoir a priori une idée de l’ordre de grandeur des quantités
qui doivent intervenir et de leur variance.
2
n s
√ V (Y √
¿ ¿ ¿ ¿
(1− )
SAS ) V (Y SAS ) N n
Si on connaît la précision E = 2 , soit E² = 4 = . On en déduit la taille
4 NS ²
n=
4 S ²+ E ² N
nécessaire . (La procédure est similaire pour une proportion).
4S ²
n=

Lorsque le taux de sondage est faible, on a .
Pour trouver s, on utilise les résultats d’une enquête similaire réalisée dans un passé pas trop
éloigné, ou sur une population similaire. A défaut, on réalise l’enquête en deux phases : on prélève
un premier échantillon pour évaluer grossièrement s², et on en déduit une taille souhaitable pour
l’échantillon véritable.
Tirage de l’échantillon : Il se fait généralement par tirage aléatoire simple ou systématique.

IV.2.3 Propriétés et stratégies pour améliorer la précision


La précision dépend de 3 éléments :
i) La taille n de l’échantillon : plus l’échantillon est grand, plus l’estimation est précise.

63
ii) La variance de la variable d’intérêt : plus une population est homogène (variance
faible), plus le sondage est efficace. Si tous les individus sont caractérisés par des
valeurs Yi identiques, un seul suffit à les représenter. A l’inverse, sonder dans une
population très hétérogène nécessite des échantillons de taille importante, ou un
découpage préalable en sous populations homogènes (principe de stratification).
iii) Le taux de sondage f (=n/N) : si le taux de sondage est égal à 1, l’échantillon est la
population entière et il n’y a plus d’erreur. Mais, dans la très grande majorité des
sondages, les taux de sondage sont très faibles.
I.27. IV.3 Avantages et inconvénients du sas :
Le SAS présente plusieurs avantages :
 Facile à mettre en œuvre, et rapide,
 Pas exigeant en matière d’information auxiliaire.
 Peut donner une répartition satisfaisante de l’échantillon et une bonne précision. Les
résultats obtenus par cette technique sont fiables et valides, et d’autant plus précis que la
population est homogène du point de vue de la variable d’intérêt, c'est-à-dire le phénomène
étudié est peu dispersé.
Les inconvénients sont de deux ordres :
 Exige une base de sondage à jour ;
 La dispersion possible de l’échantillon dans la population engendre des coûts élevés
d’enquête.
On peut améliorer la précision et la représentativité de la population données par le SAS en faisant
une stratification préalable.

I.28. IV.4 Exercices d’applications


Problème 1 : estimation d’une moyenne
On a pesé sur pieds 100 bœufs choisis au hasard simple, à leur arrivée à l’abattoir, sur une certaine
période. A partir des données, on a calculé la somme des poids et la somme des carrés des poids de
tous les bœufs pesés : Σxi=75000kg et Σx²i= 5,65*107kg² où xi est le poids du ième animal en kg.
1) Quel est le poids moyen d’un bœuf destiné à la consommation, avec un intervalle de confiance à
95% ?
2) Quelle est la production annuelle de viande du pays au niveau de confiance 95%, si l’on suppose
un abattage quotidien de 2000 bœufs.
Solution :
La technique de sondage utilisée est le SAS sans remise, puisque les bœufs sont choisis au hasard,
et on n’a aucun intérêt à peser un bœuf deux fois (c’est la logique).
1) Le poids moyen est donc (1/100)*Σx i=750kg Nous sommes dans le cadre de l’estimation d’une
2
¿
n S
V (Y SAS )=(1− )
moyenne. N n . On peut très bien considérer que (n/N)<5%. En effet, l’exercice
porte sur une production annuelle de viande de bœuf et donc, le nombre d’abattages sur l’année doit
être bien élevé par rapport à 100.
¿

V (Y )=
Soit alors n , estimée par
64
1 1 1 1 1
V (Y ) =s²/n= n−1 n ∑
¿ ¿
∗ ( x i−x )²
= n−1 [ n Σx²i –( x )²] = n−1 *2500 = 25,25kg².


¿ ¿

L’intervalle de confiance est IC(X) = [ x -ET, x +ET] avec ET = 2 V (Y ) = 2*50/ √ n−1 = 10,05
kg (marge d’erreur au seuil de 5%).
Ainsi, IC(X) = [750 – 10,05 ; 750 + 10,05] = [740 kg ; 760 kg]
2) Si on considère 365 jours / an, on a Nan = 365x2000 = 730 000 (bœufs).
¿
La production annuelle de viande du pays est Nan* Y = 730 000 * 750 = 547 500 tonnes.
L’intervalle de confiance au niveau de confiance 95% est : [543 850 000 kg ; 551 150 000 kg]

Problème 2 : Estimation du budget nécessaire pour une campagne de vaccination


Le ministère de la santé voudrait avoir une estimation du budget à prévoir pour l’achat du matériel,
afin d’effectuer une opération de vaccination des enfants de cinq ans. On suppose qu’il s’agit d’un
même kit de vaccination pour chaque enfant. La population est composée de N = 300 000 enfants
de la tranche d’âge ciblée.
Q1. Comment évaluer la proportion des enfants devant être vacciné ?
Ne disposant pas de données de sources administratives fiables, et pour répondre à la première
question, on réalise une enquête dans une localité où le taux de scolarisation des enfants est de 80%.
Pour cela, on sélection à partir d’un SAS les numéros de 10 000 élèves de première classe du
primaire, et on relève leur situation vaccinale à partir de leurs dossiers. On suppose que chaque
élève présente un certificat de vaccination à l’inscription. A l’issue des observations, on identifie
230 enfants non vaccinés.
Q2. Quelle est la démarche utilisée pour constituer la base de sondage ?
Q3. Donner avec une précision de 95% le pourcentage d’enfant non vaccinés. En déduire le budget
à prévoir pour l’achat des kits de vaccination.
Q4. Quelles sont les critiques de la méthode utilisée pour estimer ce pourcentage?
Solution : (indications)
Q1. On peut utiliser des sources administratives pour avoir le taux de vaccination du vaccin en
question. S’il n’y a pas de données disponibles, on peut procéder par une enquête pilote.
Q2. Il faut constituer la liste des élèves à partir des registres des écoles au niveau des services
administratifs déconcentrés. Ensuite effectuer le tirage.
Q3. La variable d’intérêt ici est la réponse à la question de savoir si oui ou non un enfant est
vacciné. Il s’agit en fin de compte de l’estimation d’un total : le nombre d’enfants non vaccinés
qu’on va multiplier ensuite par le prix d’un kit pour avoir le budget.
Il faut d’abord trouver un intervalle de confiance de p, la proportion inconnue d’enfants, à partir du
sondage effectué.
¿
p
L’estimateur de la proportion des abonnés donne = nh/n = 230/10000 = 2,3%.
¿
V ( p)
L’estimation de la variance de l’estimateur de la proportion est = p(1-p)/n.

65

¿ ¿ ¿
p V ( p)
D’où l’intervalle de confiance (bilatéral) à 95% est IC(p) = [ ± 1,96* ] = [2,01% ; 2,59%].
Pour avoir le nombre d’enfants dans toute la zone de la campagne de vaccination, (donc le nombre
de kits à prévoir) on multiplie l’estimateur de la proportion par N, le nombre total d’enfants dans la
zone d’étude :

√ V (N p ) =N √ V ( p ) .
¿ ¿ ¿ ¿
p
L’estimateur du nombre total d’abonnements est =N* . Et
D’où l’intervalle de confiance est

√ V ( p ) ] = [N*2
¿ ¿ ¿
p
IC(Nh) = [N ± 1,96*N ,01% ; N*2,59%] = [4012 ; 5188].
Le ministère doit prévoir entre 4012 et 5188 kits. En multipliant par le prix d’un kit, on obtient
l’intervalle du budget à prévoir.
Q5. Les critiques portent surtout sur la représentativité de la population d’estimation (créer un
cadre de discussion sur la question) :
i) On pourrait penser que les enfants scolarisés ont des taux de couverture plus élevés.
ii) L’âge à l’inscription est de un an supérieur à l’âge de la population cible. On pourrait
penser que les parents vaccinent les enfants avant de les inscrire.
iii) La situation pourrait être différente en zone rurale ;
iv) Tout compte fait, le budget peut être sous-estimé. Par conséquent, si on dispose des
rapports de taux de vaccination entre zone rurale et zone urbaine, et aussi entre enfants
scolarisés et non scolarités, on pourrait utiliser des règles de trois pour redresser les taux
en faisant des hypothèses. Le chiffre obtenu serait beaucoup plus proche de la réalité.
Problème 3 : Détermination de la taille d’échantillon
Par un sondage d’opinion, on souhaite estimer la proportion p d’individus qui sont favorables à une
loi qui va passer au référendum, par un SAS. Combien de personnes doit-on interroger pour que
l’on puisse donner un intervalle de confiance à 95% pour la proportion avec une erreur d’au plus
0,02 ? Interpréter.
E = 0,02 est l’erreur type. La taille de la population des électeurs est forcément très grande, et on
peut supposer que le taux de sondage n/N est petit (<5%). En négligeant le taux de sondage, on a :
4s ² 4 p(1− p )
n= n=
E² E²
Avec s² = p(1-p). Donc, n = = (4p – 4p²)/E²
La taille de l’échantillon est une fonction de la proportion « p ». N’ayant aucune idée de p, on se
place dans les conditions les plus défavorables et on recherche la taille « n » maximale.
La dérivée de f(x) = x(1-x) = x-x² est f’(x)=1-2x et elle s’annule lorsque x = 1/2. La dérivée seconde
est négative, donc f admet un maximum lorsque x = 1/2. Ainsi, la taille de l’échantillon est
maximale lorsque p=1/2. n = 4*0,5*0,5/(0,02)² = 2500 personnes. Si on connaît la taille de la
population mère, on peut calculer le poids de sondage d’une unité de l’échantillon.
Interprétation : Le calcul ne dit pas que 50% (1/2) de la population est favorable. Mais on sait
qu’en enquêtant 2500 personnes, l’erreur d’estimation sera au plus de 2%. C'est-à-dire que si le
sondage donne 56% de cas favorables, on pourra dire avec une assurance de 95% que dans la
réalité, le nombre de personnes qui vont voter « oui » est compris entre 54% (56 -2), et 58% (56+2).

66
I.29. IV.5 Procédure et application Excel et SPSS pour le tirage d’un échantillon
probabiliste dans un SAS
IV.5.1 Cas d’un tirage aléatoire simple sans remise :
Le tirage aléatoire simple s’apparente à un Fig. 3 Illustration d’un tirage aléatoire simple d’un
tirage au hasard pur, l'équivalent de tirer des échantillon de cinq unités parmi 20 dans Excel.
noms d'un chapeau ou du tirage au hasard à la
loterie. Pour le réaliser, concrètement, il faut
avoir une liste de la population – la base
d’échantillonnage-- et numéroter chaque unité
de la liste; ensuite, on peut utiliser une table de
nombres aléatoires qui déterminera les unités
choisies.
Avec une liste sur Excel, et tirage sans remise,
on génère des nombres aléatoires pour chaque
ligne, et on considérer les lignes ayant les « n »
nombres les plus petits forment l’échantillon.
La figure suivante en donne une illustration.

Dans cette illustration, la probabilité d’inclusion d’une unité est 5/20 =0,25 ; et le poids est 20/5 = 4.

Encadré : Constitution d’un échantillon à partir d’un SAS dans SPSS :


 Menu Données --> Sélectionner des observations, une fenêtre du même nom s'ouvre;
 Sélectionnez la case « Par échantillonnage aléatoire » et cliquez sur le bouton « Échantillon ». Une fenêtre
intitulée « Sélectionner des observations : Échantillon aléatoire »;
o Écrivez le pourcentage d'observations et cliquez sur « Poursuivre »; ou :
o  Cliquez sur « Exactement », écrivez le nombre d'observations désirées, écrivez le nombre exact
d'observations que vous avez et cliquez sur « Poursuivre »;
 Cliquez sur « OK ».

Fig. 4 : Démarche pour sélection aléatoire d’un échantillon par un tirage aléatoire simple

67
Plutôt que le tirage aléatoire simple, on peut procéder à un tirage systématique. C’est
particulièrement le cas lorsque les probabilités sont inégales.
IV.5.2 Le tirage aléatoire systématique :
Il s'agit ici de tirer seulement la première unité
La probabilité d’inclusion d’une unité est 6/20 ;
de la liste au hasard, et de prendre ensuite les
et le poids est 20/6 = 3,33
unités à un intervalle prédéterminé (une unité à
toutes les X unités). Il faut faire ou avoir une Note 1) Il existe une autre variante du tirage
liste - au moins conceptuelle - de la population systématique, à probabilités inégales.
et donc savoir combien d'unités elle comprend.
Note 2) La liste des unités ne doit pas avoir un
Il faut ensuite déterminer l’intervalle en
ordre qui pourrait entraîner un biais.
fonction du nombre d'unités requises dans
l'échantillon et déterminer au hasard la première
unité. Pour procéder, on choisit la première
unité et on choisit ensuite les unités en en
prenant une à tous les intervalles. Ainsi, si
l’intervalle est de 10 et que le nombre choisi au
hasard est 7, on prendra les unités suivantes : 7,
17, 27, 37, …

Encadré : Démarche informatique d’un tirage


systématique à probabilités égales

1) on détermine d’abord le pas de sondage : PAS = N/n ;


2) On génère un nombre aléatoire compris entre 1 et le
PAS : le départ aléatoire DA = x1 =aléa()*(PAS-1)+1
(dans Excel) ; L’arrondi de ce nombre aléatoire nous
indique le premier numéro tiré (départ aléatoire
i1 = arrondi(x1,0) ;
3) Les autres numéros s’obtiennent de façons successives,
en ajoutant à chaque fois, le pas sur le nombre (exact)
précédemment calculé et en prenant l’arrondi : on a
xj+1 = xj + PAS ; j = 1, 2, …, n-1
4) ij+1 = arrondi (xj+1, 0) ; j = 1, 2, …, n-1.

68
Fig. 5 Illustration d’un tirage systématique d’un
échantillon de six unités parmi 20 dans Excel.

69
CHAPITRE V : LE SONDAGE STRATIFIE

Le sondage stratifié est une méthode utilisant une variable auxiliaire pour contrôler l’échantillon. Il
s’agit en fait d’une amélioration du SAS. Dans ce chapitre, nous présentons la méthode en suivant
le même plan que dans le cas du SAS. A savoir, la description du principe et du contexte
d’application, la démarche de mise en œuvre, les expressions des estimateurs, des calculs poids, des
précisions et intervalles de confiances et de la détermination de la taille de l’échantillon et sa
répartition entre groupes le cas échéant. Mais en plus, nous relevons la question de l’allocation de
l’échantillon entre les strates. Des exercices d’application sont présentés à la fin du chapitre.

I.30. V.1 Principe justification et mise en œuvre


V.1.1 Principe
Le sondage stratifié est une technique qui procède d’abord par une répartition de la population
totale en (H) groupes (homogènes, appelés strates). On tire ensuite un (sous) échantillon aléatoire
de taille nh (h = 1, …, H), de sorte que la somme des tailles des sous échantillon donne la taille
totale.
Dans chaque groupe de taille Nh on tire un échantillon de taille nh :
◦ N = N1 + N2 + --- + NH
◦ n = n1 + n2 + --- + nH
Dans la pratique, le tirage des sous échantillons dans les strates se fait par un SAS. C’est pourquoi
cette méthode est une « amélioration » du SAS. Mais rien n’oblige à pratiquer des SAS dans les
strates, ni même à appliquer la même technique dans chaque strate.
Exemple : Supposons que l’on étudie la consommation des cigarettes auprès des étudiants. On peut
faire l’hypothèse selon laquelle ce comportement varie suivant le genre (homme et femme). On
constituera donc deux groupes : celui des hommes, et celui des femmes. Dans chacun des groupes,
on prélève un échantillon. On pourra alors comparer les résultats des deux groupes.
Dans l’exemple précédent, la stratification s’est faite suivant le critère du genre. On pouvait ensuite
répartir chaque genre par département ou faculté et grandes écoles, ou même par tranche d’âge. On
aurait ainsi plusieurs critères. Ces variables sont appelées critères ou variables de stratification. Il
est important qu’elle(s) soit(ent) corrélées au thème de l’étude, c'est-à-dire des variables auxiliaires.
Dans le cas de l’exemple sur l’étude du comportement des étudiants fumeurs, stratifier par sexe et
âge revient à faire l’hypothèse que le comportement de consommation de tabac parmi les étudiants
varie en fonction du genre, et de leur âge. Il est aussi indispensable de savoir comment la population
se répartie suivant les différentes catégories (strates) définies.

V.1.2 Justification
La stratification se justifie par deux raisons majeures :
i) Améliorer la précision par rapport à un SAS (raison technique ou scientifique) et ;
ii) Obtenir des estimateurs pour des groupes distincts et pouvoir comparer ainsi les groupes
(intérêt pratique ou stratégique).

V.1.3 Mise en Œuvre


Les étapes pour la sélection d’un échantillon sont les suivantes :

 Identifier les meilleures variables de stratification ;


70
 Constituer les bases de sondages pour chaque strate ;
 Définir la taille de l’échantillon, et la règle de répartition (ou d’allocation) de l’échantillon
entre les strates
 Effectuer les tirages dans chaque strate par application d’un SAS sans remise (méthode
classique) dans chaque strate ;
La règle de répartition de la taille de l’échantillon entre les strates est une question importante. Cette
problématique donne lieu à deux types d’allocation particulière :
i) L’allocation proportionnelle : elle consiste à répartir la taille de l’échantillon total, de
sorte que chaque strate y soit représentée selon son poids dans la population globale.
L’échantillon donne alors une « image en miniature » de la population. Elle est utilisée
lorsqu’il n’y a pas de raison d’accorder des probabilités d’inclusion différentes aux
unités des différentes strates ;
ii) L’allocation de Neymann : Elle consiste à faire une répartition qui conduise à une
variance minimale de l’estimateur. Il s’agit en fait de répartir l’échantillon entre les
strates proportionnellement aux variances dans les strates. L’idée ici, c’est de donner une
plus grande taille de sous échantillon aux strates les plus dispersées (du point de vue de
la variable d’intérêt), afin d’améliorer la précision de l’estimateur, c'est-à-dire réduire sa
variance). Dans ce deuxième cas, deux unités de deux strates différentes ont des
probabilités d’inclusion distinctes.
Mais rien n’oblige à choisir entre ces deux options.
I.31. V.2 Estimateurs et précisions
V-2.1 Cas général
¿
2
Yh sh
Les estimateurs dans les strates ( et ) obéissent alors aux formules précédentes vues dans le
cadre d’un SAS, puisqu’on effectue un SAS dans chaque strate. Et si on note pour une strate « h » :
nh la taille du sous échantillon et Nh la taille de la strate « h ».
¿

Y
H
Nh ¿
str = y= ∑ N
Yh
h=1
Alors l’estimateur de la moyenne dans la population totale est .
H
¿ N
V( Y ∑ ( Nh )2 (1−f h )∗S2h /nh
str )= h=1
Sa variance est
Avec fh = nh/Nh le taux de sondage dans la strate « h ».
On estime la variance en remplaçant les dispersions des strates entières par celles des sous
échantillons.
Les expressions des erreurs types et des intervalles de confiance demeurent identiques à ceux vues
¿

dans le cas du SAS, en considérant la variance de l’estimateur


V( Y str )
 :

71
Erreur type et erreur type relative : La précision absolue de la méthode, appelée erreur type est


¿ ¿
1,96 V (Y Str )
ET= . Ce qui signifie que, d’après l’échantillon, l’estimation de la moyenne se fait à


¿ ¿
1,96 V (Y Str )
plus ou moins unités.


¿ ¿
1,96 V (Y Str ) y
La précision relative ER = / . Cela signifie que la marge d’incertitude est de l’ordre
ER de la quantité évaluée (la valeur s’interprète en pourcentage).

√ √
¿ ¿
y−1,96 V (Y Str ); y+1,96 V (Y Str )]
Intervalle de confiance : [ (on prend souvent 2, au lieu de 1,96)

V-2.2 Cas de l’allocation proportionnelle


Elle consiste à répartir la taille de l’échantillon proportionnellement à la répartition de la population
entre les strates : (nh/n) = Nh/N d’où, nh = n*(Nh/N). On en déduit que fh = nh/Nh = n/N = f est
constant. L’estimateur s’écrit alors :
¿ H
Nh ¿
Y
H
nh ¿
prop= ∑ Y
n h
∑ Y
N h
h=1 h=1
=
H
¿ Nh
(1−f )∗∑ (
Sa variance est
V( Y prop )= h=1 N
)2 S2h /n prop
avec f = n/N.
La répartition proportionnelle n’est cependant pas celle qui donne la meilleure variance.
V-2.2 Cas de l’allocation optimale de Neymann
La répartition de Neymann est celle qui donne la variance minimale. Elle consiste à répartir la taille
de l’échantillon aux strates proportionnellement à leurs dispersions.
N h Sh
∑ N h Sh
Pour obtenir cette dernière, on prend nney = n . La variance devient alors
¿

Y
H H
1 1
V( Ney )= ( ∑ N S / N ) ²− ∑ N h S 2h / N
n h=1 ney h N h=1
. C’est la répartition optimale de Neymann.
Le sondage stratifié a évidemment les avantages sus signalés. Mais comme on peut le voir, les
formules se sont quelque peu complexifiées par rapport au SAS.

I.32. V-3 Détermination de la taille de l’échantillon


La détermination de l’échantillon obéît au même principe que dans le cas d’un SAS. Il est
recommandé de majorer la taille obtenue (par une règle de trois) pour tenir compte des taux
de non réponse à l’issue de l’enquête. Le taux de non réponse est égalé à ceux observés lors
d’enquêtes similaires.

72
V-3.1 Détermination de la taille de l’échantillon à partir de la contrainte de coût
Soit C est le budget maximum alloué à l’enquête et c est le coût unitaire de sondage, considéré
identique dans toutes les strates. Alors, la taille maximale possible est : C/c.
V-3.2 Détermination de la taille de l’échantillon à partir de la contrainte de précision
Lorsque E est fixée, tout dépend du type d’allocation.
H
¿ Nh
(1−f )∗∑ (
Pour une allocation proportionnelle, on a E²=4*
V( Y prop )=
4*
h=1 N
)2 S2h /n prop

H
N ∑ N h S 2h
h=1
H

N ² ( )+ N ∑ N h S 2h
4 h=1
D’où nprop=
H
¿ Nh
( 1−f )∗∑ (
Pour une allocation de Neymann, on a E²=4*
V( Y prop )=
4*
h=1 N
)2 S2h /n prop

H
( ∑ N h Sh )²
h=1
H

N ²( )+ N ∑ N h S 2h
4 h=1
D’où nprop=

N ²( )
4
Si les taux de sondage sont très faibles, les dénominateurs ne contiennent que le terme .
I.33. V-4 Avantages et inconvénients du sondage stratifie :
Avantages : Le sondage stratifié permet plusieurs gains :
 Amélioration de la précision globale par rapport à un SAS ;
 Possibilité d’obtenir des estimations par strate ;
 Possibilité de comparer les strates.
Les inconvénients sont de deux ordres :
 Exige une base de sondage à jour
 Exigence des informations sur les variables axillaires.

I.34. V-5 Exercice théorique d’application


Les strates des entreprises peuvent être définies à partir des critères de valeurs ajoutées, de capital
de régime ou de secteur d’activité.
Dans une population de N=1060 entreprises, on s’intéresse au
nombre moyen d’employés (taille). La population est
constituée de H=5 strates définies par les tranches de taille en
nombre d’employés. Réalisant un SAS dans chaque strate,
selon un budget permettant d’enquêter globalement 300
entreprises, on mesure la moyenne et la dispersion Sh² de la
73
variable (taille) dans l’échantillon des entreprises tirées. Ci- Tableau 4 : données pour exercice sur sondages
contre, les allocations, moyennes et dispersions par strate stratifiés
1) Quelle est l’estimation sans biais de la moyenne ? Tranche Effectif Moyenne Sh² nh
de taille Par strate
0–9 500 5 1,5
10 – 19 340 12 4
20 -49 75 30 8
50 – 499 120 150 100
500 et plus 25 600 2500
Total 1060 300

2) Donner la précision du sondage ainsi qu’un intervalle de confiance à 95 %


3) Déterminer les tailles d’échantillons des strates pour une allocation proportionnelle, et en déduire
les probabilités d’inclusion et les poids de sondages.
4) Déterminer les tailles d’échantillons des strates pour une allocation de Neymann, et en déduire
les probabilités d’inclusion et les poids de sondages.
5) Calculer pour chacune des allocations de la question 3 la précision du sondage.
6) Comparer les précisions des (4) cas étudiés (questions 2 ; 4 et 5) et interpréter.
Solution :
1) L’estimateur sans biais de la moyenne pour un sondage stratifié est donné par
¿

Y
5
Nh ¿ ¿
str = ∑ Y
N h Yh
h=1
= 39,46 ; avec Nh l’effectif et la moyenne (estimateur sans biais) dans la strate
¿

Y
5
Nh
V( str )= ∑ ( )2 (1−f h )s 2h / n h
2) La précision est l’estimation de la variance de l’estimateur h=1 N
=0,0699 ; où fh=nh/Nh est le taux de sondage dans la strate h.

√Y
¿ ¿

L’intervalle de confiance à 95 % est IC = [


Y str
± 1,96*
str
] = [38,944 ; 39,98] (l’erreur : E = 0,53)

3) et 4) La répartition proportionnelle obéit à la formule n h,prop Tableau 5 : Allocations, de l’exercice


= Nh*n/N (voir tableau suivant) sur sondages stratifiés
La répartition par strate correspondant à une allocation
optimale de Neymann répond à la formule : donnée nney = n Tranche de Effectif nprop nNey
N h Sh p h Sh taille
= 0–9 500 142 63
∑ N h S h ∑ ph S h . (voir tableau ci contre). Pour ce cas, on 10 – 19 340 96 70
commencera par la tranche qui a l’effectif le plus bas, mais la 20 -49 75 21 22
dispersion la plus élevée (500 et +). On trouvera alors une 50 – 499 120 34 120
500 et plus 25 7 25
taille supérieure à 25, qu’on ramènera à 25. On reprendra la Total 1060 300 300
procédure en essayant de répartir 275 aux autres strates.
On trouvera de même une taille de 122 pour la tranche [50 – 499] qu’on ramènera à 120. Puis on
répartira le reste (300- 25 – 120 = 155) aux trois autres strates.
Calculs des poids

74
Dans le cas d’une allocation proportionnelle, les probabilités d’inclusions sont identiques et égales
au taux de sondage, pour toutes les unités, indépendamment de la strate, soit 300/1060 = 0,28302 ;
Le poids d’une unité est alors 5,3333. Chaque entreprise de l’échantillon en représente 5,33.

Dans le cas d’une allocation de Neymann, la Tableau 6 : Allocations, de l’exercice sur
probabilité d’inclusion est la même dans chaque sondages stratifiés
strate, égale au taux de sondage de la strate. Les strates Effectif nNey probabilités poids
poids sont les inverses de ces probabilités. Les
0–9 500 63 0,126 7,937
valeurs sont contenues dans le tableau suivant.
10 – 19 340 70 0,206 4,857
20 -49 75 22 0,293 3,409
50 – 499 120 120 1 1
500 et plus 25 25 1 1

5) Pour une répartition proportionnelle, la précision du sondage est la variance de l’estimateur.


¿ 3

Y
3
Nh
V( str )= ∑( )2
( 1−f h ) S 2h / n h = ∑ p2h (1−f h )s 2h /n h
h=1 N h=1
Pour une répartition proportionnelle, on a ;
où fh=nh/Nh est le taux de sondage dans la strate h, et p h = Nh / N est le poids de la strate dans la
population totale. Or en répartition proportionnelle, fh = f = nh /Nh, et nh = Nh*n/N.
3
¿
(1−f ) Nh ¿
∗∑ ( ) S 2h
D’où,
V( Y prop )= n h=1 N
. Les calculs donnent
V( Y prop )
= 0,17408, et E = 0,81777
ph Sh
∑ ph Sh
Pour la répartition optimale de Neymann, en prenant n h = nney = n , Nh = Nph, et
¿
ph Sh
Y
3 3
1 1
V( Ney )= ( ∑ ph Sh ) ²− ∑ p h S 2h
∑ ph Sh n h=1 N h=1
fh = nh/Nh = (n )/Nph. Après simplification, on a .
¿

En application numérique, on a :


V( Y Ney )
= 0,0106, et ETNey = 0,2016.
¿ ¿

6) On a encore le résultat donné par la théorie :


V( Y Ney )
<
V( Y Pr op )
.
On remarquera que l’allocation proportionnelle est moins précise que l’allocation théorique
(question 2), et l’allocation de Neymann est bien le plus précise que les deux autres.
CHAPITRE VI : LE SONDAGE A PLUSIEURS DEGRES

Le sondage à deux ou plusieurs degrés est couramment utilisés dans les grandes études nationales.
Ce chapitre indique les raisons, la mise en œuvre et décrit la construction. Les formules des
estimateurs sont assez complexes. Afin de tenir compte du niveau des bénéficiaires final de la
formation, l’exposé de ce chapitre omettra certaines formules de variance. Le lecteur peut se référer
à la bibliographie pour des approfondissements. En outre, l’exposé se concentrera sur le modèle
particulier, couramment mis en œuvre, et qui permet d’obtenir un échantillon auto pondéré. Pour ce
cas, les expressions des estimateurs, des coefficients d’extrapolation, des précisions et intervalles de
confiances, ainsi que les règles de détermination de la taille de l’échantillon sont présentées.

75
En extension du chapitre, nous présentons le plan stratifié à deux degré, qui est le plan complexe
classiquement mis en œuvre dans les grandes enquêtes nationales.

I.35. VI.1 Principe justification et mise en œuvre


VI.1.1 Principe
Le sondage à deux (ou plusieurs) degrés est une technique qui procède d’abord par une répartition
de la population totale en un nombre (M) de groupes (appelés Unités Primaires (UP)
d’échantillonnage, ou encore grappe, dans la pratique des enquêtes ménages). Ensuite, on effectue
des tirages en cascades. Pour un sondage à deux degrés, la démarche est la suivante :
1. On sélectionne d’abord un certain nombre prédéfini de groupes (UP), par une procédure
de tirage aléatoire : c’est le premier degré du tirage. Ensuite,
2. Dans chacune des UP retenues au premier degré, on effectue un tirage aléatoire des
éléments appelés unités secondaires (US) : c’est le second degré de tirage.
Dans un sondage à trois degrés, on tire dans chacune des US retenues au deuxième degré, un
échantillon d’éléments.
Ainsi, à la différence du sondage stratifié dans lequel un échantillon est retenu dans chaque sous
groupe (strate), dans un sondage à deux ou plusieurs degrés, il n’y a pas d’échantillon dans les
grappes non sélectionnées au premier degré.

VI.1.2 Justification et hypothèse


Le tirage à deux degré est moins précis que le SAS. Mais son usage très populaire tient plutôt de
son « côté pratique ».
Le sondage à deux degrés est justifié lorsqu’on veut faire un tirage aléatoire des unités finales (US),
mais on ne dispose pas d’une base de sondage de ces US, mais qu’il est possible de constituer une
base exhaustive et à jour des unités primaires. Pour les enquêtes ménages, les unités primaires sont
en général prises comme des subdivisions statistiques du territoire (ilots, DR (district de
recensement). Plutôt que de constituer une liste complète de toutes les unités secondaires (les
ménages) de la population mère (ce qui est laborieux et coûteux), on se limite au dénombrement des
UP échantillonnées au premier degré. Par exemple, si on sélectionne 500 ZD (comme unités
primaires) sur 15000 ZD au total dans le pays, le coût du dénombrement pour constituer la base de
sondage des unités secondaires est divisé en principe par 15000 !
En outre, la pratique du sondage à deux degrés fait l’hypothèse que le phénomène étudié est
dispersé dans chaque UP. Ainsi, il n’est pas nécessaire de prélever un sous échantillon dans tous les
UP comme dans le cas d’un sondage stratifié. Toutefois, on retient un nombre d’UP assez important
pour augmenter les chances d’avoir un échantillon représentatif (ce qui une application de la loi des
grands nombres).
VI.1.3 Mise en Œuvre
Les étapes pour la sélection d’un échantillon sont les suivantes :

 Constituer la base de sondage des unités primaires d’échantillonnage (DR, Villes,


Communes, etc. (liste des UP) ;
 Déterminer le mode de sélection des UP ;
 Déterminer le nombre d’UP à tirer, le nombre d’US à tirer et leur répartition entre les UP ;
 Tirer le nombre d’UP voulu par une procédure aléatoire ;
 Etablir la liste (base) des US de chaque UP tirée à partir d’un dénombrement ;
76
 Tirer les US échantillon dans chaque UP sélectionnée.
La mise en œuvre du sondage à deux degrés soulève deux autres questions majeures :
i) Faut-il sélectionner les unités primaires à probabilités égales ou inégales ? Puisque la
méthode fait l’hypothèse que l’information recherchée est dispersée dans chaque UP,
alors, plus la taille d’une UP est grande, plus l’UP est susceptible de détenir
l’information exhaustive. Par conséquent, il est plus courant de sélectionner les UP à
probabilité inégales, proportionnelles à leurs tailles. La taille ici est le nombre d’unités
secondaires dans chaque UP. Ce choix permet d’obtenir des estimateurs plus précis
(variance minimale).
ii) Reste la question de la répartition de la taille de l’échantillon totale des US entre les UP.
Dans la pratique courante, lorsque les UP sont sélectionnées à probabilité inégales,
proportionnelles à leurs tailles, alors on tire un même nombre d’unités finales
(secondaires) dans chaque UP de l’échantillon du premier degré, en appliquant un SAS
dans chaque UP.
Les unités secondaires sont donc sélectionnées dans chaque UP par un SAS (donc de façon
équiprobable). Cette version est la plus pratiquée dans les grandes enquêtes. Elle conduit à un
échantillon dans lequel toutes les unités secondaires ont la même probabilité d’inclusion dans
l’échantillon, donc le même poids. On dit alors que l’échantillon est auto-pondéré, car il se
dépouille comme un recensement. Une telle pratique renvoie à une question de justice et d’équité.
En effet, pourquoi accorderait-on une plus grande chance de sélection à un ménage, simplement en
vertu de sa position géographique, ou de la taille de son UP d’appartenance ?
Formalisation mathématique :
Si on a un nombre « M » d’unités primaires (UP), de tailles respectives Nh (avant enquête) h = 1, 2,
3, …, M et qu’on tire un échantillon d’un nombre «  m » d’UP, et dans des UP sélectionnées à
probabilités inégales on tire le même nombre d’US égal à n0 :
◦ N = N1 + N2 + --- + NM et n = m*n0 + n2 ;
◦ Le taux de sondage au premier degré est m/M ;
◦ La probabilité d’inclusion au premier degré d’une UP est m*N h/N. Et le poids de
sondage de chaque unité primaire est N/(m*Nh) ;
◦ La probabilité d’inclusion des US dans une UP est uniforme, égale au taux de
sondage : n0/Nh, avant l’enquête.

◦ La probabilité d’inclusion d’une unité finale (US) dans l’échantillon global est alors
le produit des probabilités d’inclusion du premier et du second degré :
m*Nh*n0/N*Nh = m*n0/N qui est identique pour toutes les unités secondaires,
indépendamment de l’UP d’appartenance ;

◦ Le poids de sondage, qui permettra de généraliser les résultats à la population entière


est N/m*n0, indiquant le nombre d’unités (secondaires) représentées par une unité de
l’échantillon.
Principe du redressement de l’échantillon après enquête
Dans la pratique, il est parfois nécessaire de refaire les calculs des poids, du fait des déviations de
l’échantillon observées après enquête. Ces déviations sont de deux types :
- Les non réponses totales (ménages absents, refus total, etc.)
- Les tailles des UP dans la base de sondages des unités primaires sont approximatives : Il est
fréquent d’observer des écarts entre les tailles avant le tirage du premier degré, et la taille
77
des UP obtenues sur le terrain après dénombrement. Dans ce cas, c’est la nouvelle taille qui
sera utilisée pour calculer les probabilités d’inclusion au second degré ;
Pour effectuer des redressements, on considère Nh’ la nouvelle taille de l’UP, et n h le nombre
d’unités secondaires effectivement enquêtées (les questionnaires bien remplis, avec nh égal à n0 s’il
n’y a pas de non réponse totale ou de questionnaires rejetés)
La bonne probabilité d’inclusion au second degré dans une UP est nh/Nh’.
La probabilité d’inclusion finale (après redressement) est m*N h*nh/N’h*N. On n’a pas
équiprobabilité (échantillon auto pondéré) et il faut tenir compte des poids (inverses des probabilités
d’inclusion) dans les analyses pour avoir des statistiques qui correspondent à la population.
Exemple d’application : Calcul des poids des ménages et redressement dans un sondage à
deux degrés classique ou pure (sans stratification à priori)
Le principe de calcul des poids de sondage et des redressements est illustré dans le tableau suivant.
On suppose une sélection de 16 ZD au premier degré, dans une population dont la base de sondage
des ZD donne un cumul de 120 500 ménages. Il était prévu d’enquêter 20 ménages par ZD.
Tableau 7 : démarche de calcul des poids de sondages et redressement d’échantillon
Nbre
Poids
méng Poids
Proba méng NB_Méng_ Proba Nbre
Taille ZD Nbre total Poid enquêté redressé
ZD Proba ZD ménage avant ZD_dénom redressés pondéré
(Base) de ménages s ZD s s
avant dénom b ménages ménages
(qes ménages
b
valides)
1/c Z= 1/z e/c
a b C = 16*a/b d = 16*20/b 1/d e X 16*a*x/e*
b
0,02947717 21348,732
1 222,00 120 500 371
8 0,002655602 377 20 0,001589 629,3004 4
120 500 0,01792531
2 135,00 274
1 0,002655602 377 20 0,001308 764,2824 42637,051
120 500 13125,097
3 247,00 240
0,03279668 0,002655602 377 17 0,002323 430,4596 6
120 500 0,02695435 18110,417
4 203,00 250
7 0,002655602 377 19 0,002049 488,1547 4
120 500 0,01367634 52338,228
5 103,00 186
9 0,002655602 377 19 0,001397 715,7959 9
120 500 0,02151037 28960,689
6 162,00 268
3 0,002655602 377 20 0,001605 622,9552 5
120 500 0,00823236 102467,99
7 62,00 125
5 0,002655602 377 18 0,001185 843,554 9
120 500 0,04514522 13574,790
8 340,00 498
8 0,002655602 377 18 0,001632 612,837 4
120 500 0,03611618 10894,479
9 272,00 270
3 0,002655602 377 19 0,002542 393,467 4
120 500 0,02243983 16582,392
10 169,00 167
4 0,002655602 377 20 0,002687 372,1061 7
120 500 56905,195
11 116,00 270
0,01540249 0,002655602 377 20 0,001141 876,4817 3
120 500 12684,266
12 235,00 247
0,03120332 0,002655602 377 20 0,002527 395,7912 6
120 500 0,01965145 28771,876
13 148,00 200
2 0,002655602 377 18 0,001769 565,4092 6
120 500 0,01354356 75463,324
14 102,00 263
8 0,002655602 377 19 0,000978 1022,043 3
120 500 0,02615767 19072,700
15 197,00 261
6 0,002655602 377 20 0,002004 498,8975 4
120 500 0,02575933 14095,447
16 194,00 159
6 0,002655602 377 17 0,002754 363,0894 6

Remarque :
Il n’y a pas de re-calcul des probabilités d’inclusion des unités primaires (ZD) car c’est sur la base
des anciennes valeurs qu’elles ont été calculées.

78
Si le nombre de ménages dénombrés dans une ZD reste identique à celui présent dans la base, et si
l’objectif de 20 ménages à enquêter est atteint, alors les poids de sondage ne changent pas. En
somme, on part de l’objectif d’avoir un échantillon auto pondéré, et on aboutit à un échantillon dans
lequel les poids sont différents.
Dans la pratique, les données disponibles dans la base sont issues du dernier recensement. Et les
redressements se font après l’apurement des données.

I.36. VI.2 Estimateurs


Compte tenu de leur complexité, et du public cible de ce document, les expressions de la précision
ne sont pas présentées.
VI.2.1 Cas général / Estimateur du total, puis de la moyenne
On note th le total dans une UP et t celui de la population (le total des productions agricoles pour un
produit par exemple). En tenant compte des poids, alors
On a t = (N/m)*{t1/N1 + t2/N2 + … + tm/Nm).
Dans une UP, le total th se calcule par th = (Nh’/nh)*(y1 + y2 + … + ynh)
En combinant ces deux formules, on voit que l’estimateur du total n’est rien d’autre que la somme
des valeurs yi pondérées par les poids des individus dans l’échantillon total.
L’estimation de la moyenne s’obtient en divisant celui du total par N, la taille de la population
totale.
Lorsque N est inconnu (par exemple lorsqu’il y a des écarts entre les tailles des UP dans la base de
sondage et celles obtenues après dénombrement) alors il faut estimer le N par la somme des
produits des tailles des UP obtenues après dénombrement, par les poids des UP correspondant :
(N/m)*{N1’/N1 + N2’/N2 + … + Nm’/Nm)
Un avantage de la méthode, est donc quelle permet d’estimer la taille de la population. Il est donc
possible d’utiliser les résultats du dénombrement pour mettre à jour les statistiques
démographiques, ou du moins, d’en d’apprécier les estimations des projections.
Dans ce cas, l’estimateur de la moyenne est biaisé. Il surestime la vraie valeur de la moyenne dans
la population dans le cas où les tailles des UP sont indépendantes de la variable d’intérêt.
Exemple : Estimation de la taille de la population
A partir de l’exemple précédent, on peut estimer les nouvelles tailles de la population. La dernière
colonne donne le nombre de ménages, pondéré (taille obtenues au dénombrement multiplié par le
poids de la ZD dans la base de sondage). En procédant de la même manière pour le nombre
d’individus, on peut avoir une estimation de la population à partir d’une enquête à deux degrés et
mettre à jour les données démographiques. De la même manière, on peut calculer le nombre de
pauvre, ou toute autre somme, et rapporter au total pour avoir des moyennes ou des proportions.
Avec les logiciels statistiques, il suffit d’indiquer au logiciel de prendre en compte la variable des
poids.

I.37. VI.3 Détermination de la taille de l’échantillon en cas de pré stratification


La détermination de l’échantillon prend en compte les variances, et aussi l’effet de grappe. Nous
recommandons les ouvrages cités. Il est recommandé de majorer la taille obtenue (par une règle
de trois) pour tenir compte des taux de non réponse à l’issue de l’enquête. Le taux de non
réponse est égalé à ceux observés lors d’enquêtes similaires.
79
La taille de l’échantillon se détermine par arbitrage entre la contrainte de précision et le budget.
Considérons le cas de l’utilisation de la contrainte de précision. Dans la pratique, on commence par
déterminer la taille minimale qu’il faut dans une strate pour obtenir une précision satisfaisante.
Cette taille correspondrait alors à l’échantillon dans la strate de plus petite taille. Les tailles
d’échantillons des autres strates sont alors déterminées par des règles de trois par un rapport de
proportionnalité. La taille globale d’échantillon est la somme de celles des sous échantillons.
Exemple illustratif de calcul :
Etape 1 : Taille minimale d’une strate ou taille de la plus petite strate
Dans le cas de l’estimation d’une proportion par exemple, le nombre de ménages à enquêter dans la
strate de plus petite taille, « n » s’obtient par la formule suivante :
Avec :
p ( 1− p ) n = taille de l’échantillon
n=z2 k z = 1,96
E2 k = effet de grappe (k = 2 par défaut)
E = marge d’erreur (5%, 10%)

Le terme « p » représente la proportion du paramètre à estimer, soit par exemple le pourcentage des
pauvres. On utilisera dans ce cas une valeur de p obtenue dans une enquête similaire ou récente, ou
à partir d’une enquête pilote.
Supposons que la proportion lors d’une étude récente ou dans une population similaire a donné un
taux de 60%. (Soit p=0,6 pour toutes les localités /strates). Sur cette base, la taille minimale de
ménages à considérer pour obtenir une précision de 10% est de 185 ménages.
Etape 2 : Nombre de ZD et tailles des autres strates
Il est classique de retenir une taille de 20 ménages par ZD. Pour 185 ménages, on est ramené à
enquêter à peu près 10 grappes ou ZD (pour exactement 200 ménages). Les 15 ménages
supplémentaires permettent de prendre en compte les non réponses. Dans la strate la moins peuplée,
200 ménages seront ainsi sélectionnés. Les tailles des autres strates sont calculées à partir du rapport
de proportionnalité des populations. Le nombre de ZD par strate s’en déduit directement.
Exercice : Faire le calcul de la taille d’échantillon de la strate la moins peuplée pour une proportion
de 35%, de 45% en choisissant respectivement les seuils de 5% et 10%. Conclure.

I.38. VI.4 Avantages et inconvénients du sondage a deux degrés


Avantages : Le sondage à plusieurs degrés comporte plusieurs avantages :
 Possibilité d’obtenir des estimations par groupe géographique (contenant plusieurs UP) et de
faire des comparaisons entre ces groupes ;
 Généralisation possible ;
 Réduction de la dispersion de l’échantillon sur le terrain (donc réduction des coûts) ;
 Bonne organisation des équipes de collecte ;
 Permet d’estimer la taille de la population, on peut utiliser les résultats du dénombrement
pour mettre à jour les statistiques démographiques, ou du moins, apprécier des estimations
des projections démographiques.

Les inconvénients sont de deux ordres :


80
 Perte de précision par rapport au SAS ;
 Besoin d’informations auxiliaires pour constituer les UP

I.39. VI.5 L'échantillonnage en grappes

 Imaginons que vous fassiez une enquête sur la productivité des travailleurs immigrants.
Comme aucune liste de travailleurs n'existe pour votre ville, vous devrez vous promener
d'usine en usine pour faire la liste et ensuite faire votre échantillonnage. Cela risque d'être
très long et trop coûteux.
 Pour faire un échantillonnage en grappes, vous pouvez sélectionner au hasard des quartiers
dans la ville et dans ses quartiers sélectionner des usines au hasard et dans les usines
sélectionner des ateliers au hasard. Si vous manquez d'immigrants au niveau de l'atelier, il se
peut que vous soyez obligé de remonter au niveau de l'usine.
 Dans un monde complètement aléatoire, ce mode de fonctionnement est légitime. Mais on
sait que les membres d'une même famille travaillent ensemble dans la même usine, ce qui
apporte une distorsion statistique importante. Il faut donc se méfier de ce type
d'échantillonnage.
 L'échantillonnage en grappes est un échantillonnage probabiliste reposant sur la sélection
aléatoire de grappes. Une grappe est un ensemble d'unités d'une population qu'on constitue
à l'aide de critères bien définis. Il peut s'agir d'un groupe qui existe dans la population (pâtés
de maison, hôpital, etc.) ou d'un groupe théorique (ensembles de rues sur une carte, etc.).
 Si vous lisez le plan d'échantillonnage associé aux micro données, on spécifie généralement
ce qu'il faut faire si l'échantillonnage est en grappe.

I.40. VI.6 Le plan complexe classique utilisé dans les grandes enquêtes : Le
sondage stratifiés à deux degrés
Les enquêtes nationales (conditions de vie, MICS, EDS, etc.) obéissent plutôt à un plan complexe :
un sondage stratifié à deux degrés. Dans ces cas, la population est au préalable stratifiée, et on
applique ensuite un sondage à deux degrés dans chaque strate. Si la répartition de l’échantillon se
fait par allocation proportionnelle entre les strates, selon le principe du sondage à deux degrés
présenté, on aboutit à un échantillon auto pondéré. Mais comme signalé, il y aura presque toujours
des redressement ou re-calculs des pondérations des ménages après enquête et apurement des
données.
Dans tous les cas, la probabilité d’inclusion d’un ménage est le produit de la probabilité d’inclusion
de la strate par celle du ménage dans le sondage à deux degrés. En d’autres termes, dans chaque
strate, le principe de calcul des pondérations vu précédemment (tableau) est appliqué. Ensuite, les
probabilités d’inclusion des ménages de la strate sont multipliées par la probabilité d’inclusion de la
strate. Le tableau suivant illustre la démarche de calcul. Le poids des strates se déterminent en
général proportionnellement au nombre de ménages, ou d’individus de la population. On suppose
toujours que le nombre total de ZD est M, et la somme des nombres de ménages indiquée dans la
base est N.

Tableau 8 : Démarche de calcul des poids dans un tirage stratifié à deux degrés
Nbre de Proba Proba Proba
Nbre
Nbre de Nbre ZD tirés ou poids Proba redressés redressés
méng Nbre méng Proba
Numéro Taille ZD ménages ZD de dans la de la redressés
du ZD enquêtés ZD dans
ZD (Base) de la strate strate strate strate ménages ménages ménages
(dénomb (valides) strate
(base) (base) dans ZD dans dans
)
strate population

81
p = u*p3
p3 =
a b c d e x u = b/N P1 = d*a/b p2 = x/e = b*d*a*x
p1*p2
/(N*b*e)
En terme Tirage par
de poids cumuls des
de la nbres de
population ménages

On peut observer que la valeur de « e » se simplifie dans la formule finale, si on utilise les poids des
strates en termes de nombre de ménages. Le lecteur pourra s’exercer à partir de l’étude de cas N°
relatif aux calculs des poids et estimation.

I.41. VI.7 Algorithme de tirage systématique à probabilités inégales


proportionnelles aux tailles, à partir des totaux cumulés
Pour compléter les exposés il s’avère utile de présenter le principe et l’algorithme de tirage d’un
échantillon à partir des totaux cumulés, récurent dans les tirages à probabilités inégales, comme
c’est le cas au premier degré de tirage d’un sondage à deux degrés. On suppose donc que la base des
unités primaires présente les nombres de ménages par ZD. Notons qu’il existe plusieurs variantes
équivalentes. On procèdera comme suit :
i) Calculer sur colonne les cumuls des tailles des ZD (en nombre de ménages) ;
ii) On calcule le pas de tirage (nous notons PAS) qui est le rapport entre le nombre total de ménages
et le nombre d’unités à tirer (m) : PAS = N/m ;
iii) On tire au hasard un nombre aléatoire entre 1 et le PAS (le départ aléatoire) ;
iv) La première unité sélectionnée est celle qui présente le cumul le plus proche du PAS par valeur
inférieure.
v) On ajoute le PAS au départ aléatoire, et on obtient la seconde unité par le cumul le plus proche
par valeur inférieure
vi) On ajoute successivement le PAS et on identifie de façon analogue les unités échantillonnées.
Notons que si une unité présente une taille supérieure au PAS, elle sera certainement sélectionnée.
En outre, si sa taille est un multiple du PAS, elle sera sélectionnée plusieurs fois. Il est alors
recommandé de sélectionner dès le début les unités qui ont des tailles supérieures au pas, et de leur
attribuer un poids égal à un. On utilise ensuite la procédure pour sélectionner le nombre d’unités
complémentaires.
Illustrons cette procédure en sélectionnant trois (3) unités parmi les seize (16) du tableau de
l’exemple sur les calculs des poids du sondage à deux degrés.
Après la détermination du départ aléatoire et la déduction des autres valeurs, on peut utiliser les
formules de recherche verticale pour identifier les numéros des unités correspondantes. Le TP 4
donne un cas d’application de cette procédure.

Tableau 9 : Sélection de ZD à probabilités inégales par tirage systématiques à partir des totaux
cumulés
ZD Taille ZD cumuls PAS Départ Echantillon  
1 222 222 969  424,5588414  
2 135 357    424,5588414 
3 247 604  
4 203 807      
5 103 910      
6 162 1072      
7 62 1134     1393,558841 

82
8 340 1474      
9 272 1746      
10 169 1915      
11 116 2031      
12 235 2266      2362,558841
13 148 2414      
14 102 2516      
15 197 2713      
16 194 2907      

I.42. Conclusion sur les sondages aléatoires


Il est rare d’utiliser une technique classique de façon exclusive. En général, on les combine. Ce qui
donne lieu à des sondages complexes, surtout pour des grandes enquêtes. Cependant, tout plan de
sondage n’est qu’une composition des techniques classiques parcourues.
L’arbitrage entre méthodes empiriques et aléatoires dépendra en grande partie de la possession
d’une base de sondage à jour. Et même dans le cas où on n’en a pas, si l’on dispose de la liste de
certaines sous entités de la population, on peut procéder par tirage de ces sous groupes, puis réaliser
la méthode empirique voulue dans les unités tirés. Cela améliore la représentativité de l’échantillon,
et donne un semblant de sondage à deux degrés, même si on ne pourra toujours pas réaliser des
estimations.
Tableau 10 : Récapitulatif des techniques de tirages
Méthode Formation Homogénéité Tirage des groupes Tirage US dans
de groupes des groupes les groupes
SAS Non Non concerné Non concerné Non concerné
Stratifié Oui Oui Non Oui
Deux degrés Oui Pas besoin Oui Oui
Grappes Oui Non, surtout pas Oui Non

CHAPITRE VII. ORGANISATION DE LA COLLECTE DES DONNEES SUR TERRAIN

Ce chapitre recense quelques consignes clés pour une bonne organisation de la collecte des données
dans le cadre d’une enquête. Ces consignes concernent les activités préparatoires, et les activités de
suivi supervision de l’opération de collecte. Cette présentation sera faire dans l’ordre chronologique
des activités et des étapes du processus de collecte. Pour chaque activité et à chaque étape, une
insistance sera accordée aux aspects en rapport avec le plan des sondages et les traitements. Enfin,
ce chapitre suppose le plan de sondage déjà élaboré.
I.43. VII.1. La planification des activités
Pour améliorer l’organisation d’une étude, il est impératif d’élaborer un calendrier (même
provisoire) qui retrace les grandes lignes du processus. Ce calendrier est en général présenté sous
forme de diagramme de gant. Le tableau suivant fourni un modèle de calendrier des activités dans le
cadre d’une enquête, adaptée à une enquête ménages, avec saisie directe sur PDA.
Tableau 11 : Exemple de calendrier de travail par activité
Phas S S S S S
e Activités 1 2 3 4 5
Phase

Analyse documentaire            
I:

Rédaction des questionnaires            

83
Rédaction et Envois des courriers de demande d'autorisation aux autorités            
Conception des masques de saisies            
Rédaction des manuels d'enquêteurs et de contrô leurs            
Sélection des Zones de dénombrement (ZD)            
Travaux Préparatoire

Validation des questionnes et manuels            


Envoi des missions d'information/sensibilisation (des autorités locales des
chefs lieux de régions) et d'indentification des ZD sélectionnés            
Préparation du matériel de collecte (PDA/Tablettes) : installation des
masques            
Recrutement des agents de collecte            
Formation des agents de collecte et organisation de l'enquête pilote            
Organisation des équipes et distribution des plans de travail et documents            
Rédaction des programmes d'apurement            
Rédaction du rapport d'étape 1            
Collecte des données sur Bamako            
Collecte et
saisie des
Phase II :

Exécution des programmes d'apurement des données de Bamako            


Collecte des données dans les localités de l’intérieur            
Elaboration du plan d'analyse            
Rédaction du rapport d'étape 2            
Apurement des données            
Traitements,

Traitement des données et analyse            


Analyses,
Phase III:

Rédaction du rapport préliminaire            


Validation du rapport préliminaire            
Formulation des recommandations            
Rédaction du rapport final            

I.44. VII.2 La préparation des principaux instruments de collecte : le


questionnaire et masque de saisie
L’interview et la saisie sont deux activités au cours desquelles des erreurs majeures peuvent s’infiltrer dans
les données. La rigueur dans la conception des outils et dans le suivi sont les gages pour réduire ces erreurs.
Le questionnaire est le guide qui doit récapituler les données nécessaires. C’est le principal outil de collecte.
Ce support n’aborde pas la rédaction du questionnaire en profondeur. Toutefois, il est important de préciser
que la plus grande attention doit être accordée à la formulation des questions qui se rapportent aux variables
d’intérêts et aux variables auxiliaires. Notons aussi que les questionnaires doivent être adaptés à la
population d’étude (longueur et niveau du langage).
Le logiciel libre CSPro, conçu par l’institut de statistique des Etats Unis d’Amérique, est l’un des plus
performants pour la conception des manques de saisie. Il permet notamment d’intégrer des multiples
contrôles qui sont efficaces et utiles pour réduire les erreurs pendant la saisie des données. Avec le
développement de la technologie, de nouvelles approches de collecte de données ont vu le jour, avec
l’utilisation des nouveaux récepteurs et équipements de nouvelle génération (PC de poche (Pocket PC), PDA
(Personal Digital assistants), Smartphones, Tablette, téléphones androïdes). Ces appareils permettent de faire
des saisies directes pendant les interviews. Leur usage exige de lourds investissements, mais permettent de
gagner en temps. En outre, la saisie sur ces équipements exigera davantage de rigueur dans la conception des
masques, dans la construction du questionnaire et dans la sélection et la formation des agents de collecte.
A défaut de faire des saisies pendant l’interview, il est aussi possible de gagner en temps, surtout lorsque le
temps de collecte est long, d’organiser la saisie des données quelques jours après le démarrage de la collecte.
Cette pratique peut permettre d’identifier les erreurs récurrentes des agents, et d’attirer leur attention de
façon individuelle.

84
Notons enfin qu’un rapport de collecte doit être rédigé, consignant tous les problèmes observés pendant la
collecte sur les questionnaires, comme des difficultés à formuler, répondre à des questions particulières, ou
des modifications de formulation de questions. De telles informations sont capitales pour l’évaluation des
erreurs et pour orienter les analyses.
I.45. VII.3 Information des autorités, sensibilisation et documents d’introduction
Des lettres d’information et de demande d’autorisation doivent être envoyées suffisamment tôt aux autorités
compétentes (Ministères de tutelles des groupes cibles, Ministère de l’Intérieur et Ministère), ainsi qu’au
Secrétariat permanent du Conseil National de la Statistique, à savoir l’Institut National de la Statistique
(conformément à la nouvelle loi statistique).
Après avis favorable de ces autorités, des missions d’informations et de sensibilisation doivent être envoyées
auprès des autorités administratives locales (Préfets et Sous-Préfets) et auprès des collectivités décentralisées
(Gouverneurs et Maires). En plus, ces dernières autorités seront encore informées à l’arrivée des équipes sur
le terrain.
D’autres actions de communication doivent être organisées envers les populations cibles. Chaque agent
membre de l’équipe de collecte doit en plus recevoir une lettre de mission et un badge, pour son introduction
auprès des enquêtés.
La bonne communication sur l’étude est particulièrement importante pour assurer un bon accueil des agents
de collecte et recueillir des bonnes informations.
I.46. VII.4 Recrutement et formation des agents enquêteurs et organisation des
équipes
VII.4.1 Les critères de recrutement :
Les agents de collecte doivent être recrutés à la fois sur les bases de leurs expériences dans la manipulation
des supports de collecte (questionnaire papier, appareils à écran tactiles). D’autres exigences sur le niveau
académique doivent être imposées en fonction des difficultés à comprendre le thème et le contexte d’étude.
VII.4.2 Les exigences de la formation
La formation théorique doit toujours s’accompagner d’une enquête pilote qui permettent de tester les
questionnaires. La durée de la formation dépendra de la longueur des questionnaires. La formation ne doit
pas être une formalité, même pour les agents expérimentés, et un point doit être mis sur la ponctualité et
l’assiduité. Un agent qui perd une heure de formation est susceptible d’introduire des erreurs de mesures.
VII.4.3 La détermination du nombre d’agents de collecte nécessaires
Le nombre d’agents de collecte sera évalué en fonction de la taille de l’échantillon, et de la charge
quotidienne d’un agent. Il faudra tenir compte de l’expérience qui permet d’augmenter en rendement au fur
et à mesure que l’enquête avance. Par exemple, s’il est établi qu’un agent peut enquêter 5 ménages en
moyenne par jour, et s’il y a 10.000 ménages à enquêter, alors 20 agent feront la collecte en 100 jours, et 80
agents la feront en 25 jours. Il faut cependant prendre en compte les jours de voyages entre les villes, dans le
calcul du nombre de jours nécessaires. Un arbitrage sera fait entre la durée de la collecte (nombre de jours) et
le nombre d’agents. Tout en cherchant à gagner en temps, il faut songer aux difficultés à gérer un grand
nombre de personnes.
Une règle de prudence est de recruter toujours plus d’agents qu’il n’en faut. Une majoration de 20% à 30%
doit être appliquée. Ainsi, dans l’exemple précédent, pour retenir 80 agents de terrain, il faut en sélectionner
entre 95 et 100 pour la formation. Il est vrai que ce procédé augmente (bien que de peu) le budget. Mais
l’application de cette règle permet d’introduire une compétition entre les agents pendant la formation. En
plus, elle permet de constituer un vivier d’agents auxquels recourir en cas d’indisponibilité d’un agent
sélectionné.

VII.4.4 Organisation hiérarchique des équipes


La hiérarchie pour le contrôle et la supervision sera établi en fonction de la zone d’étude, et de la charge des
contrôleurs et superviseurs. Il est important de ne pas donner trop d’agent à un contrôleur ou chef d’équipe,
85
qui doit lire tous les questionnaires renseignés. Il faut toujours garder à l’esprit que la qualité des données ne
se négocie pas.
Les chefs d’équipes doivent avoir de l’autorité sur leurs agents. Ils doivent corriger quotidiennement les
questionnaires et exiger des retours sur le terrain pour des compléments d’information, si nécessaire. Avec
les superviseurs, ils doivent faciliter le travail des agents de collecte, et effectuer les démarches protocolaires
et organisationnelles sur le terrain.
Le nombre de contrôleurs (et de superviseurs) est calculé en fonction du nombre d’agents (de contrôleurs), et
du nombre de personnes à gérer. Les contrôleurs, superviseurs doivent de préférence être des statisticiens, à
défaut, des personnes très expérimentés dont la qualité du travail est reconnue.

VII.4.5 Plan de travail des agents


Il est parfois nécessaire de regrouper toutes les équipes dans un même lieu aux premiers jours de collecte. Ce
procédé permettra d’améliorer la maîtrise du mode opératoire par les agents enquêteurs, et de combler leurs
insuffisances dans la maîtrise des outils de collecte. Les équipes seront par la suite réparties dans différents
lieux d’enquête, sous la conduite des superviseurs.
Chaque agent et chaque équipe doit en plus être informé de la charge de travail journalière, et surtout, des
variables les plus importantes des questionnaires. Un questionnaire pour lequel les variables d’intérêts ne
sont pas bien renseignées est inutile.

I.47. VII.5 Le suivi des opérations de terrain


Des rencontres régulières entre les membres d’une équipe, et des communications entre les
superviseurs seront utiles pour harmoniser les points de vue et résoudre les problèmes éventuels. Des
fiches de suivi des activités des agents et des contrô leurs doivent être tenues. Les superviseurs doivent
être suffisamment proches des agents, pour faire des réorganisations et des redéploiements si
nécessaires.
Il est de plus en plus courant d’organiser une contre-enquête à toute opération de collecte des
données. Une contre-enquête est simplement un sondage réalisé sur une partie de l’échantillon
d’enquête, avec des questionnaires qui peuvent être réduits. Cette contre-enquête peut être réalisée
par le chef d’équipe/contrô leur, d’autres membres de l’équipe responsabilisés, ou des agents
indépendants. Cette procédure, augmente le budget, mais améliore la qualité des données, parce
qu’elle oblige plus d’application aux agents d’enquête, et aide à identifier les erreurs qu’ils
commettent, afin de les obliger à s’améliorer.
Dans la pratique, plusieurs autres décisions peuvent être envisagées en fonction des situations, des
thèmes et des contextes. La ligne de conduite qui doit guider le choix ou la formulation d’une décision
doit toujours être l’amélioration de la qualité des données.
Exemple d’application : Le présent exemple sera traité comme une étude de cas : On insistera sur le
calcul du nombre d’agent, la composition des équipes et le calcul du nombre de jours d’enquête
Composition des équipes et évaluation du nombre d’agents et de jours pour la collecte des
données sur la satisfaction des réseaux de téléphonie mobile
Chaque équipe sera composée de quatre agents enquêteurs et d’un chef d’équipe. Ce dernier aura pour responsabilité
principale de repérer à l’avance les points échantillonnés, et de faciliter le travail des agents de collecte.
Toutes les équipes seront d’abord déployées à Bamako, pour la première semaine d’enquête. Ce procédé permettra
d’améliorer la maîtrise du mode opératoire par les agents enquêteurs, et de combler leurs insuffisances dans la maîtrise
du questionnaire et de l’appareil de saisie. Les équipes seront par la suite réparties dans différentes capitales régionales
de l’intérieur, avec à leur tête un superviseur.
Compte tenu du poids démographique de la ville de Sikasso, deux équipes y seront affectées. Dans des localités comme
Kayes, Koulikoro, Ségou et Mopti dont le poids démographique est aussi considérable, une équipe résidera en
permanence durant toute la période d’enquête. Les autres équipes feront une rotation entre les autres capitales. Cette
rotation des équipes sera organisée de façon à minimiser les déplacements.

86
La première étape consistera à dénombrer les SE. Ensuite, les 20 ménages à enquêter seront retenus par tirage
systématique. L’agent enquêteur recherchera ensuite les ménages tirés. Il remplira le questionnaire ménage avec les
précisions requises pour les personnes âgées de 15 ans et plus, et administrera le questionnaire ménage aux personnes
ayant une carte Sim. Les coordonnées GPS seront enregistrées dans chaque questionnaire. Les autres indications sur le
mode opératoire ont été présentées dans la section portant sur le plan de sondage.
Chaque soir, les chefs d’équipe, qui disposeront d’un ordinateur portable, téléchargeront les données collectées pour
effectuer des contrôles. Parallèlement, les chefs d’équipes devront enquêter quelques points de vente Mobile Money, et
réaliser des contre-enquêtes, en effectuant des interviews légers dans 4 ménages au moins de chaque SE.
En moyenne, un agent devra enquêter deux à trois personnes par ménage, et pourra donc faire 3 ménages par jour. Il
faudra ainsi 80 agents pour enquêter 6000 ménages en quatre semaines. Pour tenir compte des délais de route, la
collecte des données prendra donc 30 jours.
Par ailleurs, afin de tenir compte des désistements d’agents enquêteurs pendant la formation ou la collecte (assez
longue), pour diverses raisons, le nombre d’agents à former sera majoré de 20%. Cette majoration induit une
compétition qui suscite plus d’engagement de la part des agents pendant la formation, et la phase de collecte. Aussi, 100
agents de collecte seront-ils sélectionnés pour suivre la formation. Parmi eux, 80 seront retenus pour le démarrage de la
collecte, et 10 seront inscrits sur une liste d’attente.
Les 80 agents formeront donc 20 équipes. Vingt chefs d’équipes seront aussi sélectionnés et formés. Quatre
superviseurs auront chacun la charge d’encadrer une zone correspondant à un lot, selon la structuration des TDRs. Un
coordonnateur général coiffera toute cette organisation.
En résumé Des agents de terrain pour l’opération de collecte des données : 80 agents de collecte (niveau Bac+1), 20
contrôleurs (niveau Bac+1, avec connaissance en cartographie) et 4 superviseur de zones (statisticiens, de niveau
Bac+2, avec une expérience dans des travaux similaires).
Les outils de collecte sont
La fiche de dénombrement des antennes
Le questionnaire ménage
Le questionnaire individuel consommateur comprenant :
La section d’informations générales : Cette section portera sur les caractéristiques socioprofessionnelles de l’enquêté,
la fréquence et les raisons/motifs d’utilisation des services de communications, les opérateurs chez qui ils sont abonnés
et l’ancienneté, et les caractéristiques des types des téléphones utilisés ;
La section sur l’évaluation des réseaux et services : L’évaluation portera sur les différents aspects de la qualité, donc
entre autres,
Section divers : Cette section consignera différentes informations sur :
Le questionnaire opérateur de cabine téléphonique
Le questionnaire des points Mobile Money

87
CHAPITRE VIII. ETAPES ET CONSIGNES POUR TRAITEMENT ET ANALYSE DES
DONNEES D’ENQUETES

Une fois les données saisies, les traitements et analyses comprennent les tâches suivantes :
- La rédaction des programmes d’apurement
- Le calcul des poids de sondage ou coefficients d’extrapolations
- L’apurement des données ;
- La mise à jour des poids (redressements) ;
- La rédaction des programmes de tabulation
- Les traitements et analyses ;
- La rédaction des rapports ;

La rédaction des programmes dépend des compétences en programmation des personnes en charge des
traitements et analyses. Cet aspect n’est pas analysé dans ce document. Toutefois, l’automatisation des tâches
permet d’être plus efficace et plus rapide. Par exemple, il est possible de reprendre plusieurs actions
simultanément si nécessaire, sans un autre effort.
Ce chapitre, sans être un cours élaboré, est un support conçu pour guider dans une étude à partir des données
d’enquête. Il est particulièrement conçu pour un traitement à partir du logiciel SPSS (syntaxes et captures
d’écrans). Mais il peut aussi s’adapter et être utile par ailleurs. Le document fournit des consignes à respecter
pour une analyse des données. Il faudra toujours veiller à décrire et documenter le processus de traitement et
d’analyse, afin de prouver la fiabilité des résultats. Le redressement a déjà été abordé dans le cadre du
sondage. Dans ce chapitre, nous insisterons surtout sur les apurements et la nécessité d’élaborer un plan
d’analyse, ainsi que sur les présentations synthétiques des tableaux.
Dans cette présentation, nous utilisons dans les exemples et les captures d’écran SPSS, les données MICS CI
2006.

I.48. Etape 1 : Prendre connaissances de toutes les informations qui se


rapportent à l’étude
Il est impératif de s’imprégner du thème et de prendre connaissance des notions et documents suivants :
 du thème,
 du champ d’étude,
 de la technique de sondage retenue : Ces informations nous renseignent sur des redressements
éventuels, sur les estimateurs
 des documents d’enquête, codification et saisie : questionnaires, manuels de l’enquêteur et des chefs
d’équipes et superviseurs,
 les rapports d’enquête,
 le manuel de codification : il fournira en particulier le dictionnaire des variables, ainsi que la manière
dont certaines variables ont été traitées.
 le rapport de la saisie : Il peut donner des informations utiles sur le contexte et le déroulement de
l’enquête, des changements et considérations ou modifications arrêtés. Lesquelles pourront indiquer
le sens de certaines variables, valeurs manquantes.

I.49. Etape 2 : Prendre contact avec la base et sélectionner les données utiles 
Il est important de se familiariser avec les bases, de la parcourir pour voir les variables, comment elles sont
codifiées, identifier leur positionnement, ainsi que les variables clés : identificateurs, variables d’intérêt, les
variables de poids, les variables auxiliaires, etc. Cette étape de manipulation permettra de maîtriser les
88
variables et leurs positions dans la base. Bien que banal d’apparence, ces manipulation permettent de se
mettre en contexte, et d’accélérer par la suite les recherches des variables.
Par la suite, il faut identifier et regrouper les variables (et sélectionner les individus) utiles, ceux qui sont
concernés par le thème de l’étude à aborder avec la base. Il arrive en effet qu’une table de données d’enquête
couvre des thématiques ou des champs plus vastes que ce qui nous intéresse. Il faut donc, au besoin, extraire
les données nécessaires, soient les variables qui traitent des questions à aborder, et les individus concernés.
On utilise pour cela les fonctions de sélection/filtres et fusion.
Par exemple, une base d’enquête peut couvrir les individus d’un ménage, alors qu’on s’intéresse à
l’éducation primaire (enfants de 5 à 11 ans, ou 6 à 12 ans). Les enfants de cette tranche d’âge seront
donc filtrés de la base.
Il est aussi pratique d’identifier les variables à utiliser pour l’étude spécifique et regroupement par thèmes.
Une base d’enquête peut contenir des centaines de variables, et les déplacements dans la base s’en trouvent
fastidieux. Identifier dans les bases toutes les variables qui peuvent permettre d’analyser la question de
recherche permet aussi de préparer les programmes à rédiger et d’éviter le superflu. On choisira alors la
suppression des données non sélectionnées.
Fig 6 : Sélection des enfants de 6 à 12 ans de la base MICS CI 2006, fichier des membres du ménage « hl »
(démarche : données/sélection observation/selon une condition logique)

I.50. Etape 3 : Apurement et validation des données 


L’apurement est l’étape de validation des données qui consiste à détecter les erreurs dans les données
(données manquantes, invalides ou incohérentes, invraisemblables, unités susceptibles d’avoir fourni des
renseignements erronés) afin d’éviter les distorsions significatives que de telles erreurs peuvent induire dans
les résultats de l’enquête. L’apurement a donc pour finalité de renforcer la fiabilité et l’objectivité de la
qualité des données et éviter des pertes importantes de qualité pouvant compromettre la pertinence des
résultats.
La première étape de cet apurement doit se faire à travers le contrôle des questionnaires sur le terrain.
Malheureusement, cette activité de contrôle des données pendant l’opération de collecte, fondamentale pour
garantir la qualité des données ne reçoit pas toujours toute la rigueur nécessaire. Il en découle de nombreuses
erreurs détectées dans les données après la saisie.
L’apurement ou la validation (ou vérification) des données englobe l’ensemble des activités visant à
contrôler la qualité des données et à les rendre les plus justes possible en tant que valeurs individuelles et
mutuellement compatibles avec les autres données recueillies, le sens des questions posées. À cette étape,

89
certaines corrections (manuelles ou automatiques) sont apportées aux données, des corrections manuelles par
exemple.
L’apurement correspond en quelque sorte à l’étape de contrôle des questionnaires sur le terrain. IL est donc
indispensable de s’assurer de la bonne qualité de chaque « questionnaire ». Pour cela, les vérifications
doivent se faire à un niveau très fin, pour chaque réponse fournie par chaque unité (micro-validation) et se
poursuit jusqu’au niveau le plus agrégé lorsqu’on vérifie une estimation par exemple (macro-validation). La
compatibilité entre les niveaux est aussi vérifiée (cohérence).
Exemples de cas d’apurement
De façon pratique : L’apurement des données consiste à identifier et traiter les problèmes suivants :
 les valeurs manquantes : On fera au préalable les statistiques descriptives élémentaires, et on veillera
à archiver les statistiques sur les valeurs manquantes, qui font partie des renseignements à fournir
pour l’appréciation de la qualité des données initiales.
Lorsque le non renseignement de la valeur est justifiée, il est préférable d’inscrire un code approprié, par
exemple « non concerné, code 8, 98, 998 etc.). Par exemple, il est normal que tous ceux qui n’ont pas
fréquenté présentent des valeurs manquantes pour le plus haut niveau scolaire. Dans le cas contraire, il faut
en étudier la possibilité de faire une imputation. Sur la figure précédente, on observe une valeur manquante
du la variable milieu (HH6) pour la ligne 3. Mais l’individu 2 présente les mêmes valeurs géographiques, et
est en milieu urbain.
Fig. 7 : Imputation d’une valeur manquante par la valeur d’un individu ayant les valeurs proches

Les règles d’imputation sont diverses, et se font au cas par cas. Certaines imputations peuvent être
programmées par un algorithme. Quelques unes sont intégrées dans les logiciels (dans SPSS :
transformer/remplacer les données manquantes). Pour d’autres, il sera nécessaire d’observer les données.
 les invraisemblances et les incohérences : Elles seront identifiées par croisement successif et
progressifs des variables pertinentes. Par exemple, un enfant de 10 ans qui a la valeur «  supérieure »
comme niveau d’instruction indique un cas d’invraisemblance. Par contre, un individu scolarisé qui a
fait la première du secondaire en 2010 et qui en 2011 est en 5 ème présente un problème de cohérence
des données. Il n’y a pas de règle standard de remplacement. Il faut toujours observer les valeurs
d’autres variables avant de conclure. Le tableau suivant présente les effectifs par classe en fonction
de l’âge.
Tableau 12 : Illustration des incohérences et invraisemblances : Effectifs par classe selon l’âge

Classe cette année Age Total


scolaire 6 7 8 9 10 11 12

0 6 7 1 0 3 2 5 24

1 366 374 209 68 42 27 85 1171

2 195 411 463 294 241 58 91 1753

3 42 123 268 340 336 184 120 1413

4 5 24 114 188 290 229 208 1058

5 1 6 24 63 160 169 227 650

6 0 1 6 18 66 146 213 450

90
Manquant 0 0 2 0 1 2 1 6
Total 615 946 1087 971 1139 817 950 6525

On peut observer qu’il y a des enfants de 6 ans en 4 ème, voire 5ème classe du primaire, et des enfants
de 12 ans en classe zéro (maternelle) ou 1 ère classe du primaire. Il est possible dans ce dernier cas
qu’il s’agisse d’une erreur de saisie du niveau, et que l’enfant soit plutôt en première année du
secondaire. Si des corrections ne sont pas apportées, on se retrouvera par exemple avec des âges
moyens par classe complètement erronés. Dans le dernier cas, on peut construire un filtre (par
sélection des observations) et trier par la variable de filtre pour ramener les individus concernés en
premières lignes, afin d’observer les autres variables d’éducation. Ici, on choisira l’option « filtrer ».
Fig. 8 : Elaboration de filtre pour mettre en exergue des incohérences

En ramenant les observations concernées en première ligne, on constate bien qu’il s’agit bien d’enfants qui
ont achevé leur cycle primaire l’année passée (ED8 = 106). Deux des cinq sont bien signalés au secondaire
cette année (ED6). Il s’agit de personnes dont le plus haut niveau atteint est le primaire, la plus haute classe à
ce niveau la 6ème année, qui tous scolarisés cette année. On peut aussi constater une autre erreur au cinquième
de la liste, signalée comme ayant en plus haut niveau, la 6 ème classe du secondaire (ED3). Les trois premiers
pourraient soit reprendre leur classe (CM2, par ED5), soit avoir achevé le CM2 (par ED3). Nous laissons au
lecteur le soin de poursuivre l’analyse pour effectuer les corrections si possible. Il pourra évidement conclure
de l’ambigüité.
Fig. 9 . Cas ambigu d’erreurs de cohérence entre données sur l’éducation.

Toutefois, cet exemple présente la nécessité de bien comprendre le questionnaire et les codes. L’exemple
permet aussi de manifester la complexité du processus d’apurement, et la logique et la réflexion que cela
demande. Enfin, de telles erreurs permettent d’insister sur l’importance du processus de contrôle pendant
l’enquête et dans les masques de saisies.

 Les outliers ou valeurs extrêmes : Ce sont des valeurs particulièrement faibles ou élevées (c'est-à-
dire éloignées) par rapport à la tendance centrale. Plusieurs statistiques comme la moyenne sont
particulièrement sensibles aux valeurs extrêmes. Ces valeurs seront identifiées par des procédures
comme le box plot.

91
Les valeurs aberrantes concernent les variables quantitatives, et doivent être identifiées en tenant compte des
paramètres qui influencent les variables observées. Par exemple, un revenu extrême en milieu rural n’est pas
forcément aberrant en milieu urbain.
En mettant en première ligne les enfants qui fréquentent cette année (ED4) et qui déclarent des valeurs très
élevées du nombre d’heures passées à faire des travaux ménagers (CL7) pourtant ils ont été assidus à l’école
(ED5). Si des corrections ne sont pas faites, on se retrouve dans les pires formes du travail des enfants.
Fig. 10 : incohérence entre fréquentation et nombre d’heures de travaux ménagers extrême

En construisant le box plot (procédure : graphe/Boite de dialogue ancienne version/boite à moustaches) on


constate beaucoup plus de valeurs aberrantes pour les enfants scolarisés.
Fig. 11 : Boite à moustaches permettant d’identifier les valeurs aberrantes en fonction du statut
scolaire de l’enfant

92
 Les doublons ou observations dupliquées.
Il est plus avantageux de rédiger des programmes pour effectuer certaines actions de façon automatique. Par
exemple, détecter les individus pour les variables de scolarisation présente des problèmes de cohérence : plus
haut niveau d’étude doit être cohérent avec dernière classe achevée avec succès, dernière classe fréquentée,
cycle d’études, nombre de classes achevées avec succès, et même avec l’âge. La correction des erreurs
identifiées doit se faire avec beaucoup de réflexion et de prudence. L’apurement est une des phases de
l’analyse où il ne faut pas se précipiter. Lorsqu’il est impossible de corriger le problème, il faut indiquer que
la valeur est manquante ou incohérente. Par conséquent, il faudra éviter les imputations précipitées de façon
automatique. Dans l’exemple précédent, pour deux individus présentant la même incohérence, l’imputation
(c'est-à-dire la correction) n’est pas la même.
La correction d’une mauvaise valeur ou d’une donnée manquante pourra suivre les étapes suivantes :
1) Quelle est la raison de l’erreur ?
2) Où peut on rechercher/trouver la bonne information
a. recours au questionnaire physique ?
b. analyse des données individuelles de l’individu ?
c. analyse des données du ménage ou du groupe d’appartenance de l’individu ?
d. recours au contexte de la collecte, aux rapports de collecte et de saisie ?
e. etc.
3) Faire la correction si possible. Sinon, indiquer la valeur comme manquante ou incohérente selon le
cas. Les bons processus d’imputation sont informatisés, objectifs, reproductibles et efficaces.
L’apurement est une étape très fouillée et très minutieuse, et par conséquent qui prend beaucoup de temps. Et
le rapport d’étude doit impérativement commencer par un résumé de la qualité des données (pourcentages
des données manquantes, incohérences, etc., au début et à la fin du processus.)
I.51. Etape 4 : Effectuer les traitements des données
Cette partie n’est pas à confondre à la phase d’analyse proprement dite où on exécute le plan d’analyse. Ici,
on opère les transformations nécessaires sur les variables. On peut :
 Regrouper certaines modalités d’une variable (recodification) ;
 Regrouper les valeurs d’une variable quantitative en classes (intervalles). Les regroupements ou
créations d’intervalles doivent toujours se faire en tenant compte des objectifs, mais aussi des
conventions. Par exemple, pour une analyse sur l’éducation, les tranches d’âge doivent tenir compte
des âges par cycle d’étude (primaire, secondaire). Alors que, pour une étude sur l’emploi, il faudrait
considérer les tranches qui se rapportent aux catégories d’intérêt (5 à moins de 14/15 ou 17 ans pour
le travail des enfants, puis 14/15 ans à 24 ans pour la tranche inférieure des jeunes (standard
universel) et de 14/15 ans à 35 ans pour la tranche des jeunes selon le standard de plusieurs pays en
développement (dont africains), etc.
 Transformer des variables chaînes en numériques
 Agréger les données d’une variable (par exemple, créer une variable qui agrège par une somme, une
moyenne, … les dépenses de transport des membres (individus) d’un ménage pour avoir la variable
caractéristique du ménage.
 Créer des variables par des calculs à partir d’autres variables
 Désagréger des variables. Par exemple, à partir d’une variable dont la codification était géométrique,
on peut créer plusieurs variables (ayant les modalités oui et non) correspondant aux réponses. La
transformation inverse est aussi possible ;
 Construire des indicateurs ;
93
 Accordez une attention particulière à la création de la variable de pondération (calcul ou
redressement). L’importance de cette variable exige le recours à des personnes ressources hautement
qualifiées ;
 Etc.
La base ainsi traitée peut parfaitement être utilisée pour les différentes analyses.

94
I.52. Etape 5 : Révision le plan d’analyse
Cette étape est fondamentale. Bien que nécessitant un effort assez important, il nous permet de consigner à la
fois la méthodologie en rapport avec les questions à aborder et les variables à utiliser.
Le plan d’analyse peut se définir comme la feuille de route du politique, ou le plan d’architecture détaillée
pour l’ingénieur en bâtiment. Il définit le fil chronologique des étapes de l’analyse, en indiquant les titres
correspondant aux thématiques et questions à aborder, les variables à utiliser pour y répondre, et les
techniques statistiques à employer (types de tableaux, graphiques, tests, méthode factorielle ou
économétrique.
Exemple : On peut à un niveau écrire :
 Recherche des déterminants de …. Par un modèle logit …:
 Statistiques descriptives par tableaux croisées (ou graphiques en bandes des profils …) avec les
variables pressenties comme déterminantes (à lister), et tests de chi deux pour mesure de liaisons ;
 Etablissement des profils de pauvreté par Classification à la suite d’une ACM avec les variables …
sociodémographiques, avec la variable de pauvreté illustrative
 Etc.
Le plan de tabulation des dossiers d’archives des enquêtes MICS est un exemple de plan d’analyse. Il décrit
tous les tableaux à faires, et toutes les statistiques dans les plus petits détails.
Le plan d’analyse peut parfois ne pas présenter de façon précise les techniques à employer, mais il doit
évoquer l’objectif, et autant que possible les variables et les techniques.
Rigoureusement, une première ébauche du plan d’analyse doit être élaborée au début du processus. En
particulier, les variables à sélectionner et à apurer doivent être nécessaires pour exécuter le plan d’analyse

I.53. Etape 6 : Exécuter le plan d’analyse


L’analyse consistera à suivre le plan d’analyse rédigé et calculant les statistiques nécessaires, et en
construisant les tableaux et graphiques adéquats. D’autres traitements et apurements peuvent
intervenir à cette étape. Il faudra toujours veiller à bien arbitrer entre tableaux et graphiques, entre
profils ligne et colonne, entre tableaux statistiques de variables séparées et des tableaux prenant en
compte plusieurs variables.
Les tableaux d’effectifs doivent toujours s’accompagner des pourcentages, et les données moyennes
doivent toujours s’accompagner des indicateurs de dispersion (écart type ou variance). Les tableaux
volumineux autant que possible mis en annexe.
Il est important de souligner que lorsqu’il existe une variable de poids dans les données (cas des
sondages aléatoires), il faudrait faire figurer les statistiques sur l’échantillon, et ceux sur la
population dans les tableaux (surtout dans la section portant sur les caractéristiques générales de la
population). Selon le cas, il sera juste nécessaire par la suite de produire les statistiques portant sur
la population.
Les bases présentant un grand nombre de variables conduisent aussi à la production de nombreux
tableaux. Pour éviter de produire un rapport trop volumineux, il est important d’adopter des
présentations très synthétiques des données. Ces trois tableaux donnent des exemples de tableaux
synthétiques.

Modèle Tableau 13 : Descriptions des dépenses de consommation par province et par région

95
Urbain Rural comparaison
IC (95%) IC (95%)
Variable Statistiques Test comparaison
Valeur de Valeur de Ecart
des moyennes
moyenne moyenne
Effectif
Moyenne
Médiane
1ère Région
Ecart-type
Maximum
Minimum
Effectif
Moyenne
Médiane
2ème Région
Ecart-type
Maximum
Minimum

Modèle Tableau 14 : Descriptions et tests de comparaison des coefficients budgétaires (écarts types
entre parenthèses) par niveau d’instruction et par sexe du chef de ménage
Scolarité Sexe du CM
Statistique Secondair Coefficie Anov Coefficie Anova
Aucun Primair Homm Femm
s e et + nt Eta a nt Eta
e e e e
65 …
Alimentatio 45
(34,67
n (39,44)
)
Education
Habillemen
t

 Tableau 15*. Statistiques descriptives des variables quantitatives par milieu … données échantillon et
données population (*Moyenne (écart-type) [Min ; Max])
   Urbain Rural Ensemble
Variables Echantillon Pop (avec Echantillon Pop (avec Echantillon Pop (avec
(N=20) poids) (N=12) (N=20) poids) (N=12) (N=20) poids) (N=12)
Âge du CM 64,9 (7,2) 63,8 (5,6)
[57 ; 90] [58 ; 78]
Revenu (x
1000)

Quelques conseils :
 Toujours accompagner les moyennes des écarts types
 Toujours accompagner les effectifs des fréquences
 Penser à décrire l’échantillon au départ, dans la partie consacrée aux caractéristiques de la
population. Par la suite, insister sur les statistiques pondérées. Dans cette partie, valoriser la qualité
des données par les taux de non réponses et une description des apurements ;
 Toujours faire des copies progressives des bases transformées ;
 Toujours observer les statistiques descriptives des variables avant tout apurement ou traitement ;
 Eviter d’écraser systématiquement les variables transformées.

96
BIBLIOGRAPHIE

AMEGANDJIN, Julien (2013) ; Pratique des sondages, étude de quelques sujets courants des
techniques de sondage ; AFRISTAT ; séries méthodes ;
ARDILLY, Pascal (2006) ; Les techniques de Sondages ; Ed. Technip, Paris.
EUROSTAT ; Les défis d'utilisation de données administratives et des enquêtes par sondage dans le
Système Statistique Européen ;
http://sondages2012.ensai.fr/wp-content/uploads/2011/01/20121030_BUONO_Diaporama_FR_
EN_Les-d%C3%A9fis-dutilisation-de-donn%C3%A9es-administratives-et-des-enqu
%C3%AAtes-par-sondage-dans-le-Syst-Mode-de-compatibilit%C3%A9.pdf; en ligne,
septembre 2014.
FASSASSI, Raïmi ( ; Cours méthodologie et pratiques des enquêtes ; formation continue en bio-
statistique sur la méthodologie de la recherche (2ème journée), support de présentation
KEHO, Yaya (2005), Pratique des enquêtes ; Support de cours enseigné à l’ENSEA ;
Myriam Maumy-Bertrand (2011) ; Sondage à probabilités inégales ; IRMA, Université de Strasbourg,
cours de Master 2ème Année ; Strasbourg, France ; en ligne :
http://www-irma.u-strasbg.fr/~mmaumy/enseignement/M2StatsM2Actu/chapitre4.pdf;
consultée en novembre 2014.
Statistiques Canada ; Méthodes et pratiques d'enquête ; en ligne : http://www.statcan.gc.ca/pub/12-587-
x/12-587-x2003001-fra.pdf; consultée en septembre 2014.
TIOTSOP Blaise (2010) ; Théorie des sondages ; Support de cours enseigné à l’ENSEA ;

Ressources informatiques : logiciel Tirage 2.1 http://www.afristat.org/index.php?


option=com_content&view=article&id=396:logiciels-
statistiques&catid=63:ressources&Itemid=65

97
ANNEXE : ETUDE DE CAS

TP 1) SAS SANS REMISE (utiliser Excel et SPSS): Réalisation d’un SAS par tirage aléatoire
simple : tirer un échantillon de taille 300 et calculer :
On réalise une étude sur le montant des pensions des retraites. On dispose d’une base de
sondage sur une population « base études de cas 1 à 3 ».
i. La probabilité d’inclusion d’un individu
ii. Le coefficient d’extrapolation de chaque individu
iii. Estimer la pension moyenne donnée à un retraité, ainsi que la précision, et donner un
intervalle de confiance à 95%.
iv. Calculer ensuite la valeur exacte de cette moyenne sur toute la population, et commenter.
v. Déterminer la taille suffisante pour réaliser estimer la pension moyenne une erreur relative
d’au plus 2% au seuil de risque de 5%.

TP 2) Reprendre le même exercice avec un tirage systématique des individus

TP 3) Sondages stratifié : même base que précédemment.


Question préliminaire A t –on des variables auxiliaires dans la base ?
Quelle est (ou sont) la (les) variables idéales pour une stratification ? (utiliser les statistiques
suivantes)
Moyennes par classe des nombres d’enfants, sexe et type de pension

Nombre d’efts N Moyenne Ecart-type N Moyenne Ecart-type TYPE N Moyenne Ecart-type

MASCULIN 3167 157159,75 276264,462 PENSION


Aucun 504 81087,30 75184,803
FEMININ 470 130188,59 119236,650 TYPE 1 928 89453,68 254333,716
1A5 979 138456,22 319359,148
Total 3637 153674,34 261480,765 TYPE 2 2206 202696,60 280758,114
6 A 10 1325 164864,76 301192,493
TYPE 3 503 57160,74 44947,179
11 ET + 829 197890,38 160137,930
Total 3637 153674,34 261480,765
Total 3637 153674,34 261480,765

Reprendre encore le même exercice en considérant une stratification suivant la variable la variable
la plus pertinente et un SAS sans remise dans chaque strate. On considèrera le cas d’une répartition
proportionnelle et une répartition optimale de Neyman

TP 4 : Utiliser les données de la feuille Compta entreprise du fichier Excel pour
i) Faire un tirage systématique de 20 entreprises par un tirage systématique à probabilité
inégale proportionnelle aux tailles des entreprises
ii) Calculer les poids
iii) Donner les estimations du CA moyen (valeurs, précision et intervalle) au seuil de 5%.
iv) Considérer maintenant un sondage stratifié par secteur d’activité. Déterminer l’allocation
optimale de Neyman et reprendre les questions i), ii) et iii) pour chaque strate.
98
TP 5 : Calculs des pondérations dans le cas d’un sondage stratifié à deux degrés.
A partir de la base « données pour calculs pondérations »
i. Construire une variable de strate à partir du croisement de la zone et du milieu
ii. Calculer par strate : les poids de sondages des strates, ZD et ménages
iii. Estimer la taille de la population et donner un intervalle de confiance
iv. Estimer le taux de pauvreté et donner un intervalle de confiance

99

Vous aimerez peut-être aussi