Vous êtes sur la page 1sur 35

ROYAUME DU MAROC ‫الـمـمـلـكـــة المــغـربيـــــــــة‬

Ministère de la santé
Délégation du Ministère de ‫وزارة الـصـحــــــــــــــــــــــــــــة‬
la Santé à la Wilaya de ‫نيابة وزارة الصحة والية الرباط‬
Rabat ‫معهد تأهيل األطر في الميدان‬
Institut de Formation aux
Carrières de Santé Rabat ‫الصحي بالرباط‬

MEMOIRE DE FIN D’ETUDES DU PREMIER CYCLE


DES ETUDES PARAMEDICALES

Section : Technicien de Statistique Sanitaire

Eléments d’élaboration d’un module


d’enseignement/apprentissage :

Volume Horaire : 60 h

Encadré par :
 Mr. EL MARNISSI
Elaboré par :
Abdelillah
 Mr. NAQUIS Rabie Ingénieur d’Etat statisticien
 Mr. DARFOUF Hicham
Promotion 2005/2008
Année universitaire 2007/2008

Remerciements
A,

 Mr. BAHADI Mohamed le Directeur de l’Institut de Formation


aux Carrières de Santé
Pour ses grandes qualités professionnelles et humaines.
En témoignage de notre grand respect et notre profonde considération.

 Mr. ALAOUI Ali Mrani Le responsable de la section


technicien de statistique sanitaire et Mr. EZ-ERROUKI
Mohamed le responsable adjoint
Nulle expression ne pourra suffire ou refléter notre reconnaissance et
notre gratitude pour tous les efforts et les sacrifices que vous avez faites avec
nous et pour nous.
Nous tenons à vous exprimer nos vifs remerciements pour vos
encouragements, votre aide et vos conseils tout au long de notre formation.
Veuillez trouver ici le témoignage de notre gratitude et de notre profond
respect.

 Mr. EL MARNISSI Abdelillah l’encadreur du travail


Nous sommes particulièrement sensibles à l’honneur que vous nous avez
fait en acceptant de diriger ce travail pour lequel vous avez manifesté un intérêt
particulier.
Nous tenons à vous exprimer notre gratitude et nos remerciements pour vos
conseils, votre aide, votre orientation et votre compréhension tout au long de ce
travail.
Aux,

Membres de jury,
Vous nous avez fait un grand honneur d’avoir accepter de juger ce modeste
travail.
Nous vous exprimons nos vifs remerciements

____________________________________________________________________________
Cours de Sondage 2
 Introduction

Le module : « techniques de Sondage » s’inscrit dans le programme de


formation des techniciens de statistique sanitaire (3éme année) au niveau de
l’Institut de Formation aux Carrières de Santé de Rabat.
Ce module constitue un élément indispensable dans la formation de l’étudiant
statisticien car il porte à sa connaissance des informations précieuses sur une
méthode de collecte de données très utile, qui est le sondage.
Il couvre un ensemble de techniques et de méthodes qu’elles soient probabilistes
ou empiriques et qui permettent de tirer un échantillon à partir d’une population
d’étude.
Au cours de ce module, on va traiter chaque technique de sondage probabiliste en
donnant le principe de chacun, l’expression des estimateurs et le calcul de précision,
on va aussi expliquer comment tirer la taille de l’échantillon. De ce qui est sondages
non probabilistes on se suffira de donner le principe de chacun.
Pour maîtriser les techniques de sondage abordées dans le document, des exercices
d’application seront proposées à toutes les étapes du développement du module. Une
bibliographie diversifiée est suggérée pour permettre à l’apprenant d’approfondir ses
connaissances et d’avoir un complément d’information sur « les techniques de
sondage »

Le Pré – requis

Ce module est destiné aux étudiants de la 3ème année section statistique sanitaire
ayant suivi des cours dans des disciplines leur permettant de comprendre les concepts
abordés dans ce module. Parmi ces disciplines on cite :
 Statistique descriptive.
 Statistique mathématique.

 Objectif général

A l’issue de ce module l’apprenant doit être capable de maitriser les différentes


techniques de sondage et leur application.

____________________________________________________________________________
Cours de Sondage 3
 Objectifs d’apprentissage:
 Définir les concepts suivants:
 Sondage,
 Recensement,
 Enquête par sondage,
 Paramètre,
 Estimateur,
 Inférence,
 Base de sondage.
 Maitriser les instruments des mesures d’erreurs d’échantillonnage :
 Biais.
 Variance.
 Ecart-type
 l’erreur quadratique moyenne.
 Maîtriser le principe des différentes techniques de sondage probabiliste.
 Connaître les différentes expressions des estimateurs sans biais pour la
moyenne, le total et la proportion.
 Calculer la précision pour chaque estimateur.
 Déterminer la taille de l’échantillon dans le cas du sondage probabiliste
 Identifier les avantages/inconvénients pour chaque technique de sondage.
 différencier entre les différents types de sondage empirique.
 identifier les différents types d’erreurs rencontrées lors des enquêtes par
sondage.

 Méthodologie de travail
La méthodologie utilisée pour la réalisation de ce module se résulte comme suit :
 Exploitation des documents en relation avec le sujet.
 Consultation des sites web traitant le même sujet.
 Entretiens avec les personnes ressources.

____________________________________________________________________________
Cours de Sondage 4
 Les activités d’enseignement/d’apprentissage:
Activité d’enseignement :
Le cours privilégiera des apprentissages actifs basés sur les pré-requis théoriques des
étudiants, il comportera :
 Des exposés interactifs présentés par l’enseignant.
 Des travaux de groupe.
 Des exercices de réflexion. (analyse et synthèse)
Activité d’apprentissage:
 Lecture du document de base
 participation aux travaux de groupes

 Modalités de l’évaluation :
L’évaluation a pour objectif d’évaluer le degré d’assimilation des étudiants des
connaissances théoriques relatives aux techniques de sondage ainsi leur application.
L’évaluation peut prendre la forme de contrôles continus effectués le long de
l’avancement du cours et un examen final à l’issue du module.

Contenu du module

Intitulés pages

____________________________________________________________________________
Cours de Sondage 5
* Introduction
* Pré-requis 3
* Objectif général

* Objectifs d’apprentissage
4
* Méthodologie de travail
* Les activités : d’enseignement/d’apprentissage
5
* Modalités de l’évaluation
* Unité І : Introduction générale à la notion du
9
Sondage
* Unité ІІ : Les Sondages probabilistes 13
* Unité ІІІ : Les Sondages non probabilistes
(empiriques) 29

* Unité ІV : les différents types d’erreurs


31
Rencontrées dans les enquêtes
* Conclusion 33
* Exercices de recherche 34
* Bibliographie 36

Plan du cours

Unité І : Introduction générale à la notion du


sondage
____________________________________________________________________________
Cours de Sondage 6
Unité ІІ : Les Sondages probabilistes
 Introduction
І / Le Sondage aléatoire simple
1/ Principe
2/ Calcul de la probabilité d’inclusion ou de sélection
3/ Expression des estimateurs
3-1) Cas de l’estimateur d’une moyenne
3-2) Cas de l’estimateur d’un total
4/ Expression des estimateurs des variances
4-1) Cas de l’estimateur d’une moyenne
4-2) Cas de l’estimateur d’un total
5/ Estimation par intervalle de confiance
6/ Cas des proportions
7/ La taille de l’échantillon
7-1) Forte contrainte de coût
7-2) Faible contrainte de coût

ІІ / Le Sondage aléatoire systématique


1/ Principe
2/ Comment réaliser un sondage aléatoire systématique ?
3/ Quand utiliser le sondage aléatoire systématique ?
4/ Calcul de précision
5/ Avantages / inconvénients
ІІІ / Le sondage stratifié
1/ Principe est justification
2/ Estimation et calcul de précision
2-1) Estimation
2-2) calcul de précision

3/ La question de la taille de l’échantillon par strate


3-1) Allocation proportionnelle
3-2) Allocation optimale
4/ Le problème de la constitution des strates
5/ Variable de stratification
6/ Nombre de strates
7/ Limites de strates

____________________________________________________________________________
Cours de Sondage 7
ІV/ Le Sondage à plusieurs degrés
1/ Principe et justification
2/ Estimation et calcul de précision
2-1) Estimation
2-2) Calcule de précision
V/ Le Sondage en grappe
1/ Principe et justification
2/ Estimation et calcul de précision

Unité ІІІ : Les Sondages non probabilistes (empiriques)


 Introduction
1/ Méthode des quotas
1-2) expression de l’estimateur de la moyenne
2/ Méthode des itinéraires
3/ Méthodes des unités types
4/ Echantillonnage de volontaires
Unité ІV : Les Différents types d’erreurs rencontrées
Dans les enquêtes
1. Erreur d’échantillonnage
2. Erreur d’observation ou de mesure
3. Défaut de couverture et non réponse

Unité І
*********
Introduction générale à La notion du
sondage
Volume horaire : 8 heures

 Objectifs d’apprentissage:
 Définir les concepts suivants:
____________________________________________________________________________
Cours de Sondage 8
 Sondage,
 Recensement,
 Enquête par sondage,
 Paramètre,
 Estimateur,
 Inférence,
 Base de sondage.
 Maitriser les instruments des mesures d’erreurs d’échantillonnage :
 Biais.
 Variance.
 Ecart-type
 l’erreur quadratique moyenne.

- Les sondages font partie de ces disciplines qui sont mal connues par le grands
public ; ce sont les sondages d’opinion et les sondages sur les modes de vie qui, bien
adaptés a la médiatisation, constituent la forme extérieure la plus envahissante des
sondages.
Or le sondage n’est pas la seule source de données, il y’en a deux autres très
intéressantes qui sont :
- les données existantes auparavant : comme les registres les revues,
publication ou le registre d’état civil constitue la source la plus importante de
cette catégorie, car il donne les informations nécessaires (naissances,
décès… .) pour tout type d’études sur la population. Or ce registre connaît
plusieurs inconvénients empêchant son utilisation comme la source principale
de collecte de données ;

- le recensement : qui est défini comme étant une collecte exhaustive, auprès
de tous les individus de la population pour connaître toutes les valeurs Yi de
ces individus i et être ainsi en mesure de calculer exactement toutes les
fonctions imaginables des Y.

Recensement et sondage
La solution au problème d’agrégation est très simple si nous décidons de ne pas
regarder à la dépense : dans ce cas extrêmement favorable, il suffit d’effectuer une
enquête par recensement de la population, Or, la plupart des budgets supportent
assez mal les recensements, sauf s’il s’agit de population de petite taille. Il est alors
nécessaire de limiter ses ambitions et de collecter l’information Y sur une partie de
la population, on construit un échantillon d’individus que l’on interrogera, réalisant
ainsi par définition une enquête par sondage.
____________________________________________________________________________
Cours de Sondage 9
Problèmes fondamentaux du sondage :
Un sondeur à trois grandes préoccupations :

a) la sélection de l’échantillon : à ce niveau, on s’interroge sur la méthode à


employer pour tirer les individus de l’échantillon, il existe en effet de diverses
méthodes de tirage pour produire un échantillon.
b) L’agrégation des réponses : c’est-à-dire quel formule programmer ? C’est
l’étape de détermination de l’estimateur, c'est-à-dire les expressions
mathématiques qui permettent, lorsque les données sont collectées, de proposer
une valeur de la fonction de variables recherchées définis sur toute la population.
c) La précision des résultats : c'est-à-dire jusqu'a quel point peut-on avoir
confiance dans les résultats numériques obtenus, le calcul de précision vient
conforter le sondeur dans son approche et son choix d’échantillon.

Méthode de tirage
Coût

Formulation de l’estimateur Calcul de précision

 Formalisation et vocabulaire de base :

 Le paramètre :
Chaque unité d’échantillonnage renvoyant à une liste déterminée d’unités
d’observation, on peut établir des correspondances propres entre échantillon d’unité
d’échantillonnage et échantillon déduit d’unités d’observation à partir duquel on
construit notre estimateur.
La fonction des Yi qui nous intéresse est un paramètre, c'est-à-dire une grandeur
fixée mais inconnue. Notée :

=
 L’inférence :
L’inférence est la procédure qui permet de passer des données recueillies sur
l’échantillon à la vraie valeur inconnue, on peut aussi la nommer extrapolation.

 Les mesures des erreurs d’échantillonnage :

____________________________________________________________________________
Cours de Sondage 10
Les mesures des erreurs d’échantillonnage servent à l’évaluation de la pertinence
des données obtenues, Il y’a de divers moyens pour le faire ; le biais, la variance,
l’erreur quadratique moyenne sont les moyens les plus utilisés dans la mesure des
erreurs d’échantillonnage.
a) le biais :
Le biais de l’estimateur est la différence entre l’espérance de cet estimateur et la
vraie valeur qu’on cherche à estimer notée par
B( )=E( - )=E( )-
b) la variance :
La variance d’un estimateur est par définition la moyenne des carrées des
écarts à la moyenne :
V ( ) = E ( - E ( )) ² = ( - E ( )) ²
Pour se ramener à l’échelle courante, on décide de prendre la racine carrée de ,
que l’on appelle écart-type de l’estimateur , noté cette grandeur a deux atouts
que la variance n’a pas : être directement comptable à d’une part, et servir de base
au calcules des intervalles de confiance d’autre part.
On a : =

Et mesurent la précision et réalisent, après le biais, une seconde mesure des


erreurs d’échantillonnage : plus ils sont grands, moins le plan de sondage est bon. Il
faut alors, soit agir sur l’expression de , soit agir sur les probabilités de tirage p(s).

c) l’erreur quadratique moyenne :


On peut construire un indicateur de précision qui englobe les notions de biais et de
variance. Il suffit de calcules la moyenne des carrées des écarts des estimateurs à la
vraie valeur, et non plus la moyenne selon :
EQM= E ( - )² et EQM= VARIANCE + (BIAIS) ²

Le type d’erreur dû au fait que l’on enquête qu’un échantillon s et non pas toute la
population, s’appelle donc l’erreur d’échantillonnage, le sondeur a pour
préoccupation de réduire cette erreur.

 Base de sondage :
Liste des individus dont on dispose et dans laquelle on échantillonne lorsqu’on
veut faire un sondage probabiliste dans la population qui nous intéresse, on demande
à cette liste d’avoir trois propriétés principales :
 Elle doit permettre de repérer l’unité sans aucune ambiguïté. Ce qui permet le
repérage de l’individu est appelé identifiant bonne base de sondage doit
____________________________________________________________________________
Cours de Sondage 11
d’abord être une liste d’identifiants de bonne qualité. Dans le cas contraire, on
risque de prendre un individu pour un autre et on introduira sans le savoir un
biais de l’estimateur.
 Elle doit être exhaustive ; cela signifie que chaque unité faisant partie du
champ de l’enquête doit être nécessairement présente dans la liste des
identifiants. Autrement dit ; il ne faut oublier personne.
 Elle doit être sans double compte, c'est-à-dire qu’aucun individu ne doit être
présent deux fois dans la même base sous deux identifiants différents.

____________________________________________________________________________
Cours de Sondage 12
Unité ІІ
*********
Les Sondages probabilistes
Volume horaire : 32 heures

 Objectifs d’apprentissage:
 Maîtriser le principe des différentes techniques de sondage probabiliste.
 Connaître les différentes expressions des estimateurs sans biais pour la
moyenne, le total et la proportion.
 Calculer la précision pour chaque estimateur.
 Déterminer la taille de l’échantillon dans le cas du sondage probabiliste
 Identifier les avantages/inconvénients pour chaque technique de sondage
probabiliste.

Introduction
Les sondages probabilistes sont ceux pour lesquels chaque individu de la
population a une probabilité donnée connue d’avance d’appartenir à l’échantillon
(dite probabilité d’inclusion, ou de sélection)
Les sondages probabilistes ont l’avantage sur les sondages empiriques de permettre
des études de précision des estimateurs utilisant essentiellement la théorie et le calcul
des probabilités.
Nous commencerons par les sondages probabilistes ; où nous allons aborder au
premier lieu le sondage aléatoire simple dont l’intérêt est de ne pas utiliser
d’informations auxiliaires, puis on va voir d’autres aspects du sondage probabiliste,
puis complexes.

____________________________________________________________________________
Cours de Sondage 13
І – Le Sondage aléatoire simple
1/ Principe :
Le sondage aléatoire simple consiste à tirer dans une population de taille fixée n
individus sans remise à partir des seuls identifiants de façon à ce que chaque
individu ait la même probabilité d’inclusion.

2/ Calcul de la probabilité d’inclusion ou de sélection :


On note Pi la probabilité d’inclusion c’est la probabilité qu’a l’individu i d’être
présent dans l’échantillon.
Dans le cas du sondage aléatoire simple ; Pi est constante :

3/ Expression des estimateurs du total et de la moyenne :


L’estimateur sans biais du total est :

Comme , il est logique de choisir, comme estimateur de la moyenne :

On note f = n/N le taux de sondage avec n la taille de l’échantillon. On considère


l’expression :

3-1) Cas de l’estimateur d’une moyenne :


On a :

Cette formule fondamentale de base prouve que, pour réaliser un sondage aléatoire
simple qui fournisse des résultats précis, on peut agir dans trois directions :
1) une taille d’échantillon n grande ;
2) Un taux de sondage f grand, voisin de 1
3) Une dispersion S² faible.

3-2) Cas de l’estimateur d’un total :


La variance de l’estimateur du total vaut :

____________________________________________________________________________
Cours de Sondage 14
La taille de la population a une importance majeure dans la valeur numérique de la
variance.
4/ Expression des estimateurs des variances :

4-1) Cas de l’estimateur d’une moyenne :


Un estimateur sans biais de S² est :

Un estimateur sans biais de V ( ) est :

4-2) Cas de l’estimateur d’un total :

5/ Estimation par intervalle de confiance :


L’intervalle de confiance vrai à 95% pour est :
IC= -2 ; +2
Cet intervalle de confiance fait intervenir S², incalculable, en pratique on utilise
l’intervalle de confiance estimé :
= -2 ; +2

Application numérique :

Nous voulons estimer la dépense mensuelle moyenne (Y) des étudiants de la section
technicien de statistique sanitaire qui sont au nombre de 35. Pour ce faire, on a tiré
un échantillon aléatoire de taille 10. Les résultats obtenus sont consignés dans le
tableau suivant :

____________________________________________________________________________
Cours de Sondage 15
Etudiant 1 2 3 4 5 6 7 8 9 10

Dépense mensuelle 1050 1700 800 3200 2400 1300 1250 1400 2700 1350
moyenne

1-estimer la dépense mensuelle moyenne par étudiant.


2-Quelle est la dépense mensuelle totale de tous les étudiants de cette section ?
3-Quelle est la précision de ce sondage ?
4-Estimer par intervalle de confiance la dépense mensuelle moyenne par
étudiant au seuil de 5% (en adoptant l’hypothèse de normalité).
Réponse :
1- donc

2- donc
3- ou s²=587339 et

Donc ou CV = 0.44= 44%


4- ou

6/ Cas des proportions :


Dans le cas de proportion, la population d’individus qu’on cherche s’appelle
domaine, La moyenne vaut :

Est l’effectif vrai d’individus appartenant au domaine D.


L’expression de la variance est :

V( )=

La dispersion dans le cas de proportion, est :

S² = [N/ (N - 1)].P. (1 – P)
On suppose que N est grand, soit S² ≈ P. (1 – P), d’ou:

Comme :
____________________________________________________________________________
Cours de Sondage 16
s² = [n/ (n - 1)].p. (1 - p)
L’estimateur sans biais de V (p) vaut :

Où p est la proportion d’individus du domaine calculée dans l’échantillon.


Contrairement à P, la valeur p est calculable. En général. Si n grand et f négligeable.
On estime la précision selon :
(p) ≈ P. (1 -P)/n
Le calcul de l’intervalle de confiance se fait comme suit :

On déduit que l’estimateur de l’effectif d’u domaine est :


= N P «implique » =N p
Alors :

V( ) = N²

Et

( ) = N²

Application numérique :
Question : sur 1000 élèves d’un lycée, on veut connaître la proportion P d’entre eux
qui souhaitent poursuivre des études supérieurs. Parmi 200 élèves tirés on constate
que 80 élèves déclarent qu’ils souhaitent poursuivre des études supérieures. Quel est
l’estimateur de P. et quelle est sa précision ?
Réponse :

L’estimateur sans biais est = 40 %

Sa variance estimée est :

____________________________________________________________________________
Cours de Sondage 17
(p) = (1 - f). [P.(1 -P)/(n – 1)] =

Donc : (p)
Avec 95 % de chance :
P [0,4 - 2.0, 031 ; 0,4 + 2.0, 031]
Soit P [33,8 %; 46,2%]
L’estimateur du nombre total d’élèves souhaitant poursuivre des études
supérieurs (domaine D) est :
= N p =400
( ) = N. (p) = 31
Avec 95 % de chance :
[338 %; 462%]

7/ La question de la taille de l’échantillon :


Il s’agit de déterminer le nombre d’interviews à réaliser. À la vue des formules de
variance, il est évident que plus la taille n est grande, plus le sondage est précis.
Cependant, nous ne disposons pas d’un budget illimité, et la question du coût sera
pour nous une contrainte, deux cas peuvent intervenir :

7-1) Budget limité


Si C est le budget total de l’enquête et c est le coût unitaire attaché a un interview,
on a :

7-2) Budget illimité


- Marge absolue
C'est-à-dire on veut connaître à « d » avec un risque de commettre l’erreur :

____________________________________________________________________________
Cours de Sondage 18
On suppose que suit la loi normale
 on peut montrer que :

Avec et

(S² est estimée à partir des enquêtes antérieures).


- Marge relative
On peut fixer une marge relative r au lieu d’une marge absolue :

Dans ce cas :

Avec et

* Cas des proportions :


- Marge absolue :

Et

Dans ce cas, on remplace par « p » et par P.

 marge absolue :

 marge relative :

ІІ – Le Sondage aléatoire systématique


____________________________________________________________________________
Cours de Sondage 19
1/ Principe
Un sondage aléatoire systématique à un seul démarrage consiste à choisir les
éléments de l’échantillon en parcourant la base de sondage progressivement et en
sélectionnant les éléments à intervalle fixe appelé « pas de sondage », le premier
élément étant choisis aléatoirement.

2/ Comment réaliser un sondage aléatoire systématique ?


- on calcule le pas de sondage : k = N/n
- le point de départ serait un individu i entre 1 et k, choisi aléatoirement.
- inclure dans l’échantillon tous les éléments identifiés en ajoutant successivement la
constante k au nombre de départ i.
- le premier individu tiré a un rang égal à : 1 + E [x.k].
x : un nombre aléatoire entre 0 et 1
E : la partie entière.
Les rangs des (n - 1) individus sélectionnés par la suite sont de la forme :
1+E [(x+I).k] avec I = {1; 2… ;( n-1)}

Remarque:
Si la base de sondage est ordonnée aléatoirement, alors le sondage aléatoire
systématique est équivalent au sondage aléatoire simple.

Application numérique :

Déterminer les individus qui appartiennent a l’échantillon avec :


N=45 n=4 X=0.376
Réponse
Calculer le pas de l’échantillonnage K=N/n Donc K =11.25
1 individus : 1+ E (0.376 x 11.25) =5
2 individus : 1+ E (1.376 x 11.25) =16
3 individus : 1+ E (2.376 x 11.25) =27
4 individus : 1+ E (3.376 x 11.25) =38

3/ Quand utiliser le sondage aléatoire systématique ?


- quand on dispose d’une base de sondage ordonnée selon une information
auxiliaire.
- Les enquêtes postales et téléphoniques.
- Quand la taille de la population n’est pas connue, dans ce cas l’échantillon
final sera de taille aléatoire.
4/ Calcul de précision :
Sur le plan de calcul de précision, deux cas distincts peuvent figurer :

____________________________________________________________________________
Cours de Sondage 20
- Quand la base de sondage n’est pas ordonnée, le tirage systématique est associé au
tirage aléatoire simple, alors on peut utiliser les formules classiques de ce dernier.
- quand la base de sondage est triée selon une variable auxiliaire fortement
corrélée avec la variable d’étude. Plusieurs estimateurs de la variance ont été
proposés :

Ou encore :

5/ Avantages / inconvénients :

 Extrêmement facile à réaliser.


 Peut être facilement mis en œuvre sur le terrain par quelqu'un qui n’est
pas expert dans le domaine du sondage.
 Utile pour simplifier la procédure de sélection de l’échantillon pour le
sondage aléatoire simple.
 Permet le gain de précision par rapport au sondage aléatoire simple.

ІІІ – Le Sondage stratifié


1/ Principe est justification :
C’est un sondage probabiliste, dans lequel on tire un échantillon de façon
indépendante des tirages ayant eu lieu par ailleurs, et conçus de telle sorte que
l’ensemble des strates forme une partition de la population finie dont on dispose.
2/ Estimation et calcul de précision :
2-1) estimation :
Lorsqu’on s’intéresse à l’estimation de , moyenne générale, il est équivalent de
chercher à estimer les moyenne de chacun des H groupes, puisque :

La moyenne générale est une moyenne pondérée des moyennes de chaque


groupe. Un estimateur sans biais de est moyenne simple sur l’échantillon
issu de la strate h :

2-2) calcule de précision :


Les règles de calcul des variances nous permettent d’écrire :
____________________________________________________________________________
Cours de Sondage 21
Avec :
: Taux de sondage dans la strate h ;
: Taille de l’échantillon dans la strate h ;
: Dispersion vraie au sein de la strate h.

L’estimateur sans biais de la variance est :

3/ La question de la taille de l’échantillon par strate :


3-1) Allocation proportionnelle :
Ce type d’allocation correspond à un taux de sondage identique dans chacune des
strates.
= f = cte

On note Vprop( ) la variance du sondage stratifié à allocation proportionnelle :


Vprop ( )=

3-2) Allocation optimale :


Ce type d’allocation Permet d’obtenir une précision maximale sur l’estimateur d’une
moyenne globale lorsqu’on dispose d’un budget donné.
L’échantillon selon l’allocation de Neyman est :

On montre qu’avec cette allocation, la précision Vopti ( ) est :

Vopti ( ) =

4/ Le problème de la constitution des strates :

____________________________________________________________________________
Cours de Sondage 22
Il s’agit de réaliser une stratification dans une population. Ce travail s’effectue
avant le choix de l’allocation. La constitution des strates se heurte à des problèmes
qui sont, dans l’ordre chronologique :
- quel variable de stratification ?
- combien de strates réaliser ?
- quelles doivent être les limites de strates ?

5/ Variable de stratification
La meilleure variable est la plus discriminante, c'est-à-dire celle qui permet de
réaliser au mieux des groupes homogènes en « intra » du point de vue Y. en pratique,
on cherche une variable X la plus corrélée possible à Y, la plus explicative possible,
de façon à ce que la constitution des groupes d’individus prenant des valeurs
voisines de X.

6/ Nombre de strates :
En théorie, le nombre de strates doit être le plus grand possible. Cette affirmation
est assez naturelle : plus on s’autorise de strates, plus il est facile de considérer des
groupes homogènes en « intra », plus il est facile de découper « aux bons endroits »
une population.
En pratique, on est assez vite limité, car l’augmentation du nombre de strates accroît
le coût de gestion de l’enquête pour un gain statistique qui devient parallèlement de
plus en plus faible.

7/ Limites de strates
Lorsqu’on utilise des allocations de Neyman, on peut adopter la règle de
Dalenius, par exemple, qui propose de faire en sorte que les produits soient
constants d’une strate h à l’autre. Dans ces conditions, l’allocation optimale conduit
à des tailles égales dans toutes les strates.

Application numérique
On dispose d’une population de 1060 entreprises, et on s’intéresse au nombre
moyen d’employés par entreprise. La population est constituée de cinq strates
définies par des tranches de taille en nombre d’employés. Cette information est
obtenue par des documents fiscaux ne donnant pas le nombre exact d’employés,
mais seulement la tranche de taille. Réalisant un sondage aléatoire simple dans
chaque strate h selon un budget permettant d’enquêter globalement 300 entreprises,
on mesure la moyenne et la dispersion s²h de la variable « nombre d’employés »
dans l’échantillon des entreprises tirées. Les allocations par strate sont données
dans la dernière colonne du tableau suivant :

____________________________________________________________________________
Cours de Sondage 23
Tranches de taille Nh s²h nh
X
0-9 500 5 1,5 130
10-19 300 12 4 80
20-49 150 30 8 60
50-499 100 150 100 25
500 et plus 10 600 2500 5
TOTAL 1060 300

QUESTION : quel est l’estimateur de , et quel est sa précision ?


REPONSE :

Sa précision estimée est :

Avec 95 chances sur 100, on a :

Une allocation proportionnelle impose, pour toute strate h :

Une allocation optimale donnerait lieu à :

D’où :

Tranches de taille X allocation allocation optimale


proportionnelle

0-9 142 71
____________________________________________________________________________
Cours de Sondage 24
10-19 85 70
20-49 42 49
50-499 28 100
500 et plus 3 10

Dans la strate des « 500 et plus » l’allocation optimale théorique est 48, nombre
supérieur à Nh = 10 .On enquêtera donc touts les éléments de cette strate et on
recommence le processus d’allocation optimale avec n=290 individus. Le problème
se pose en terme similaire dans la strate des « 50-499 ». On recommence l’allocation
entre les trois premières strates avec n= 190. On calcule :
prop( )= 0,086
opti( ) = 0,010

ІV – Le Sondage à plusieurs degrés


1/ Principe et justification :
Quel que soit l’estimateur utilisé, le sondage aléatoire simple présente deux
inconvénients qui s’avèrent fatals:
- lorsqu’à chaque individu tiré est associé un coût de déplacement pour pouvoir
réaliser l’interview, le sondage aléatoire simple peut disperser trop
l’échantillon et alourdir le coût global de l’enquête.
- pour pouvoir réaliser un sondage aléatoire simple, il faut disposer d’une base
de sondage complète d’unités d’observation.
Pour contourner ces deux difficultés on peut utiliser la technique du sondage à
plusieurs degrés, qui fonctionne ainsi :
 Diviser la population mère en sous ensemble homogènes appelés « unités
primaires »
 Tirer aléatoirement un certain nombre d’unités primaires de la base de
sondage des unités primaires.
 Tirer les individus dans chaque unité primaire à partir de la base de sondage
des unités primaires tirées (les individus tirés sont appelés unités secondaires)
2/ Estimation et calcul de précision
2-1) estimation
On se place dans le cadre du à deux degrés ; et on suppose qu’on tire des
unités par sondage aléatoire simple à chaque degré. La formule de variance est
composée de deux termes correspondant respectivement au premier et au second
____________________________________________________________________________
Cours de Sondage 25
degré du sondage. Chacun de ces deux termes étant construit sur un modèle
similaire à celui de la variance du sondage aléatoire simple. Construisons
tout d’abord un estimateur sans biais du total T inconnu. On note :

M : nombre total d’unités primaires constituées ;


Ni: taille de l’unité primaire i ;
N : taille de la population totale.
N=
Yij : valeur de la variable d’intérêt pour l’individu j de l’unité primaire i.
Appelons m la taille de l’échantillon d’unités primaires ; et ni la taille de
l’échantillon d’unité secondaire dans l’unité primaire i.
On a :

Il est clair que le vrai total s’écrit :


T=
On sait que le vrai total dans l’unité primaire i ; est estimé sans biais
Par :

Où si désigne la liste des unités secondaires échantillonnées dans l’unité primaire


i .on a donc :
Un estimateur sas biais du total est :

Contrairement au cas du sondage aléatoire simple, il n’y a pas de besoin de


connaître la taille totale N de la population pour estimer le total T. le sondage à
deux degrés permet par conte d’estimer N

2-2) calcul de précision :


On peut montrer que l’estimateur sans biais de la variance du total vaut :

Avec :

____________________________________________________________________________
Cours de Sondage 26
&

Les notations et désignent les échantillons de degrés respectifs 1 et 2 que, pour


l’occasion, nous n’avons plus noté s pour ne pas introduire de confusion avec les
dispersions.

V- Le Sondage en grappe :
1/ Principe
Le sondage en grappe est un cas particulier du sondage à plusieurs degrés. Ayant
tiré un certain nombre d’unités à l’avant dernier degré du tirage, on réalise l’enquête
au dernier degré du tirage auprès de tous les individus inclus dans l’unité.

2/ Estimation et précision
L’estimateur sans biais du total est :

L’estimateur de la variance du total est :

Où :
Remarque
Pour obtenir un bon sondage en grappe, l’expression de la variance nous montre
qu’il faut :
* des grappes hétérogènes, c'est-à-dire regroupement des individus aussi différents
que possible les uns des autres du point de vue de la variable d’intérêt.
* des grappes de faible taille,
* des grappes de tailles voisines.
* tirer un maximum de grappes.

____________________________________________________________________________
Cours de Sondage 27
Unité ІІІ
**********
Les Sondages non probabilistes (Empiriques)
Volume horaire : 12 heures

 Objectifs d’apprentissage:
 différencier entre les différents types de sondage empirique.
 Maîtriser le principe des différentes techniques de sondage non probabiliste.
 Identifier les avantages/inconvénients pour chaque technique de sondage
empirique

Introduction
Les sondages empiriques s’opposent aux sondages probabilistes ils ne permettent pas
de calculer la probabilité d’inclusion. On les utilise lorsqu’il y a absence de base de
sondage. Enquêteur sélection les individus selon un choix résonné cette méthode a
l’avantage d’être plus rapide et moins coûteuse.

1/ Méthode des quotas


La méthode empirique la plus fréquemment rencontrée est la méthode des
quotas : on fait en sorte que la structure de l’échantillon soit exactement la structure
de la population toute entière selon certains critères que l’on a préalablement choisis.
Par exemple, si on sait que la population est constituée de 45% d’hommes et de 55%
de femmes, on cherchera à avoir 45% d’hommes et de 55% de femmes dans
l’échantillon, donc l’échantillon représente une photo – réduction de la population.
Les conclusions recueillies sur cet échantillon peuvent se transporter à la population
toute entière.

2-1) Expression de l’estimateur de la moyenne :


L’estimateur d’une moyenne est égal à la moyenne calculée sur l’échantillon :

____________________________________________________________________________
Cours de Sondage 28
= =

Ou :
= moyenne des Y dans la catégorie q, définie sur les individus de la
Population.
= moyenne des Y dans la catégorie q, définie sur les individus de l’échantillon
= taille vraie (connue) de la population dans la catégorie q.
= taille de l’échantillon dans la catégorie q.

Puisque le propre de la méthode est d’imposer :


2/ Méthode des itinéraires
C’est une variante de la méthode des quotas : au lieu de laisser l’enquêteur
déterminer librement les individus à interroger, on lui impose de ne réaliser ses
interviews qu’auprès d’individus localisés dans certains endroits définis par avance
sur une carte. L’avantage de cette méthode par rapport à la méthode des quotas, est
de limiter la liberté de choix de l’enquêteur.
Mais l’inconvénient de cette méthode est le coût de préparation de l’opération qui est
très élevé.

3/ Méthodes des unités types


C’est la plus empirique des méthodes. Elle consiste a choisir un individu
moyen que l’on déclare représentatif d’un groupe d’individus possédant les mêmes
caractéristiques. On suppose que tous les individus sont semblables à l’individu
moyen selon les variables d’intérêt de l’enquête. Encore plus pour la méthode des
quotas, les résultats de l’enquête seront sensibles au tirage au travers du choix que
l’on a fait de l’individu moyen, dit unité-type. Il va de soi qu’aucun calcul de biais
ou de précision n’est possible ici. L’avantage de cette méthode réside dans la relative
simplicité de détermination de l’échantillon, opération rapide et moins coûteuse.

4/ Echantillonnage de volontaires
Il s’agit de choisir des individus volontaires pour répondre aux questions. Cette
technique, très économique, n’est pas défendable statistiquement.

Unité ІV
*********
Les différents types d’erreurs rencontrées dans
____________________________________________________________________________
Cours de Sondage 29
les enquêtes
Volume horaire : 8 heures

 Objectifs d’apprentissage:
 identifier les différents types d’erreurs rencontrées dans les enquêtes.

Les différents types d’erreurs rencontrées dans les enquêtes par sondages peuvent
être regroupés en trois types :

1/ Erreurs d’échantillonnage
L’erreur d’échantillonnage est mesurable par le biais, la variance (ou l’écart
type), et (ou) l’erreur quadratique moyenne, et qui se traduit par l’existence d’une loi
de l’estimateur au travers d’une densité de probabilité. On peut assimiler à des
erreurs d’échantillonnage certaines erreurs résultant des imperfections de la base de
sondage que sont présence des doubles comptes et le vieillissement de l’information
auxiliaire.
L’erreur d’échantillonnage existe dans toutes dans les enquêtes par sondage, mais
elle est nulle dans les enquêtes par recensement.

2/ erreur d’observation ou de mesure


Dans la réalité, il existe une seconde famille d’erreurs appelées erreurs
d’observation, ou erreurs de mesure, qui tient au fait que la valeur que l’on recueille
lors de l’enquête peut être une valeur différente, voire très différente de la vraie
valeur qui est attachée à l’individu i.

 Les types d’erreurs d’observation :


- erreurs de bonne foi de l’enquête. C’est le cas si on fait appel à sa
mémoire et que celle-ci est défaillante.
- Erreurs introduites par l’enquêteur qui interprète les questions et
souffle éventuellement les réponses (défaut de formation de
l’enquêteur)

____________________________________________________________________________
Cours de Sondage 30
- Erreurs d’écritures sur un questionnaire (on se trompe de case en
cochant), ou erreur de saisie de la part de l’opérateur chargé de saisir
les résultats.
- Erreurs de codification surtout dans les questions ouvertes ou
l’enquêté formule sa réponse en clair, le chiffreur trouve des
difficultés de transformer ce genre de questions en code.
- Erreurs informatiques (le programme est faux : il ne fait pas
correspondre l’individu avec sa réponse, ou il y a, tout simplement,
une erreur de calcul)
- Mauvaise compréhension de la question par l’enquête (personne âgée,
étranger, etc.…)
- L’individu échantillonné a été remplacé, volontairement ou par
erreur.

3/ défaut de couverture et non réponse


On peut distinguer une troisième famille d’erreurs, liée à l’existence d’une base
de sondage incomplète (non exhaustive) et à la non réponse de certains individus aux
questions posées. La non réponse peut être soit une non réponse complète (refus total
ou absence), soit une non réponse partielle, c'est-à-dire que l’unité échantillonnée ne
répond qu’à certaines questions et pas à d’autres, En effet une base de sondage
incomplète est une situation qui donne lieu a un défaut de couverture de la
population.

 Bilan

ERREUR TOTALE = ERREUR D’ECHANTILLONNAGE + ERREUR


D’OBSERVATION + ERREUR DUE AU DEFAUT DE COUVERTURE ET
A LA NON-REPONSE

Conclusion
Ce travail consiste à l'élaboration d'un module d'enseignement/apprentissage
"techniques de sondage" dont l'objectif est
De maitriser les différentes techniques de sondage ainsi que leur application
Dans la première unité du cours on a présenté les concepts généraux de base, et les
éléments clés du module.
Pour la deuxième unité on a traité les différentes techniques de sondage probabiliste
tel que:
____________________________________________________________________________
Cours de Sondage 31
 le sondage aléatoire simple,
 le sondage aléatoire systématique,
 le sondage stratifié,
 le sondage à plusieurs degrés
 le sondage en grappe
En ce qui concerne la troisième unité on a traité les sondages non
probabilistes/empiriques tels que:
 la méthode des quotas,
 la méthode des itinéraires,
 la méthode des unités-types
 l’échantillonnage de volontaires,
Pour la quatrième unité on a abordé les erreurs rencontrées dans les enquêtes par
sondage qui se résument en se qui suit:
 les erreurs d’échantillonnage,
 l’erreur d’observation
 le défaut de couverture et non réponse.
Nous tenons a signalé que au cours de l'élaboration de ce module on a rencontré
quelques contraintes parmi les quelles on cite
le manque de documentation traitant le sujet "sondage",et en ce qui concerne les
sondages probabilistes,
Nous n’avons pas pu détailler chaque technique car la démonstration des formules
mathématiques sont très complexes.
Donc, dans ce document on a abordé que les domaines relatifs à l’échantillonnage, à
l’estimation, et à la mesure des erreurs.
Enfin nous suggérons que L’approfondissement des connaissances en techniques de
sondage pourrait êtres réalisé à partir des ouvrages cités en bibliographie.

Exercices de recherche

Exercice 1 : (sondage aléatoire simple)

L’exercice propose de retrouver sur un exemple les résultats de la théorie pour un sondage aléatoire
simple sans remise de taille fixe. On considère pour cela tous les échantillons possibles de taille 2
pris dans une population de taille N = 5. On connaît par ailleurs les valeurs de la variable d’intérêt
Y pour chaque unité de la population, à savoir respectivement : 8, 3, 11, 4 et 7.
1. Calculer la moyenne et la dispersion du caractère d’intérêt sur la population.
2. Lister tous les échantillons possibles de taille 2.
3. Pour chacun de ces échantillons, calculer l’estimateur de la moyenne de la variable
D’intérêt ainsi que l’estimateur de sa variance .
____________________________________________________________________________
Cours de Sondage 32
4. Calculer la variance .
5. Vérifier que estime sans biais la vraie moyenne.

Exercice 2 : (sondage aléatoire simple)

Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50
enregistrements. Pour estimer le nombre moyen de caractères par enregistrement, on décide de tirer
Par sondage aléatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m =
80 et n = 5.
On mesure après tirage :
- la dispersion des estimateurs du nombre total de caractères par fichier, soit = 905000
- la moyenne des m dispersions est égale à 805 où représente la dispersion du nombre de
caractères par enregistrement dans le fichier i.
1. Comment estimez-vous le nombre moyen de caractères par enregistrement ?
2. Comment estimez-vous sans biais la précision de l’estimateur précédent ?
3. Donnez un intervalle de confiance à 95% pour .

Exercice 3 : (sondage en grappe)

Un technicien de statistique sanitaire souhaite réaliser une enquête sur la qualité des soins assurés
dans les services de cardiologie des hôpitaux. Pour cela, il tire par sondage aléatoire simple 100
hôpitaux parmi les 1 000 hôpitaux répertoriés, puis, dans chacun des hôpitaux tirés, il recueille
l’avis de tous les malades du service de cardiologie.
1. Comment se nomme ce plan de sondage et quelle est sa raison d’être ?

2. On considère que chaque service de cardiologie comprend exactement 50 lits et que


l’intervalle de confiance à 95% sur la vraie proportion P de malades insatisfaits est : P [0,10 ±
0,018], (cela signifie en particulier que, dans l ‘échantillon, 10 % des malades sont insatisfaits de la
qualité des soins). Comment estimez-vous l’effet de grappe (commencer par estimer , dispersion
du caractère d’intérêt sur toute la population) ?
3. Le statisticien se demande comment évoluerait la précision de son enquête de satisfaction si,
d’un seul coup, il échantillonnait deux fois plus d’hôpitaux mais que dans chaque hôpital tiré, il ne
collectait ses données que sur la moitié du service de cardiologie (mettons que les services soient
systématiquement partagés par un couloir et que notre statisticien ne s’intéresse exclusivement
qu’aux 25 lits qui se situent à droite du couloir) ?
4. Commentez ce résultat par rapport à ce que donnait le premier plan de sondage.

Exercice 4 : (sondage à plusieurs degrés)

Pour faire un test de niveau sur les élèves des collèges de 6ieme du district, on
va mettre en place une enquête par sondage. Au premier degré on tire 5 collèges
parmi les 50 selon un SAS. Puis au deuxième degré on effectue les tests sur
un échantillon de 10 élèves par collège.
____________________________________________________________________________
Cours de Sondage 33
A l’issue du sondage, on a calcule pour chaque collège la note moyenne des 10 élèves
Testes ainsi que leur variance corrigée.

1. Donner une estimation du total des notes au test sur le district.


2. Estimer le nombre d’élèves en 6ieme du district.
3. En supposant qu’il y ait exactement 2000 élèves en 6ieme dans le district,
donner une estimation de la note moyenne. Comparer avec la moyenne observée sur l’échantillon.
4. Calculer la variance de l’estimateur du total. En déduire la variance de la moyenne. Donner un
intervalle de confiance de la moyenne.
5. Comparer avec un SAS sur les mêmes données.

Bibliographie

I. Principaux ouvrages généraux de référence en français

Ardilly, P (1994) les techniques de sondage. Edition technip, Paris

Deroo, M. et Dussaix, A. M. (1980) pratique et analyse des enquêtes par sondage, Presses
universitaires de France, paris.
Ouvrage de niveau mathématique facilement accessible, comportant une partie rédigée
importante ? Et débordant le cadre de l’échantillonnage et de l’estimation

Desabie, J. (1966) Théorie et pratique des sondages. Dunod, Paris.


Référence majeure assez fortement mathématisée et complète sur les plans de sondage
classiques : une rédaction importante accompagne les démonstrations. Nombreux exemples
et cas d’application.
Droesbeke, Fichet et Tassi (Eds) (1987) les sondages. Economica, Paris.

____________________________________________________________________________
Cours de Sondage 34
Il s’agit d’un recueil de contributions de différents auteurs. La plupart des contributions
sont extrêmement mathématiques.
Gourieroux, C. (1981) Théorie des sondages. Economica, Paris.
Ouvrage très fortement mathématisé et comportant très peu de rédaction.
Grosbras, J-M. (1987) Méthodes statistiques des sondages. Economica, Paris.
Ouvrage très fortement mathématisé et comportant très peu de rédaction.
Morin, H. (1993) Théorie de l’échantillonnage. Presses de l’université Laval, Québec
Ouvrage très fortement mathématisé et essentiellement composé de démonstration
d’expressions importantes en sondage.

II. Ouvrages statistiques généraux de référence utile pour les sondages

Calot, G. (1975) cours de statistique descriptive. Dunod, Paris.


Saporta, G. (1990) Probabilités, analyse des données et statistique. Editions Technip,
Paris.

III. Internet

La théorie des sondages


http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Mass22/cours/chap4a.htm

____________________________________________________________________________
Cours de Sondage 35

Vous aimerez peut-être aussi