Vous êtes sur la page 1sur 54

Méthodes de sondage

et sources
d’information Pr. F. HADRYA
STATISTIQUE / INTERDISCIPLINARITÉ EN SOINS DE Adresse électronique :
SANTÉ fatinehadrya@yahoo.fr
✓ Présenter le contexte général de l'échantillonnage
Objectifs
✓ Pouvoir calculer la taille d'échantillon
pédagogiques
✓ Connaître les différentes sources d’information
3
Méthodes de sondage
Echantillonnage : le procédé de sélectionner un sous-ensemble de la
population, pour être son représentant

Univers d’échantillonnage : la population cible par rapport à laquelle les


conclusions d’une recherche s’appliquent

Échantillon : un sous ensemble choisi dans la population

Définitions Unité d’échantillonnage (unité d’analyse) : l’unité par rapport à laquelle


les conclusions d’une recherche s’appliquent (ex : individu, objet, …)

Cadre de l’échantillonnage (base de sondage) : la liste ou le fichier


permettant de repérer tous les individus de la population cible

Fraction d’échantillonnage (taux de sondage (noté f)) :


Taille de l’échantillon / taille de la population cible …. soit : n/N
Introduction
Plus économique : temps, argent, énergie humaine

Une étude exhaustive est inutile : car, à partir d’un certain


Pourquoi un nombre d’observations (taille de l’échantillon), il n’y a plus
échantillon ? de variations de l’estimation des paramètres mesurés.

Estimation des vrais Paramètres populationnels (Inférence)

Plus précis : moins d’observation ➔ moins d’erreurs


L’échantillon doit
être l’image réduite,
mais fidèle de la
population cible.
• Notion de représentativité. Il faut que l'échantillon présente
la pluralité des caractéristiques de la population d'étude.

Un échantillon sera dit représentatif de la population si les

Un échantillon résultats obtenus à partir de l'échantillon estiment


satisfaisant ? correctement (sans biais) ce qui se passe dans la population.

• Notion de taille de l'échantillon. Plus un échantillon sera


grand, hétérogène et constitué sans biais de sélection, plus les
informations recueillies à partir de lui seront pertinentes.
Avant de commencer l'enquête, il faut répondre aux questions
suivantes :

- « Qui souhaitons nous interroger ? » ; SOUHAIT


Avant de
commencer - « Qui pouvons nous interroger ? » ; POSSIBILITÉ

l’enquête … - « Qui interrogerons nous finalement ? » et ; DISPONIBILITÉ

- « Comment allons nous les contacter ? ».

Les réponses à ces questions constitueront le plan de sondage.


A. Définitions des populations

Définir la population sur laquelle on souhaite recueillir des informations :


la population cible. Toutefois, celle-ci n'est pas toujours joignable dans
sa globalité.
Plan de
sondage EX : On souhaite réaliser une enquête auprès de la population marocaine
âgée de 20 à 65 ans par entretien téléphonique. La population joignable doit
donc avoir le téléphone. L'échantillon est constitué à partir de la liste
téléphonique (base de sondage). La population ainsi définie sera la
population source de l'enquête (de laquelle est puisée l'échantillon).
B. Base de sondage
Outil permettant d'identifier la population à contacter. La liste peut aussi
contenir des informations annexes utiles pour améliorer la sélection des
individus. Ex : La liste électorale possède des informations sur l'âge et le sexe
de l'individu.
La base de sondage peut être :
▪ une liste (téléphonique, des logements d'une ville, électorale, …)
▪ un découpage géographique (sélection de zone géographique, …)
▪…

Ainsi, lorsque la population est bien définie, les questions à se poser :


o la population est-elle listée quelque part ?
o peut-on l'obtenir directement ou faut-il combiner plusieurs listes ? Ex :
pour lister toutes les infirmières hospitalières d'une région, il faut obtenir la
liste des établissements de santé puis la liste des infirmières / établissement.
C. Taille de l'échantillon (N° sujets nécessaire)
Dépend :
- des critères de contraintes financières et temporelles
- des critères statistiques de précision attendue pour les résultats.
Les formules statistiques à utiliser pour obtenir la taille de l’échantillon
dépendent de l'objectif de l'enquête.

D. Types de sondage
Réfléchir à la manière dont sera réalisé l'échantillonnage. Pour cela, il faut
connaître les différentes possibilités. 2 grandes familles de sondage :
▪ la famille des sondages non probabilistes (ou non aléatoires)
▪ la famille des sondages probabilistes (ou aléatoires)
La 1ère famille ne permet pas de réaliser des inférences (ICs et tests
statistiques) sur la population puisque dans la majorité des cas il n'est pas
possible d'étudier et de maîtriser le biais de sélection réalisé.
Un sondage aléatoire est défini par le fait que chaque individu a une
probabilité connue ( ≠ 0) d’être retenue lors du tirage au sort. Cette
sélection dépend que du hasard, qui régit l'inclusion ou non d'un
Sondages individu dans l'échantillon.
probabilistes
Procédure de sélection :

Utilisés dans les études


La sélection aléatoire peut être réalisée par différents procédés :
épidémiologiques.
• Tirage de tous les éléments :
Il faut :
1. Obtenir la liste de tous les éléments de la population source (base de
sondage)
2. Numéroter les éléments de cette liste de 1 à N
3. Définir la taille de l'échantillon n
4. Tirer au sort n nombres parmi N :
- soit en utilisant un logiciel contenant une procédure de
sélection aléatoire (exemple de la fonction alea disponible dans
le logiciel Excel)
- soit en utilisant les tables de nombres aléatoires disponibles
dans de nombreux ouvrages de statistiques.
• Tirage du premier élément puis sélection systématique des suivants
(= sondage systématique) :
Il faut :
1. Obtenir la liste de tous les éléments de la population source
2. Numéroter les éléments de cette liste de 1 à N
3. Définir la taille de l'échantillon n
4. Tirer au sort les individus sur la liste selon une progression arithmétique :
4.1. calculer le pas de sondage : k = N / n
4.2. choisir un nombre d au hasard entre 1 et k. L’échantillon est
formé des unités d, d+k, d+2k, d+3k ….

Ex : on souhaite réaliser un échantillon de 20 personnes parmi la population


constituée de la clientèle d'un médecin (environ 1000 personnes de plus de
20 ans). Il existe une base de sondage, triée par ordre alphabétique. Le pas
de sondage est de 1000 / 20 = 50 ; un nombre entre 1 et 50 est tiré au sort :
supposons que ce nombre soit 12 ; seront alors inclus dans l’échantillon les
individus ayant comme numéros 12, 62, 112, …, 912 et 962.
1. Sondage aléatoire simple
Lorsque :
- une base de sondage existe (liste numérotée de la population cible)
- chaque individu de la population source peut être associé à un nombre
compris entre 1 et N
- on sélectionne n individus, en tirant au hasard n nombres parmi les N.
Dans ce cas de figure, tous les individus de la population cible ont la
même probabilité d'être dans l’échantillon. Inconvénient : avoir
sélectionné plus d’hommes que de femmes, par exemple.

Exemple 1 : on numérote les


individus d’une population de
2000 personnes de 1 à 2000 et on
tire au sort 100 numéros
Exemple 2 :

Etude de Prévalence des caries dentaires chez les 1200 élèves du niveau Iaire
d'une ville.

Procédure :
 liste de tous les élèves de toutes les écoles

 élèves numérotés de 1 à 1200

 taille d'échantillon = 100 enfants

 tirage aléatoire de 100 numéros entre 1 et 1200

Comment tirer au hasard ?


57172 42088 70098 11333 26902 29959 43909 49607
33883 87680 28923 15659 09839 45817 89405 70743
77950 67344 10609 87119 15859 74577 42791 75889
11607 11596 01796 24498 17009 67119 00614 49529
56149 55678 38169 47228 49931 94303 67448 31286
80719 65101 77729 83949 83358 75230 56624 27549
93809 19505 82000 79068 45552 86776 48980 56684
40950 86216 48161 17646 24164 35513 94057 51834
12182 59744 65695 83710 41125 14291 74773 66391
13382 48076 73151 48724 35670 38453 63154 58116
38629 94576 48859 75654 17152 66516 78796 73099
60728 32063 12431 23898 23683 10853 04038 75246
01881 99056 46747 08846 01331 88163 74462 14551
23094 29831 95387 23917 07421 97869 88092 72201
15243 21100 48125 05243 16181 39641 36970 99522
53501 58431 68149 25405 23463 49168 02048 31522
07698 24181 01161 01527 17046 31460 91507 16050
22921 25930 79579 43488 13211 71120 91715 49881
68127 00501 37484 99278 28751 80855 02035 10910
55309 10713 36439 65660 72554 77021 46279 22705
92034 90892 69853 06175 61221 76825 18239 47687
50612 84077 41387 54107 09190 74305 68196 75634
81415 98504 32168 17822 49946 37545 47201 85224
38461 44528 30953 08633 08049 68698 08759 45611
07556 24587 88753 71626 64864 54986 38964 83534
60557 50031 75829 05622 30237 77795 41870 26300
Avantages :
- Technique simple

- Les connaissances sur la distribution des variables étudiées


dans la population ne sont pas nécessaires.

Inconvénients :
- Nécessite d'une base de sondage : difficile à avoir

- Faisabilité opérationnelle peut parfois poser des problèmes :


unités d'analyse très dispersés sur un vaste territoire

- La proportion des non répondants peut être importante.


2. Sondage systématique

On choisit chaque Kième unité de la population cible ;

K (= Pas de sondage) = Taille population (N) / Taille de l’échantillon (n)

On tire au hasard le point de départ entre « 1 et K » ;

Si K est non entier, on arrondit vers le haut pour le point de départ ;


on ajoute le pas non entier et on arrondit vers le haut à chaque pas.
Exemple :

Etude de Prévalence des caries dentaires chez les élèves d'une ville :
N = 1200 et n = 100
Procédure :

• On calcule le Pas de sondage : K = 1200 / 100 = 12

• On tire au hasard un chiffre entre "1 et 12" (ex : 3)

• 1er élève sélectionné est le n° 3 de la liste

• 2ème est le 3+12= n° 15,

• puis le 15+12 = n° 27 , n° 39, n° 51 …


3 + 12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

46 47 48 49 50 51 52 53 54 55

etc. …
Avantages :

▪ Plus simple et plus rapide à réaliser : plus pratique de visiter


chaque "kième" maison dans un quartier que de visiter des maisons
dispersés (le cas du sondage aléatoire simple).

▪ Brosser la totalité de la base de sondage : quand il y a une


tendance dans la liste des unités de la population cible, ou quand
la liste est rangée par groupes ressemblants.

(ex : classification par ordre d'âge croissant ou décroissant)


Inconvénients :

Problème de représentativité quand l'ordre dans la base de sondage


obéit à un cycle qui correspond au pas de sondage.

➔ L'échantillon systématique va être formé de "pics" ou de "creux".

Ex 1 : étudier la prévalence de la grippe chaque 12ème mois et tirer


le mois 1 ou 7

Ex 2 : pas de sondage de 12, liste classée par famille, familles de 3


membres
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

37 38 39 ....
3. Sondage stratifié
Certaines bases de sondage possèdent des informations annexes. Si on
souhaite tenir compte de ces informations, il faut décomposer la
population source en sous-populations (≈ en strates), puis tirer au sort un
échantillon de chaque strate.
Ex : la liste des infirmiers d'un établissement de santé comprend la variable
« sexe » de l’individu. Il est donc possible de construire l'échantillon en
sélectionnant aléatoirement des individus chez les hommes d’une part et chez
les femmes d’autre part.
Chaque strate est composée d'individus ayant au moins un point commun
(dans l’exemple : le sexe, « critère de stratification ») : la strate est plus
Ex : enquête sur ville, 3 secteurs homogène que ne l'est la population dans sa globalité.
(aisé, classe moyenne, → meilleure représentation de la population.
populaire) puis tirage au sort
dans chacun. → la stratification limite les fluctuations d'échantillonnage.
Avantages :
- Bonne représentativité des sous-groupes de la population
- L'estimation globale (sur la population) est plus précise car les
strates sont généralement plus homogènes
- En plus, on obtient une estimation pour chaque strate.

Inconvénients :
- Perte de précision s'il y a un petit nombre d'unités dans
chaque strate
- Besoin d'informations détaillées sur la population cible selon
les variables de stratification
- Besoin d'une base de sondage pour chaque strate
Que faire si ????
 la population est très grande : difficulté de construire

une base de sondage précise et/ou coût de

construction élevé

 la population est très dispersée : problèmes logistiques

(temps, budget, …)
4. Sondage en grappes
L’ensemble des unités secondaires contenues dans les unités primaires
sélectionnées sont intégrées à l’échantillon : les unités primaires sont des
« grappes » d’unités secondaires.
Ex : on souhaite sélectionner des infirmières exerçant dans des établissements
de santé. En réalisant un sondage en grappes, toutes les infirmières des
établissements sélectionnés seront incluses dans l'échantillon. Avantage : il est
moins difficile d'interroger toutes les infirmières de quelques établissements
que d'interroger quelques infirmières dans tous les établissements.
Avantages :

- Très pratique (pas besoin Base de sondage)

- Economique (le plus largement utilisé)

Inconvénients :

- Moins bonne précision (à cause de la trop forte homogénéité


au sein des grappes )

- Parfois le besoin de doubler la taille d'échantillon


5. Sondage à plusieurs degrés
consiste à réaliser plusieurs niveaux de sondage.
Ex : pour réaliser un échantillon auprès des infirmières hospitalières d'une
région, on peut sélectionner un certain nombre de structures hospitalières à
partir de la liste de tous les établissements de santé. Ensuite, pour chaque
établissement sélectionné, on peut demander à l'administration la liste des
services, et réaliser un sondage aléatoire d'un certain nombre de services.
Enfin, on peut demander à chaque service de fournir la liste des infirmières
du service, et de nouveau réaliser un sondage aléatoire.
Il s’agit d’un sondage à trois degrés (3 niveaux de sélection). On nomme
unités primaires, les établissements (1er niveau), unités secondaires les
services (2e niveau), et unités tertiaires les infirmières (3e niveau).
- Échantillon trop petit : L’étude sera non concluante, aucun résultat
ne sera significatif et il sera impossible de prouver d'éventuelles
associations (intervalle de confiance trop large)

- Echantillon trop grand : Les différences même très minimes


Taille des tendent à être significatives (intervalle de confiance très réduit). Il y
échantillons a une diminution de la qualité des données, en plus de la perte
d'énergie, budget

➔ Impératif de déterminer la taille de l'échantillon nécessaire et


suffisante pour estimer le paramètre désiré avec une précision
donnée.
Echantillon pour estimer une proportion :

( Zα )² x ( p.q )
N=

Valeurs de Zα : pour α = 0,05 Z 0,05 = 1,96


pour α = 0,01 Z 0,01 = 2,575

p = Estimation de la proportion à mesurer, généralement tirée d'études


préliminaires. Quand on n'a aucune idée on peut prendre p = 0,50
q= (1-p)
d = Précision souhaitée de part et d’autre de la proportion; c.-à-d. largeur de
l'intervalle de confiance. 5%, 10%, 20% ...
Echantillon pour comparer deux proportions :

( Zα )² x ( p1q1 + p2q2 )
N=

pour α = 0,05 Zα = 1,96


p1 = proportion escomptée dans le groupe 1.
q1 = ( 1 – p1 ).
p2 = proportion escomptée dans le groupe 2.
q2 = ( 1 – p2 ).
d = précision souhaitée de part et d’autre des proportions.
Echantillon pour estimer une moyenne :

( Zα )² x S²
N=

Zα = 1,96
S² = Variance de la variable, à calculer à partir d'un
échantillon pilote.
Si on n'a aucune idée on prend S = Etendue / 4 (parfois 6) ;
où l'Etendue = ( Valeur Maximale - Valeur Minimale).
d = Précision souhaitée de part et d’autre de la moyenne.
Echantillon pour comparer deux moyennes :

( Zα )² x ( S1² + S2² )
N=

Zα = 1,96

S1² et S2² = Variances respectives des deux groupes

d = Précision souhaitée de part et d’autre des moyennes.


Sources d’information
• Enregistrements à caractère durable ou répétitif (une
structure de données, une collection de champs, possiblement
de différents types de data, typiquement dans un nombre et
séquence fixé.)

• Registres nationaux (un système de traitement


d'informations (base de donnée centrale) qui assure
l'enregistrement, la mémorisation et la communication
d'informations relatives à l'identification des citoyens).

• Recueil des données (un inventaire de tout ce qui concerne le


patient (ses habitudes de vie, ses ressources, son état de santé
…). Ce recueil est structuré et retranscrit sur des supports
consignés dans le dossier de soin.)
Enregistrements durables ou répétitifs :
 Statistiques de mortalité
(Déclaration du décès obligatoire, Enregistrement
des décès dans le cadre de l’état civil).
 Déclarations obligatoires
(Déclaration à objectif opérationnel (en vue d’agir),
Maladies transmissibles ou non transmissibles,
Certificats de santé des enfants).
 Organismes de soins et médico-administratifs
(Caractère non exhaustif dans la mesure où les
enregistrements sont limités à leur clientèle).
 Réseaux de médecins sentinelles
(Médecins volontaires réalisant des enregistrements
de leurs consultations, dans le but de renforcer la
veille sanitaire du pays, détecter et alerter
précocement de la survenue d’épidémie régionale
et/ou nationale et, détecter et étudier les
déterminants de ces pathologies (grippe clinique,
gastro-entérites, hépatites, etc.).
 Registres de morbidité
(Enregistrement continu et exhaustif des
informations provenant de plusieurs sources
concernant une pathologie donnée dans une zone
géographique donnée).
 Les déterminants de l’état de santé
- - Statistiques démographiques
- - Statistiques sur l’environnement physique (climat,
pollution atmosphérique, composition de l’eau …)
- - Statistiques sociales et économiques (informations
sur l’emploi, la production …)
- - Ressources sanitaires et consommations médicales
(statistiques des organismes de soins et de
prévention).
 Déclaration des décès
 Déclaration des maladies (système de notification obligatoire des
maladies)
 Déclaration des épidémies (surveillance épidémiologique dans la
population)
 Rapports des investigations des épisodes épidémiques
Sources  Rapport des enquêtes autour des cas
d’information  Système de surveillance par les laboratoires (déclaration sur rapports)
les plus  Système de surveillance hospitalier
usuelles  Etudes épidémiologiques
 Information sur la distribution des réservoirs et des vecteurs
 Information sur la distribution des médicaments
 Données démographiques
 Données environnementales
 Informations publiques et médiatiques
… Qui peuvent être classées en quatre grands groupes :

- Les sources à vocation exhaustive. Le plus souvent issues de


fichiers administratifs ou de gestion (des hôpitaux, de
l’assurance maladie, les données de mortalité à partir des
certificats de décès et les données issues des systèmes de
déclaration obligatoire).
- Les grandes enquêtes nationales en population générale
(déclaratives ou avec examen et/ou prélèvement). On peut
également mentionner le recensement général de la
population qui permet de travailler sur de nombreux
indicateurs à divers niveaux géographiques et permet
également des redressements d’échantillon.
- Les réseaux de surveillance à partir de données issues
d’échantillons de professionnels de santé.
- Les grandes enquêtes nationales auprès des professionnels et
structures de soins
▪ PASSIVE
Acheminement des informations sans intervention
Méthodes de des services responsables de la surveillance
recueil des
données ▪ ACTIVE
Recueil direct des données au niveau de la
structure source d’information
▪ EXHAUSTIF
Recherche dans l’ensemble de la population
d’intérêt.

Type de ▪ SENTINELLE
surveillance -- Par réseau (services, cliniques, cabinets,
laboratoires). La déclaration se fait à intervalles de
temps réguliers.
-- Par site. La surveillance est limitée dans le temps
et l’espace et est répétée régulièrement à la même
période de l’année (VIH+).
▪ Le système d’information sanitaire est guidé par
un plan national revu en 2005, qui vise à :
- promouvoir la connaissance de l’information
sanitaire ;
- mettre en place des méthodes modernes
Au Maroc … pour le recueil de données ;
- rationaliser l’organisation et la gestion
d’informations de qualité, et;
- veiller à la qualité et à la comparabilité des
données.
▪ Le Maroc dispose :
- - d’un système national d’information sanitaire (SNIS)
de routine qui couvre toutes les prestations de soins
primaires et hospitalières.
- - de deux registres de maladies non transmissibles : le
registre de population sur cancer basé à Rabat et
Casablanca et qui rassemble des données très
complètes ; ainsi que le registre de l’insuffisance rénale
chronique appelé MAGREDIAL (Maroc greffe dialyse)
mis en place dans 9 régions du Maroc.
- - de deux autres registres au niveau du centre
antipoison et de pharmacovigilance se rapportant à la
surveillance des piqures et envenimations
scorpioniques et à la pharmacovigilance (établi en
2001).
1-Monitoring ( fiches, rapports, registres…). Un processus
systématique du recueil, de l’analyse et de l’utilisation
d’information visant à déterminer en continu les progrès
d’un programme pour réaliser ses objectifs et guider les
Principales décisions relatives à sa gestion.
sources
2-Études et enquêtes
d’information
au Maroc 3-Extra santé : HCP (La projection de la population selon
l’âge, le sexe, milieu de résidence. Ces données sont la base
du calcul des objectifs des différents programmes de santé :
Programme National d’immunisation (PNI) , Programme
National de Planification Familiale (PF)….).
Méthodologie de gestions de l’information selon
les étapes :
1- Collecte des données
2- Compilation
3- Traitement et analyse
4- Transfert au niveau supérieur
5- Prendre une décision
6- Rétro-information (Données décrivant les résultats
de la décision prise et servant à déterminer la situation
réelle et l'écart par rapport à une prévision, de façon à
pouvoir lancer une mesure corrective.)
- Les données sur la santé ont un caractère confidentiel.

- Il est essentiel de réunir, de traiter et d'utiliser les


A noter que … informations en matière de santé dans le cadre d'un

système dûment contrôlé qui permettra de protéger la

vie privée du sujet.


o Il n'y a pas une seule méthode de sondage pour répondre
à une question donnée : plusieurs méthodes peuvent être
proposées, chacune ayant ses avantages et ses
inconvénients, d'ordre statistique ou de faisabilité.

Conclusions o Tout doit être pris en considération pour choisir le meilleur


plan de sondage.

o Le choix de la source d’information dépend


principalement du phénomène à étudier, du type d’étude
et de l’objectif de l’étude.

Vous aimerez peut-être aussi