Vous êtes sur la page 1sur 37

Echantillonnage Pr. F.

HADRYA
BIOSTATISTIQUE DE LA SANTE PUBLIQUE Adresse électronique :
fatinehadrya@yahoo.fr
Objectifs  Présenter le contexte général de l'échantillonnage
pédagogiques Pouvoir calculer la taille d'échantillon
Echantillonnage : le procédé de sélectionner un sous-ensemble de la
population, pour être son représentant

Univers d’échantillonnage : la population cible par rapport à laquelle les


conclusions d’une recherche s’appliquent

Échantillon : un sous ensemble choisi dans la population

Définitions Unité d’échantillonnage (unité d’analyse) : l’unité par rapport à laquelle


les conclusions d’une recherche s’appliquent (ex : individu, objet, …)

Cadre de l’échantillonnage (base de sondage) : la liste ou le fichier


permettant de repérer tous les individus de la population cible

Fraction d’échantillonnage (taux de sondage (noté f)) :


Taille de l’échantillon / taille de la population cible …. soit : n/N
Introduction
Plus économique : temps, argent, énergie humaine

Une étude exhaustive est inutile : car, à partir d’un certain


Pourquoi un nombre d’observations (taille de l’échantillon), il n’y a plus
échantillon ? de variations de l’estimation des paramètres mesurés.

Estimation des vrais Paramètres populationnels (Inférence)

Plus précis : moins d’observation  moins d’erreurs


L’échantillon doit
être l’image réduite,
mais fidèle de la
population cible.
• Notion de représentativité. Il faut que l'échantillon présente
la pluralité des caractéristiques de la population d'étude.

Un échantillon sera dit représentatif de la population si les

Un échantillon résultats obtenus à partir de l'échantillon estiment

satisfaisant ? correctement (sans biais) ce qui se passe dans la population.

• Notion de taille de l'échantillon. Plus un échantillon sera


grand, hétérogène et constitué sans biais de sélection, plus les
informations recueillies à partir de lui seront pertinentes.
Avant de commencer l'enquête, il faut répondre aux questions
suivantes :

- « Qui souhaitons nous interroger ? » ; SOUHAIT


Avant de
commencer - « Qui pouvons nous interroger ? » ; POSSIBILITÉ

l’enquête … - « Qui interrogerons nous finalement ? » et ; DISPONIBILITÉ

- « Comment allons nous les contacter ? ».

Les réponses à ces questions constitueront le plan de sondage.


A. Définitions des populations

Définir la population sur laquelle on souhaite recueillir des informations :


la population cible. Toutefois, celle-ci n'est pas toujours joignable dans
sa globalité.
Plan de
sondage EX : On souhaite réaliser une enquête auprès de la population marocaine
âgée de 20 à 65 ans par entretien téléphonique. La population joignable doit
donc avoir le téléphone. L'échantillon est constitué à partir de la liste
téléphonique (base de sondage). La population ainsi définie sera la
population source de l'enquête (de laquelle est puisée l'échantillon).
B. Base de sondage
Outil permettant d'identifier la population à contacter. La liste peut aussi
contenir des informations annexes utiles pour améliorer la sélection des
individus. Ex : La liste électorale possède des informations sur l'âge et le sexe
de l'individu.
La base de sondage peut être :
 une liste (téléphonique, des logements d'une ville, électorale, …)
 un découpage géographique (sélection de zone géographique, …)
…

Ainsi, lorsque la population est bien définie, les questions à se poser :


o la population est-elle listée quelque part ?
o peut-on l'obtenir directement ou faut-il combiner plusieurs listes ? Ex :
pour lister toutes les infirmières hospitalières d'une région, il faut obtenir la
liste des établissements de santé puis la liste des infirmières / établissement.
C. Taille de l'échantillon (N° sujets nécessaire)
Dépend :
- des critères de contraintes financières et temporelles
- des critères statistiques de précision attendue pour les résultats.
Les formules statistiques à utiliser pour obtenir la taille de l’échantillon
dépendent de l'objectif de l'enquête.

D. Types de sondage
Réfléchir à la manière dont sera réalisé l'échantillonnage. Pour cela, il faut
connaître les différentes possibilités. 2 grandes familles de sondage :
 la famille des sondages non probabilistes (ou non aléatoires)
 la famille des sondages probabilistes (ou aléatoires)
La 1ère famille ne permet pas de réaliser des inférences (ICs et tests
statistiques) sur la population puisque dans la majorité des cas il n'est pas
possible d'étudier et de maîtriser le biais de sélection réalisé.
Un sondage aléatoire est défini par le fait que chaque individu a une
probabilité connue ( ≠ 0) d’être retenue lors du tirage au sort. Cette
sélection dépend que du hasard, qui régit l'inclusion ou non d'un
Sondages individu dans l'échantillon.
probabilistes
Procédure de sélection :

La sélection aléatoire peut être réalisée par différents procédés :


Utilisés dans les études
épidémiologiques.
• Tirage de tous les éléments :
Il faut :
1. Obtenir la liste de tous les éléments de la population source (base de
sondage)
2. Numéroter les éléments de cette liste de 1 à N
3. Définir la taille de l'échantillon n
4. Tirer au sort n nombres parmi N :
- soit en utilisant un logiciel contenant une procédure de
sélection aléatoire (exemple de la fonction alea disponible dans
le logiciel Excel)
- soit en utilisant les tables de nombres aléatoires disponibles
dans de nombreux ouvrages de statistiques.
• Tirage du premier élément puis sélection systématique des suivants
(= sondage systématique) :
Il faut :
1. Obtenir la liste de tous les éléments de la population source
2. Numéroter les éléments de cette liste de 1 à N
3. Définir la taille de l'échantillon n
4. Tirer au sort les individus sur la liste selon une progression arithmétique :
4.1. calculer le pas de sondage : k = N / n
4.2. choisir un nombre d au hasard entre 1 et k. L’échantillon est
formé des unités d, d+k, …, d+(n-1)k.

Ex : on souhaite réaliser un échantillon de 20 personnes parmi la population


constituée de la clientèle d'un médecin (environ 1000 personnes de plus de
20 ans). Il existe une base de sondage, triée par ordre alphabétique. Le pas
de sondage est de 1000 / 20 = 50 ; un nombre entre 1 et 50 est tiré au sort :
supposons que ce nombre soit 12 ; seront alors inclus dans l’échantillon les
individus ayant comme numéros 12, 62, 112, …, 912 et 962.
1. Sondage aléatoire simple
Lorsque :
- une base de sondage existe (liste numérotée de la population cible)
- chaque individu de la population source peut être associé à un nombre
compris entre 1 et N
- on sélectionne n individus, en tirant au hasard n nombres parmi les N.
Dans ce cas de figure, tous les individus de la population cible ont la
même probabilité d'être dans l’échantillon. Inconvénient : avoir
sélectionné plus d’hommes que de femmes, par exemple.

Exemple 1 : on numérote les


individus d’une population de
2000 personnes de 1 à 2000 et on
tire au sort 100 numéros
Exemple 2 :

Etude de Prévalence des caries dentaires chez les 1200 élèves du niveau Iaire
d'une ville.

Procédure :
 liste de tous les élèves de toutes les écoles

 élèves numérotés de 1 à 1200

 taille d'échantillon = 100 enfants

 tirage aléatoire de 100 numéros entre 1 et 1200

Comment tirer au hasard ?


57172 42088 70098 11333 26902 29959 43909 49607
33883 87680 28923 15659 09839 45817 89405 70743
77950 67344 10609 87119 15859 74577 42791 75889
11607 11596 01796 24498 17009 67119 00614 49529
56149 55678 38169 47228 49931 94303 67448 31286
80719 65101 77729 83949 83358 75230 56624 27549
93809 19505 82000 79068 45552 86776 48980 56684
40950 86216 48161 17646 24164 35513 94057 51834
12182 59744 65695 83710 41125 14291 74773 66391
13382 48076 73151 48724 35670 38453 63154 58116
38629 94576 48859 75654 17152 66516 78796 73099
60728 32063 12431 23898 23683 10853 04038 75246
01881 99056 46747 08846 01331 88163 74462 14551
23094 29831 95387 23917 07421 97869 88092 72201
15243 21100 48125 05243 16181 39641 36970 99522
53501 58431 68149 25405 23463 49168 02048 31522
07698 24181 01161 01527 17046 31460 91507 16050
22921 25930 79579 43488 13211 71120 91715 49881
68127 00501 37484 99278 28751 80855 02035 10910
55309 10713 36439 65660 72554 77021 46279 22705
92034 90892 69853 06175 61221 76825 18239 47687
50612 84077 41387 54107 09190 74305 68196 75634
81415 98504 32168 17822 49946 37545 47201 85224
38461 44528 30953 08633 08049 68698 08759 45611
07556 24587 88753 71626 64864 54986 38964 83534
60557 50031 75829 05622 30237 77795 41870 26300
Avantages :
- Technique simple

- Les connaissances sur la distribution des variables étudiées


dans la population ne sont pas nécessaires.

Inconvénients :
- Nécessite d'une base de sondage : difficile à avoir

- Faisabilité opérationnelle peut parfois poser des problèmes :


unités d'analyse très dispersés sur un vaste territoire

- La proportion des non répondants peut être importante.


2. Sondage systématique

On choisit chaque Kième unité de la population cible ;

K (= Pas de sondage) = Taille population (N) / Taille de l’échantillon (n)

On tire au hasard le point de départ entre « 1 et K » ;

Si K est non entier, on arrondit vers le haut pour le point de départ ;


on ajoute le pas non entier et on arrondit vers le haut à chaque pas.
Exemple :

Etude de Prévalence des caries dentaires chez les élèves d'une ville :
N = 1200 et n = 100
Procédure :

• On calcule le Pas de sondage : K = 1200 / 100 = 12

• On tire au hasard un chiffre entre "1 et 12" (ex : 3)

• 1er élève sélectionné est le n° 3 de la liste

• 2ème est le 3+12= n° 15,

• puis le 15+12 = n° 27 , n° 39, n° 51 …


3 + 12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

46 47 48 49 50 51 52 53 54 55

etc. …
Avantages :

 Plus simple et plus rapide à réaliser : plus pratique de visiter


chaque "kième" maison dans un quartier que de visiter des maisons
dispersés (le cas du sondage aléatoire simple).

 Brosser la totalité de la base de sondage : quand il y a une


tendance dans la liste des unités de la population cible, ou quand
la liste est rangée par groupes ressemblants.

(ex : classification par ordre d'âge croissant ou décroissant)


Inconvénients :

Problème de représentativité quand l'ordre dans la base de sondage


obéit à un cycle qui correspond au pas de sondage.

 L'échantillon systématique va être formé de "pics" ou de "creux".

Ex 1 : étudier la prévalence de la grippe chaque 12ème mois et tirer


le mois 1 ou 7

Ex 2 : pas de sondage de 12, liste classée par famille, familles de 3


membres
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

37 38 39 ....
3. Sondage stratifié
Certaines bases de sondage possèdent des informations annexes. Si on
souhaite tenir compte de ces informations, il faut décomposer la
population source en sous-populations (≈ en strates), puis tirer au sort un
échantillon de chaque strate.
Ex : la liste des infirmiers d'un établissement de santé comprend la variable
« sexe » de l’individu. Il est donc possible de construire l'échantillon en
sélectionnant aléatoirement des individus chez les hommes d’une part et chez
les femmes d’autre part.
Chaque strate est composée d'individus ayant au moins un point commun
(dans l’exemple : le sexe, « critère de stratification ») : la strate est plus
Ex : enquête sur ville, 3 secteurs homogène que ne l'est la population dans sa globalité.
(aisé, classe moyenne,  meilleure représentation de la population.
populaire) puis tirage au sort
dans chacun.  la stratification limite les fluctuations d'échantillonnage.
Avantages :
- Bonne représentativité des sous-groupes de la population
- L'estimation globale (sur la population) est plus précise car les
strates sont généralement plus homogènes
- En plus, on obtient une estimation pour chaque strate.

Inconvénients :
- Perte de précision s'il y a un petit nombre d'unités dans
chaque strate
- Besoin d'informations détaillées sur la population cible selon
les variables de stratification
- Besoin d'une base de sondage pour chaque strate
Que faire si ????
 la population est très grande : difficulté de construire

une base de sondage précise et/ou coût de

construction élevé

 la population est très dispersée : problèmes logistiques

(temps, budget, …)
4. Sondage en grappes
L’ensemble des unités secondaires contenues dans les unités primaires
sélectionnées sont intégrées à l’échantillon : les unités primaires sont des
« grappes » d’unités secondaires.
Ex : on souhaite sélectionner des infirmières exerçant dans des établissements
de santé. En réalisant un sondage en grappes, toutes les infirmières des
établissements sélectionnés seront incluses dans l'échantillon. Avantage : il est
moins difficile d'interroger toutes les infirmières de quelques établissements
que d'interroger quelques infirmières dans tous les établissements.
Avantages :

- Très pratique (pas besoin Base de sondage)

- Economique (le plus largement utilisé)

Inconvénients :

- Moins bonne précision (à cause de la trop forte homogénéité


au sein des grappes )

- Parfois le besoin de doubler la taille d'échantillon


5. Sondage à plusieurs degrés
consiste à réaliser plusieurs niveaux de sondage.
Ex : pour réaliser un échantillon auprès des infirmières hospitalières d'une
région, on peut sélectionner un certain nombre de structures hospitalières à
partir de la liste de tous les établissements de santé. Ensuite, pour chaque
établissement sélectionné, on peut demander à l'administration la liste des
services, et réaliser un sondage aléatoire d'un certain nombre de services.
Enfin, on peut demander à chaque service de fournir la liste des infirmières
du service, et de nouveau réaliser un sondage aléatoire.
Il s’agit d’un sondage à trois degrés (3 niveaux de sélection). On nomme
unités primaires, les établissements (1er niveau), unités secondaires les
services (2e niveau), et unités tertiaires les infirmières (3e niveau).
- Échantillon trop petit : L’étude sera non concluante, aucun résultat
ne sera significatif et il sera impossible de prouver d'éventuelles
associations (intervalle de confiance trop large)

- Echantillon trop grand : Les différences même très minimes


Taille des tendent à être significatives (intervalle de confiance très réduit). Il y
échantillons a une diminution de la qualité des données, en plus de la perte
d'énergie, budget

 Impératif de déterminer la taille de l'échantillon nécessaire et


suffisante pour estimer le paramètre désiré avec une précision
donnée.
Echantillon pour estimer une proportion :

( Zα )² x ( p.q )
N=

Valeurs de Zα : pour α = 0,05 Z 0,05 = 1,96


pour α = 0,01 Z 0,01 = 2,575

p = Estimation de la proportion à mesurer, généralement tirée d'études


préliminaires. Quand on n'a aucune idée on peut prendre p = 0,50
q= (1-p)
d = Précision souhaitée de part et d’autre de la proportion; c.-à-d. largeur de
l'intervalle de confiance. 5%, 10%, 20% ...
Echantillons pour comparer deux proportions :

( Zα )² x ( p1q1 + p2q2 )
N1 = N2 =

pour α = 0,05 Zα = 1,96


p1 = proportion escomptée dans le groupe 1.
q1 = ( 1 – p1 ).
p2 = proportion escomptée dans le groupe 2.
q2 = ( 1 – p2 ).
d = précision souhaitée de part et d’autre des proportions.
Echantillon pour estimer une moyenne :

( Zα )² x S²
N=

Zα = 1,96
S² = Variance de la variable, à calculer à partir d'un
échantillon pilote.
Si on n'a aucune idée on prend S = Etendue / 4 (parfois 6) ;
où l'Etendue = ( Valeur Maximale - Valeur Minimale).
d = Précision souhaitée de part et d’autre de la moyenne.
Echantillons pour comparer deux moyennes :

( Zα )² x ( S1² + S2² )
N1 = N2 =

Zα = 1,96

S1² et S2² = Variances respectives des deux groupes

d = Précision souhaitée de part et d’autre des moyennes.


o Il n'y a pas une seule méthode de sondage pour répondre à une
question donnée : plusieurs méthodes peuvent être proposées,
chacune ayant ses avantages et ses inconvénients, d'ordre
Conclusion statistique ou de faisabilité.

o Tout doit être pris en considération pour choisir le meilleur plan


de sondage.