Vous êtes sur la page 1sur 49

Collecte de donnes

F. Kohler

Gnralits
Recensement

/ Echantillonnage
Recensement : Tous les sujets de la
population sont examins

Population

Echantillonnage : Une partie des


sujets de la population sont
examins
Plusieurs chantillons peuvent tre
constitus
Lchantillon en lui-mme nest pas
intressant, ce sont les conclusions
sur la population que lon peut tirer de
son observation qui en font lintrt :
Infrence

tapes pour slectionner un


chantillon
tablir

les objectifs de lenqute

valuer les avantages et les inconvnients dun


recensement par rapport un chantillon ou
lutilisation de dossiers administratifs

tapes pour slectionner


un chantillon

Dfinir la population cible

Cest la population totale pour laquelle on a besoin de


linformation
Il faut dfinir les units qui composent la population sous
forme de caractristiques les identifiant :
Nature des donnes dont on a besoin : sur des personnes,
des hpitaux
Emplacement gographique : primtre gographique
(rgion, canton)
Priode de rfrence : Date
Autres caractristiques dont on veut pouvoir tenir compte :
caractristiques sociodmographiques par exemple

tapes pour slectionner


un chantillon

Dterminer les donnes recueillir :

Dfinition des termes


Libell des questions
Dfinitions des mthodes de mesures
Sassurer que les exigences de lenqute seront
respectes sur le plan oprationnel

Fixer le degr de prcision

Il y a un degr dincertitude associ aux estimations


tablies partir dun chantillon qui dpend notamment de
la mthode dchantillonnage et de la taille de lchantillon
Quel degr peut-on accepter ?
Il faut tablir un compromis entre le degr dincertitude et le
budget disponible pour lenqute

La population observe
La

population cible est dfinie partir des


lments prcdant
Lenqute prend en compte une population
diffrente : la population observe :

Certains membres de la population cible ne sont


pas observs par exemple du fait du cot de la
collecte des donnes

Les

conclusions ne sappliqueront qu la
population rellement observe

La base de sondage
Permet

davoir accs la population


Deux types
Les nomenclatures
Liste de noms et dadresses qui
donnent directement accs
des units
Exemple :
Liste dhpitaux
Liste des tudiants inscrits
en mdecine
Registre des entres

Les bases alatoires


Liste de rgions qui donnent
accs indirectement des units
Exemple :
Quartier dune ville
Service dun hpital

La base de sondage
Doit

tre complte et jour


Aucun membre de la population observe ne
devrait en tre exclu ni y tre reprsent
plusieurs fois
Aucune unit ne faisant pas partie de la
population ne doit y figurer (dcd)

Les units denqute


Lunit

Fait partie de la base de sondage


Peut tre ou non slectionne

Lunit

dclarante

Fournit linformation quexige lenqute

Lunit

dchantillonnage

danalyse ou de rfrence

Cest lunit au sujet de laquelle linformation est


fournie

Exemple
Enqute

Unit dchantillonnage :

Mnage

Unit dclarante

sur les nouveau-ns

Lun des deux parents ou le tuteur

Unit danalyse

Le nouveau-n

La taille de lchantillon
Est

souvent un compromis entre le degr de


prcision atteindre et le budget de lenqute
mais aussi dautre contraintes oprationnelle
comme le temps disponible
Repose notamment sur :

La variabilit des caractristiques que lon mesure


La taille de la population
Les mthodes dchantillonnage et destimation

Deux approches pour


construire un chantillon

Mthodes alatoires

Mthodes non alatoires

(probabiliste)

(non probabiliste)

Chaque unit a une


chance que lon peut
quantifier dtre
slectionne

Les mthodes alatoires


Lchantillon

alatoire simple
Lchantillonnage systmatique
Lchantillonnage avec une probabilit
proportionnelle la taille
Lchantillonnage stratifi
Lchantillonnage en grappes
Lchantillonnage plusieurs degrs
Lchantillonnage plusieurs phases

Lchantillonnage alatoire
simple
consiste

choisir des individus de telle sorte


que chaque membre de la population a une
chance gale de figurer dans lchantillon.
Ce choix peut se faire avec remise ou sans
remise :

Avec remise, un individu peut tre choisi


plusieurs fois
Sans remise, un individu dj choisi ne peut
ltre de nouveau. Cest le cas habituel.

Lchantillonnage alatoire
simple
Avantage

de cette mthode : On peut


esprer un chantillon reprsentatif
puisque la mthode donne chaque individu
de la population une chance gale.

Difficults

: la mthode nest applicable que


lorsquil existe une liste exhaustive de toute
la population.

Comment procder ?

A- Procdure gnrale
1. On numrote tous les individus de la liste correspondant
aux individus de la population avec des nombres
comportant un mme nombre de chiffres.
2. En utilisant une table de nombres alatoires, une
calculatrice ou un programme informatique, on obtient
des nombres alatoires comportant le nombre de
chiffres dsir.
3. On slectionne les nombres qui concident avec la liste.
On rejette les nombres qui ne concident pas avec la
liste ou qui se rptent, on sarrte aprs avoir
slectionn n individus
(n reprsentant le nombre dindividus souhaits
dans lchantillon).

Comment procder ?

Avec Excel

Premire colonne : identifie avec un nombre chaque


individu de la liste de rfrence.
Deuxime colonne : =alea()
Recopier les deux colonnes en valeur la mme place.
Trier les deux colonnes en fonction de lordre croissant (ou
dcroissant) de la deuxime colonne.
Retenir les n premiers individus dans la colonne 1

Application:

Choisir au hasard un chantillon de 10 personnes parmi


les individus numrots de 100 199 dune population de
100 individus

Combien peut-on raliser


dchantillon ?

Si lon note n la taille de lchantillon et N la


taille de la population.
Avec remise :

Sans remise

N!
C
n!( N n)!
n
N

Calcul de la probabilit
dinclusion

Dans tout sondage taille fixe n, si on Pi la


probabilit qua lindividu i dtre prsent dans
lchantillon et si on note N la taille de la
N
population, on a

P n
i 1

Si p(s) est la probabilit de tirer lchantillons,


alors on obtient Pi par

p( s)

P
i

s i

Dans un sondage alatoire simple

n
Pi N

<= Fraction de sondage

Lchantillonnage
systmatique
Lchantillonnage

systmatique est une


mthode qui exige aussi lexistence dune
liste de la population o chaque individu est
numrot de 1 jusqu N.
Notons n, le nombre dindividus que doit
comporter lchantillon (la taille de
lchantillon). Lentier voisin de N/n sera not
r et appel raison de sondage ou pas de
sondage.

Lchantillonnage
systmatique
Pour

Choisir au hasard un entier naturel d entre 1 et r


(cet entier sera le point de dpart),

constituer lchantillon il faut :

Lindividu dont le numro correspond d est le


premier individu,

Pour slectionner les autres, il suffit dajouter d la


raison de sondage : les individus choisis seront
alors ceux dont les numros correspondent

d+r
d + 2r
d + 3r
etc.

Lchantillonnage
systmatique

Avantages : facile slectionner parce quun seul


individu est choisi au hasard.
On peut obtenir une bonne prcision parce que la
mthode permet de rpartir lchantillon dans
lensemble de la liste.
Dsavantages : Les donnes peuvent tre biaises
cause de la priodicit.
Application : tudier les dplacements par autobus
sur 365 jours en prenant un chantillon de taille 60.
(N=365 jours et n=60).

Lchantillonnage
systmatique

Remarques

On a une population de 400 individus, on veut un


chantillon de 100 individus
R=4
On a donc que 4 chantillons possibles

1, 5, 9, . 397
2, 6, 10, 398
3, 7, 11, .399
4, 8, 12, 400

Si la population est distribue au hasard dans la base de


sondage, un chantillonnage systmatique donnera des
rsultats similaire ceux dun chantillonnage alatoire
simple
Cette mthode est trs utilise dans les contrles de qualit

Lchantillonnage avec une


probabilit proportionnelle la
taille
Si

la base de sondage renferme de


linformation sur la taille de chaque unit
(comme le nombre de mdecins dun hpital)
et si la taille des ces unit varie, on peut
utiliser cette information pour accrotre
lefficacit de lchantillonnage.
Plus la taille de lunit est grande, plus sa
chance dtre incluse dans lchantillon est
leve

Lchantillonnage stratifi
Dmarche

de slection :

1. On subdivise la population en strates (groupes


relativement homognes) qui sont mutuellement
exclusives
2. Proportionnellement son importance dans la
population, on calcule combien il faut dindividus
au sein de lchantillon pour reprsenter chaque
strate.
3.Dans chacune des strates, on choisit au hasard
le nombre ncessaire dindividus

Lchantillonnage stratifi
Les

variables de starification doivent tre :

Simple utiliser
Facile observer
troitement relies au thme de lenqute

Lchantillonnage stratifi

Avantages : Il est peu probable de choisir un chantillon absurde


puisquon sassure de la prsence proportionnelle de tous les divers
sous-groupes composant la population.

Dsavantages : La mthode suppose lexistence dune liste de la


population. Il faut aussi connatre comment cette population se
rpartit selon certaines strates.

Exemple : choisir par chantillonnage stratifi 10 tudiants dans un


groupe de 60, en tenant compte du fait que 50% dentre eux sont en
PCEM1, 30% en PCEM2 et 20% en DCEM1.

Lchantillonnage stratifi
La variance totale est la somme de la variance
intrastrate et de la variance interstrate.
On cherche a avoir la plus petite variance
intrastrate et une grande variance interstrate

Estimation

Echantillonnage alatoire simple intrastrate


Moyenne gnrale :
H = Nombre de strates

^
H
Nh
Y ST
*Y h
h 1 N

Prcision

2
^
2
H
N
S

V (YST ) h * (1 f h ) * h
nh
h 1 N

Avec :

fh = taux de sondage dans la strate h


nh = taille de lchantillon de la strate h
S2h = dispersion vraie au sein de la strate h

Application numrique

On dispose de 1060 hpitaux. On sintresse au nombre moyen Y de mdecins


par hpital. La population est dfinie par 5 strates par tranches de taille en
fonction du nombre de mdecins. Cette information est obtenue partir de
documents de lAGHN ne donnant pas le nombre exact de mdecins mais
seulement la tranche de taille. Ralisant un sondage alatoire simple dans
chaque strate h selon un budget permettant denquter globalement 300
hpitaux, on mesure yh et la dispersion Sh2 de la variable nombre de mdecins
dans lchantillon des hpitaux tirs. Les allocations par strates sont donnes
dans la dernire colonne du tableau.

Tranche de taille

Nh

Yh (moyenne)

Sh2

nh

0-9

500

1,5

130

10-19

300

12

4,0

80

20-49

150

30

8,0

60

50-499

100

150

100,0

25

10

600

2 500,0

500 et plus

Application numrique

Quel est lestimateur de Y, et quelle est sa


prcision ?

^
H
Nh
Y ST
*Y h
h 1 N

2
^
H
S h2
Nh
V (YST )
* (1 f h ) *
nh
h 1 N

Application numrique

Quelle serait lallocation proportionnelle ?

Lchantillonnage par grappes

Dans les mthodes prcdentes, lunit statistique


tait choisie individuellement.
La technique de lchantillonnage en grappes
entrane la division de la population en groupes ou
grappes.
On slectionne au hasard un certain nombre de
grappes (units primaires) pour reprsenter la
population.
On slectionne tous les individus des grappes
choisies

Lchantillonnage par grappes

Avantages : la mthode ne ncessite pas une liste globale de la


population puisque seules les individus inclus dans les grappes
comptent. Elle permet de limiter lchantillon des groupes
compacts ce qui permet de rduire les cots de dplacement, de
suivi et de supervision.

Dsavantage : la mthode peut entraner des rsultats imprcis


(moins prcis que les mthodes prcdentes) puisque les units
voisines ont tendance se rassembler. Elle ne permet pas de
contrler la taille finale de lchantillon.

Exemple : Choisir par grappes 600 individus laide dun certain


nombre de mnages.

Lchantillonnage plusieurs
degrs

Ressemble lchantillonnage en grappes, sauf que


dans ce cas on prlve un chantillon lintrieur de
chaque grappe
On a au moins deux degrs

On identifie au premier les grandes grappes (units


primaires). Ces grappes renferment plus dunits quil nen
faut dans lchantillon
Au second degr, lintrieur de chaque grappes, on
slectionne les units (units secondaires) qui vont faire
partie de lchantillon

On peut utiliser plus de 2 degrs :

Niveau 1 : Ville
Niveau 1 : tablissement de sant
Niveau 3 : Mdecins

Lchantillonnage plusieurs
degrs
Avantage

: chantillon plus concentr ce qui


rduit les cots, pas besoin de disposer de la
liste de toutes les units. La mthode permet
de contrler la taille de lchantillon
notamment par stratification.

Dsavantage

: prcision des rsultats

Lchantillonnage plusieurs
phases
Les

donnes de base sont collectes auprs


dun chantillon dunit de grande taille,
ensuite pour un sous-chantillon de ces
units, la collecte des donnes est plus
dtaille.
Le plus couramment on utilise deux phase ou
chantillonnage double

Lchantillonnage plusieurs
phases

Exemple : on a besoin dinformation sur les leveurs


de btail. Dans la base de sondage sont numrs
les type dexploitation agricoles : btail, grains, porc,
volaille, fruit lgumes. mais on ny aucune donne
auxiliaire.

On pourrait mener un enqute sur un premier chantillon


de grande taille dont la seule question serait Vous
consacrez vous en totalit au btail ?
Puis sur la slection des leveurs uniquement de btail on
extrait un second chantillon plus petit que le premier
auquel on pose des questions dtailles.

Mthodes empirique ou non


alatoires

On oppose aux mthodes alatoires les mthodes


non alatoires.
Les mthodes non alatoires sont des mthodes o
le concept de chance gale est absent. Ce sont
des mthodes gnralement peu fiables.
Elles ne ncessite pas de base de sondage
Elles sont souvent utilises

pour des tudes exploratoires;


pour rduire les cots;
quand il est impossible ou non envisageable dutiliser la
mthode alatoire.

Mthodes non alatoires

On distingue :
lchantillonnage laveuglette ou de commodit : Ex.: ..
Dguster un chantillon de vin.
Lchantillonnage de volontaires : Ex : Expriences mdicales
ou psychologiques.
Lchantillonnage au jug : cette mthode implique la slection
dindividus en fonction de lide quon se fait de la composition de
la population. On le fait pour des essais auprs des groupes
cibles.
Lchantillonnage par quotas : il est largement utilis dans les
enqutes dopinion et les tudes de march notamment parce
quil ne suppose pas de liste des individus de la population. On
parle aussi dchantillonnage dirig ou par choix raisonn. On
demande aux enquteurs de faire un nombre dentrevues dans
divers groupes tablis en fonction du secteur gographique, de
lge, du sexe ou dautres caractristiques Lenquteur doit
respecter son quota.

Mthodes non alatoires


Avantages

: Moins coteuse et plus facile

raliser.
Dsavantages:

Beaucoup de non-rponses;
difficult de trancher lorsquil sagit de
slectionner des individus dun groupe dge
ouvert (Ex : 65 ans et plus : faut-il prendre 66
ans, 70 ans ).

Les erreurs
Les

mthodes dchantillonnage peuvent tre


sources derreurs. Un certain nombre
derreurs pourront tre limines, certaines
pourront tre rduites, mais dautres
persisteront.

Les erreurs dues aux


instruments de mesure
Un

instrument est fidle sil rpond


exactement de la mme faon quand il est
plac dans deux situations identiques.
Exemple le thermomtre. Une question claire
est dite fidle quand tout le monde la
comprend de la mme faon.
Un instrument est valide lorsquil mesure
vraiment ce quil est cens mesurer.

Les erreurs dues


lorganisation
Ce

sont les erreurs qui se glissent lors de la


collecte des donnes.

Est-ce que les consignes ont t respecte?


Les enquteurs ont-ils agi de la mme faon?

Pour

viter ces erreurs il faut utiliser les


mmes instruments, les mmes conditions.

Les erreurs dues la mthode


dchantillonnage
Il

faut toujours vrifier, la lumire des


objectifs de ltude statistique, que la
mthode dchantillonnage est adapte.

En particulier viter la surreprsentation de


certaines parties de la population.

Les erreurs dues au


phnomne de non-rponse
Mme

avec la meilleure mthode


dchantillonnage, il se prsente toujours un
certain nombre de non-rpondants, ce qui
peut entacher la reprsentativit de
lchantillon et amener des conclusions
errones.

Lerreur dchantillonnage
Le

fait dtudier un chantillon plutt quun


autre engendre forcment une erreur.
Cette erreur appele erreur dchantillonnage
est invitable.

Lerreur totale
Erreur

total = Erreur dchantillonnage +


Erreur dobservation +
Erreur due au dfaut de
couverture et au non rponse

Pour en savoir plus


www.statcan.ca/francais/edu/power/ch13/first

13_f.htm
Les techniques de sondage P. Ardilly, dition
TECHNIP 1994
http://www.unu.edu/unupress/food2/UIN12F/u
in12f0c.htm