Vous êtes sur la page 1sur 49

Collecte de donnes

F. Kohler
Gnralits
Recensement / Echantillonnage
Population
Recensement : Tous les sujets de la
population sont examins
Echantillonnage : Une partie des
sujets de la population sont
examins
Plusieurs chantillons peuvent tre
constitus
Lchantillon en lui-mme nest pas
intressant, ce sont les conclusions
sur la population que lon peut tirer de
son observation qui en font lintrt :
Infrence
tapes pour slectionner un
chantillon
tablir les objectifs de lenqute
valuer les avantages et les inconvnients dun
recensement par rapport un chantillon ou
lutilisation de dossiers administratifs
tapes pour slectionner
un chantillon
Dfinir la population cible
Cest la population totale pour laquelle on a besoin de
linformation
Il faut dfinir les units qui composent la population sous
forme de caractristiques les identifiant :
Nature des donnes dont on a besoin : sur des personnes,
des hpitaux
Emplacement gographique : primtre gographique
(rgion, canton)
Priode de rfrence : Date
Autres caractristiques dont on veut pouvoir tenir compte :
caractristiques sociodmographiques par exemple
tapes pour slectionner
un chantillon
Dterminer les donnes recueillir :
Dfinition des termes
Libell des questions
Dfinitions des mthodes de mesures
Sassurer que les exigences de lenqute seront
respectes sur le plan oprationnel
Fixer le degr de prcision
Il y a un degr dincertitude associ aux estimations
tablies partir dun chantillon qui dpend notamment de
la mthode dchantillonnage et de la taille de lchantillon
Quel degr peut-on accepter ?
Il faut tablir un compromis entre le degr dincertitude et
le budget disponible pour lenqute
La population observe
La population cible est dfinie partir des
lments prcdant
Lenqute prend en compte une population
diffrente : la population observe :
Certains membres de la population cible ne sont
pas observs par exemple du fait du cot de la
collecte des donnes
Les conclusions ne sappliqueront qu la
population rellement observe
La base de sondage
Permet davoir accs la population
Deux types
Les nomenclatures
Liste de noms et dadresses qui
donnent directement accs
des units
Exemple :
Liste dhpitaux
Liste des tudiants inscrits
en mdecine
Registre des entres
Les bases alatoires
Liste de rgions qui donnent
accs indirectement des units
Exemple :
Quartier dune ville
Service dun hpital
La base de sondage
Doit tre complte et jour
Aucun membre de la population observe ne
devrait en tre exclu ni y tre reprsent
plusieurs fois
Aucune unit ne faisant pas partie de la
population ne doit y figurer (dcd)
Les units denqute
Lunit dchantillonnage
Fait partie de la base de sondage
Peut tre ou non slectionne
Lunit dclarante
Fournit linformation quexige lenqute
Lunit danalyse ou de rfrence
Cest lunit au sujet de laquelle linformation est
fournie
Exemple
Enqute sur les nouveau-ns
Unit dchantillonnage :
Mnage
Unit dclarante
Lun des deux parents ou le tuteur
Unit danalyse
Le nouveau-n
La taille de lchantillon
Est souvent un compromis entre le degr de
prcision atteindre et le budget de lenqute
mais aussi dautre contraintes oprationnelle
comme le temps disponible
Repose notamment sur :
La variabilit des caractristiques que lon mesure
La taille de la population
Les mthodes dchantillonnage et destimation


Mthodes alatoires
(probabiliste)
Chaque unit a une
chance que lon peut
quantifier dtre
slectionne


Mthodes non alatoires
(non probabiliste)
Deux approches pour
construire un chantillon
Les mthodes alatoires
Lchantillon alatoire simple
Lchantillonnage systmatique
Lchantillonnage avec une probabilit
proportionnelle la taille
Lchantillonnage stratifi
Lchantillonnage en grappes
Lchantillonnage plusieurs degrs
Lchantillonnage plusieurs phases

Lchantillonnage alatoire
simple
consiste choisir des individus de telle sorte
que chaque membre de la population a une
chance gale de figurer dans lchantillon.
Ce choix peut se faire avec remise ou sans
remise :
Avec remise, un individu peut tre choisi
plusieurs fois
Sans remise, un individu dj choisi ne peut
ltre de nouveau. Cest le cas habituel.



Lchantillonnage alatoire
simple
Avantage de cette mthode : On peut
esprer un chantillon reprsentatif
puisque la mthode donne chaque individu
de la population une chance gale.

Difficults : la mthode nest applicable que
lorsquil existe une liste exhaustive de toute
la population.
Comment procder ?
A- Procdure gnrale
1. On numrote tous les individus de la liste correspondant
aux individus de la population avec des nombres
comportant un mme nombre de chiffres.
2. En utilisant une table de nombres alatoires, une
calculatrice ou un programme informatique, on obtient
des nombres alatoires comportant le nombre de
chiffres dsir.
3. On slectionne les nombres qui concident avec la liste.
On rejette les nombres qui ne concident pas avec la
liste ou qui se rptent, on sarrte aprs avoir
slectionn n individus
(n reprsentant le nombre dindividus souhaits
dans lchantillon).
Comment procder ?
Avec Excel
Premire colonne : identifie avec un nombre chaque
individu de la liste de rfrence.
Deuxime colonne : =alea()
Recopier les deux colonnes en valeur la mme place.
Trier les deux colonnes en fonction de lordre croissant (ou
dcroissant) de la deuxime colonne.
Retenir les n premiers individus dans la colonne 1
Application:
Choisir au hasard un chantillon de 10 personnes parmi
les individus numrots de 100 199 dune population de
100 individus
Combien peut-on raliser
dchantillon ?
Si lon note n la taille de lchantillon et N la
taille de la population.
Avec remise :


Sans remise
n
N
)! ( !
!
n N n
N
C
n
N

=
Calcul de la probabilit
dinclusion
Dans tout sondage taille fixe n, si on P
i
la
probabilit qua lindividu i dtre prsent dans
lchantillon et si on note N la taille de la
population, on a


Si p(s) est la probabilit de tirer lchantillons,
alors on obtient P
i
par

Dans un sondage alatoire simple
n
N
i
i
P
=

=1

=
i s
i
s p
P
) (
N
n
P
i
=
<= Fraction de sondage
Lchantillonnage
systmatique
Lchantillonnage systmatique est une
mthode qui exige aussi lexistence dune
liste de la population o chaque individu est
numrot de 1 jusqu N.
Notons n, le nombre dindividus que doit
comporter lchantillon (la taille de
lchantillon). Lentier voisin de N/n sera not
r et appel raison de sondage ou pas de
sondage.
Lchantillonnage
systmatique
Pour constituer lchantillon il faut :
Choisir au hasard un entier naturel d entre 1 et
r (cet entier sera le point de dpart),
Lindividu dont le numro correspond d est le
premier individu,
Pour slectionner les autres, il suffit dajouter d la
raison de sondage : les individus choisis seront
alors ceux dont les numros correspondent
d + r
d + 2r
d + 3r
etc.
Lchantillonnage
systmatique
Avantages : facile slectionner parce quun seul
individu est choisi au hasard.
On peut obtenir une bonne prcision parce que la
mthode permet de rpartir lchantillon dans
lensemble de la liste.
Dsavantages : Les donnes peuvent tre biaises
cause de la priodicit.

Application : tudier les dplacements par autobus
sur 365 jours en prenant un chantillon de taille 60.
(N=365 jours et n=60).
Lchantillonnage
systmatique
Remarques
On a une population de 400 individus, on veut un
chantillon de 100 individus
R = 4
On a donc que 4 chantillons possibles
1, 5, 9, . 397
2, 6, 10, 398
3, 7, 11, .399
4, 8, 12, 400
Si la population est distribue au hasard dans la base de
sondage, un chantillonnage systmatique donnera des
rsultats similaire ceux dun chantillonnage alatoire
simple
Cette mthode est trs utilise dans les contrles de qualit
Lchantillonnage avec une
probabilit proportionnelle la
taille
Si la base de sondage renferme de
linformation sur la taille de chaque unit
(comme le nombre de mdecins dun hpital)
et si la taille des ces unit varie, on peut
utiliser cette information pour accrotre
lefficacit de lchantillonnage.
Plus la taille de lunit est grande, plus sa
chance dtre incluse dans lchantillon est
leve
Lchantillonnage stratifi
Dmarche de slection :
1. On subdivise la population en strates (groupes
relativement homognes) qui sont mutuellement
exclusives
2. Proportionnellement son importance dans la
population, on calcule combien il faut dindividus
au sein de lchantillon pour reprsenter chaque
strate.
3.Dans chacune des strates, on choisit au hasard
le nombre ncessaire dindividus
Lchantillonnage stratifi
Les variables de starification doivent tre :
Simple utiliser
Facile observer
troitement relies au thme de lenqute
Lchantillonnage stratifi
Avantages : Il est peu probable de choisir un chantillon absurde
puisquon sassure de la prsence proportionnelle de tous les divers
sous-groupes composant la population.

Dsavantages : La mthode suppose lexistence dune liste de la
population. Il faut aussi connatre comment cette population se
rpartit selon certaines strates.

Exemple : choisir par chantillonnage stratifi 10 tudiants dans un
groupe de 60, en tenant compte du fait que 50% dentre eux sont en
PCEM1, 30% en PCEM2 et 20% en DCEM1.
Lchantillonnage stratifi
La variance totale est la somme de la variance
intrastrate et de la variance interstrate.
On cherche a avoir la plus petite variance
intrastrate et une grande variance interstrate
Estimation
Echantillonnage alatoire simple intrastrate
Moyenne gnrale :
H = Nombre de strates



Prcision


Avec :
f
h
= taux de sondage dans la strate h
n
h
= taille de lchantillon de la strate h
S
2
h
= dispersion vraie au sein de la strate h
h
H
h
h
ST
Y
N
N
Y *
^
1

=
=
h
h
h
H
h
h
ST
n
S
f
N
N
Y V
2
1
2
* ) 1 ( * )
^
(
|
.
|

\
|
=

=
Application numrique
On dispose de 1060 hpitaux. On sintresse au nombre moyen Y de mdecins
par hpital. La population est dfinie par 5 strates par tranches de taille en
fonction du nombre de mdecins. Cette information est obtenue partir de
documents de lAGHN ne donnant pas le nombre exact de mdecins mais
seulement la tranche de taille. Ralisant un sondage alatoire simple dans chaque
strate h selon un budget permettant denquter globalement 300 hpitaux, on
mesure y
h
et la dispersion S
h
2
de la variable nombre de mdecins dans
lchantillon des hpitaux tirs. Les allocations par strates sont donnes dans la
dernire colonne du tableau.
Tranche de taille N
h
Y
h
(moyenne) S
h
2
nh
0-9 500 5 1,5 130
10-19 300 12 4,0 80
20-49 150 30 8,0 60
50-499 100 150 100,0 25
500 et plus 10 600 2 500,0 5
Application numrique
Quel est lestimateur de Y, et quelle est sa
prcision ?
Tranche de
taille
Nh
Yh
(moyenne)
Sh2 nh Yh*nh
Terme de
la variance
de la
moyenne
0-9 500 5 1,5 130 2 500 0,002
10-19 300 12 4,0 80 3 600 0,003
20-49 150 30 8,0 60 4 500 0,002
50-499 100 150 100,0 25 15 000 0,027
500 et plus 10 600 2 500,0 5 6 000 0,022
Total 1 060 300 31 600 0,055
Y = 29,8
Var Y = 0,055
ET Y 0,235
BS IC 95% 30,3
BI IC 95% 29,4
h
H
h
h
ST
Y
N
N
Y *
^
1

=
=
h
h
h
H
h
h
ST
n
S
f
N
N
Y V
2
1
2
* ) 1 ( * )
^
(
|
.
|

\
|
=

=
Application numrique
Quelle serait lallocation proportionnelle ?

Tranche de
taille
Nh nh
Allocation
proportionn
elle
0-9 500 130 142
10-19 300 80 85
20-49 150 60 42
50-499 100 25 28
500 et plus 10 5 3
Tranche de
taille
Nh
Yh
(moyenne)
Sh2 nh Yh*nh
Terme de
la variance
de la
moyenne
0-9 500 5 1,5 142 2 500 0,002
10-19 300 12 4,0 85 3 600 0,003
20-49 150 30 8,0 42 4 500 0,003
50-499 100 150 100,0 28 15 000 0,023
500 et plus 10 600 2 500,0 3 6 000 0,056
Total 1 060 300 31 600 0,086
Y = 29,8
Var Y = 0,086
ET Y 0,293
BS IC 95% 30,4
BI IC 95% 29,2
Lchantillonnage par grappes
Dans les mthodes prcdentes, lunit statistique
tait choisie individuellement.
La technique de lchantillonnage en grappes
entrane la division de la population en groupes ou
grappes.
On slectionne au hasard un certain nombre de
grappes (units primaires) pour reprsenter la
population.
On slectionne tous les individus des grappes
choisies
Lchantillonnage par grappes
Avantages : la mthode ne ncessite pas une liste globale de la
population puisque seules les individus inclus dans les grappes
comptent. Elle permet de limiter lchantillon des groupes
compacts ce qui permet de rduire les cots de dplacement, de
suivi et de supervision.

Dsavantage : la mthode peut entraner des rsultats imprcis
(moins prcis que les mthodes prcdentes) puisque les units
voisines ont tendance se rassembler. Elle ne permet pas de
contrler la taille finale de lchantillon.

Exemple : Choisir par grappes 600 individus laide dun certain
nombre de mnages.
Lchantillonnage plusieurs
degrs
Ressemble lchantillonnage en grappes, sauf que
dans ce cas on prlve un chantillon lintrieur de
chaque grappe
On a au moins deux degrs
On identifie au premier les grandes grappes (units
primaires). Ces grappes renferment plus dunits quil nen
faut dans lchantillon
Au second degr, lintrieur de chaque grappes, on
slectionne les units (units secondaires) qui vont faire
partie de lchantillon
On peut utiliser plus de 2 degrs :
Niveau 1 : Ville
Niveau 1 : tablissement de sant
Niveau 3 : Mdecins
Lchantillonnage plusieurs
degrs
Avantage : chantillon plus concentr ce qui
rduit les cots, pas besoin de disposer de la
liste de toutes les units. La mthode permet
de contrler la taille de lchantillon
notamment par stratification.

Dsavantage : prcision des rsultats
Lchantillonnage plusieurs
phases
Les donnes de base sont collectes auprs
dun chantillon dunit de grande taille,
ensuite pour un sous-chantillon de ces
units, la collecte des donnes est plus
dtaille.
Le plus couramment on utilise deux phase ou
chantillonnage double
Lchantillonnage plusieurs
phases
Exemple : on a besoin dinformation sur les leveurs
de btail. Dans la base de sondage sont numrs
les type dexploitation agricoles : btail, grains, porc,
volaille, fruit lgumes. mais on ny aucune donne
auxiliaire.
On pourrait mener un enqute sur un premier chantillon
de grande taille dont la seule question serait Vous
consacrez vous en totalit au btail ?
Puis sur la slection des leveurs uniquement de btail on
extrait un second chantillon plus petit que le premier
auquel on pose des questions dtailles.
Mthodes empirique ou non
alatoires
On oppose aux mthodes alatoires les mthodes
non alatoires.
Les mthodes non alatoires sont des mthodes o
le concept de chance gale est absent. Ce sont
des mthodes gnralement peu fiables.
Elles ne ncessite pas de base de sondage
Elles sont souvent utilises
pour des tudes exploratoires;
pour rduire les cots;
quand il est impossible ou non envisageable dutiliser la
mthode alatoire.

Mthodes non alatoires
On distingue :
lchantillonnage laveuglette ou de commodit : Ex.: ..
Dguster un chantillon de vin.
Lchantillonnage de volontaires : Ex : Expriences mdicales
ou psychologiques.
Lchantillonnage au jug : cette mthode implique la slection
dindividus en fonction de lide quon se fait de la composition de
la population. On le fait pour des essais auprs des groupes
cibles.
Lchantillonnage par quotas : il est largement utilis dans les
enqutes dopinion et les tudes de march notamment parce quil
ne suppose pas de liste des individus de la population. On parle
aussi dchantillonnage dirig ou par choix raisonn. On
demande aux enquteurs de faire un nombre dentrevues dans
divers groupes tablis en fonction du secteur gographique, de
lge, du sexe ou dautres caractristiques Lenquteur doit
respecter son quota.

Mthodes non alatoires
Avantages : Moins coteuse et plus facile
raliser.

Dsavantages: Beaucoup de non-rponses;
difficult de trancher lorsquil sagit de
slectionner des individus dun groupe dge
ouvert (Ex : 65 ans et plus : faut-il prendre 66
ans, 70 ans ).



Les erreurs
Les mthodes dchantillonnage peuvent tre
sources derreurs. Un certain nombre
derreurs pourront tre limines, certaines
pourront tre rduites, mais dautres
persisteront.
Les erreurs dues aux
instruments de mesure
Un instrument est fidle sil rpond
exactement de la mme faon quand il est
plac dans deux situations identiques.
Exemple le thermomtre. Une question claire
est dite fidle quand tout le monde la
comprend de la mme faon.
Un instrument est valide lorsquil mesure
vraiment ce quil est cens mesurer.
Les erreurs dues
lorganisation
Ce sont les erreurs qui se glissent lors de la
collecte des donnes.
Est-ce que les consignes ont t respecte?
Les enquteurs ont-ils agi de la mme faon?
Pour viter ces erreurs il faut utiliser les
mmes instruments, les mmes conditions.
Les erreurs dues la mthode
dchantillonnage
Il faut toujours vrifier, la lumire des
objectifs de ltude statistique, que la
mthode dchantillonnage est adapte.

En particulier viter la surreprsentation de
certaines parties de la population.
Les erreurs dues au
phnomne de non-rponse
Mme avec la meilleure mthode
dchantillonnage, il se prsente toujours un
certain nombre de non-rpondants, ce qui
peut entacher la reprsentativit de
lchantillon et amener des conclusions
errones.
Lerreur dchantillonnage
Le fait dtudier un chantillon plutt quun
autre engendre forcment une erreur.
Cette erreur appele erreur dchantillonnage
est invitable.
Lerreur totale
Erreur total = Erreur dchantillonnage +
Erreur dobservation +
Erreur due au dfaut de
couverture et au non rponse
Pour en savoir plus
www.statcan.ca/francais/edu/power/ch13/first
13_f.htm
Les techniques de sondage P. Ardilly, dition
TECHNIP 1994
http://www.unu.edu/unupress/food2/UIN12F/
uin12f0c.htm